يقدم خبير Semalt دليلًا لإلغاء الويب باستخدام جافا سكريبت

يمكن أن تكون خدش الويب مصدرًا ممتازًا للبيانات المهمة التي يتم استخدامها في عملية صنع القرار في أي عمل تجاري. لذلك ، فهي في صميم تحليل البيانات لأنها الطريقة الوحيدة المؤكدة لجمع البيانات الموثوقة. ولكن ، نظرًا لأن كمية المحتوى المتاح على الإنترنت للتخلص منه آخذة في الارتفاع دائمًا ، فقد يصبح من المستحيل تقريبًا حذف كل صفحة يدويًا. هذا يتطلب الأتمتة.

في حين أن هناك العديد من الأدوات التي تم تصميمها خصيصًا لمشاريع القشط الآلي المختلفة ، فإن معظمها ممتاز وسيكلفك ثروة. هذا هو المكان الذي يأتي فيه Puppeteer + Chrome + Node.JS. سيرشدك هذا البرنامج التعليمي خلال العملية مما يضمن أنه يمكنك اكتشاف مواقع الويب بسهولة تلقائيًا.

كيف يعمل الإعداد؟

من المهم ملاحظة أن الحصول على القليل من المعرفة بجافا سكريبت سيكون مفيدًا في هذا المشروع. بالنسبة للمبتدئين ، سيكون عليك الحصول على البرامج الثلاثة المذكورة أعلاه بشكل منفصل. Puppeteer هي مكتبة عقدة يمكن استخدامها للتحكم في Chrome بدون رأس. يشير Chrome بدون رأس إلى عملية تشغيل الكروم بدون واجهة المستخدم الرسومية ، أو بعبارة أخرى بدون تشغيل الكروم. سيكون عليك تثبيت العقدة 8+ من موقعها الرسمي.

بعد تثبيت البرامج ، حان الوقت لإنشاء مشروع جديد من أجل البدء في تصميم الكود. من الناحية المثالية ، يتم استخدام جافا سكريبت في أنك ستستخدم الكود لأتمتة عملية الكشط. لمزيد من المعلومات حول Puppeteer ارجع إلى وثائقها ، هناك مئات الأمثلة المتاحة لتلعب بها.

كيفية أتمتة كشط جافا سكريبت

عند إنشاء مشروع جديد ، تابع إنشاء ملف (.js). في السطر الأول ، سيكون عليك استدعاء تبعية Puppeteer التي قمت بتثبيتها سابقًا. ويتبع ذلك بعد ذلك وظيفة أساسية "getPic ()" والتي ستحتفظ بكل كود الأتمتة. سيقوم السطر الثالث باستدعاء الوظيفة "getPic ()" لتشغيلها. مع الأخذ في الاعتبار أن دالة getPic () هي دالة "غير متزامنة" ، يمكننا بعد ذلك استخدام تعبير الانتظار الذي سيوقف الوظيفة مؤقتًا أثناء انتظار حل "الوعد" قبل الانتقال إلى السطر التالي من التعليمات البرمجية. هذا سوف يعمل كوظيفة الأتمتة الأساسية.

كيفية استدعاء الكروم بدون رأس

السطر التالي من الكود: "const browser = await puppeteer.Launch ()؛" سيتم تشغيل puppeteer تلقائيًا وتشغيل مثيل Chrome لضبطه على متغير "المتصفح" الذي تم إنشاؤه حديثًا. تابع إنشاء صفحة سيتم استخدامها بعد ذلك للانتقال إلى عنوان URL الذي تريد حذفه.

كيفية التخلص من البيانات

تسمح لك Puppeteer API باللعب مع إدخالات موقع الويب المختلفة مثل تسجيل الوقت ، وملء النموذج ، وكذلك قراءة البيانات. يمكنك الرجوع إليها للحصول على رؤية قريبة لكيفية أتمتة تلك العمليات. سيتم استخدام وظيفة "scrape ()" لإدخال رمز الكشط الخاص بنا. تابع تشغيل وظيفة العقدة scrape.js لبدء عملية الكشط. يجب أن يبدأ الإعداد بالكامل تلقائيًا في إخراج المحتوى المطلوب. من المهم أن تتذكر قراءة التعليمات البرمجية والتحقق من أن كل شيء يعمل وفقًا للتصميم لتجنب الوقوع في الأخطاء على طول الطريق.