كشط الويب أو حصاد الويب أو استخراج بيانات الويب هو عملية تجريف البيانات المستخدمة لاستخراج البيانات من مواقع الويب. قد يقوم برنامج تجريف الويب بالوصول إلى World Wide Web مباشرةً باستخدام بروتوكول نقل النص التشعبي (Hypertext Transfer Protocol) ، أو من خلال متصفح الويب. بينما يمكن أن تتم عملية مسح الويب يدويًا بواسطة مستخدم البرنامج ، يشير المصطلح عادةً إلى العمليات التلقائية التي يتم تنفيذها باستخدام برنامج تتبع المواقع أو زاحف الويب. وهو شكل من أشكال النسخ ، حيث يتم جمع البيانات المحددة ونسخها من الويب ، عادة في قاعدة بيانات أو جدول بيانات محلي مركزي ، لاسترجاعها أو تحليلها في وقت لاحق.تجريف الويب صفحة الويب ينطوي على جلبها واستخلاص منها. الجلب هو تنزيل الصفحة (التي يفعلها المتصفح عند عرض الصفحة). لذلك ، يعد الزحف على الويب مكونًا أساسيًا في تجزئة الويب ، لجلب الصفحات للمعالجة لاحقًا. بمجرد الحصول ، يمكن أن يحدث الاستخراج. قد يتم تحليل محتوى الصفحة ، أو البحث عنه ، أو إعادة تنسيقه ، أو نسخ بياناته في جدول بيانات ، وهكذا. عادةً ما تأخذ كاشطات الويب شيئًا ما من صفحة ، للاستفادة منه لغرض آخر في مكان آخر. مثال على ذلك هو البحث عن الأسماء وأرقام الهواتف ، أو الشركات وعناوين URL الخاصة بها ونسخها ، إلى قائمة (تجريف جهة الاتصال).يتم استخدام تجريف الويب لكشط الاتصال ، وكمكون من التطبيقات المستخدمة لفهرسة الويب والتعدين على الويب والتنقيب عن البيانات ومراقبة تغير الأسعار عبر الإنترنت ومقارنة الأسعار ، وكشط مراجعة المنتجات (لمشاهدة المنافسة) ، وجمع قوائم العقارات ، وبيانات الطقس المراقبة ، وتغيير مواقع الويب ، والبحث ، وتتبع الحضور والسمعة عبر الإنترنت ، والميزات على الويب ، وتكامل بيانات الويب.يتم إنشاء صفحات الويب باستخدام لغات ترميز نصية (HTML و XHTML) ، وكثيراً ما تحتوي على ثروة من البيانات المفيدة في نموذج نصي. ومع ذلك ، فإن معظم صفحات الويب مصممة للمستخدمين النهائيين البشر وليس لسهولة الاستخدام الآلي. وبسبب هذا ، تم إنشاء مجموعات الأدوات التي تم إنشاؤها محتوى الويب كشط. مكشطة الويب هي واجهة برمجة التطبيقات (API) لاستخراج البيانات من موقع ويب. توفر شركات مثل Amazon AWS و Google أدوات وكشط وبيانات عامة على شبكة الإنترنت متاحة مجانًا للمستخدمين النهائيين.تتضمن الأشكال الجديدة من تجريف الويب الاستماع إلى خلاصات البيانات من خوادم الويب. على سبيل المثال ، يستخدم JSON عادة كآلية تخزين النقل بين العميل وخادم الويب.هناك طرق تستخدمها بعض مواقع الويب لمنع تجريف الويب ، مثل اكتشاف برامج التتبع وعدم السماح بها من الزحف (مشاهدة) صفحاتها. رداً على ذلك ، هناك أنظمة كشط للويب تعتمد على استخدام التقنيات في تحليل DOM ورؤية الكمبيوتر ومعالجة اللغة الطبيعية لمحاكاة التصفح البشري لتمكين تجميع محتوى صفحة الويب لإجراء تحليل دون اتصال. edit