در این مقاله به معرفی خزنده وب هارا بررسی نحوه عملکرد آن ها می پردازیم.
حتما بارها در گوگل جستجو کرده اید. اما آیا تا به حال به این فکر کرده اید که “گوگل چگونه می داند کجارا باید جست و جو کند؟” پاسخ به این سوال “خزنده وب” است. آنها می توانند وب را جستجو کرده و آن را فهرست بندی کنند تا بتوانید موارد مختلف را به راحتی پیدا کنید. در ادامه به توضیح کامل این موضوع می پردازیم.
موتورهای جستجو و خزنده وب
هنگامی که از یک کلمه کلیدی در موتور جستجویی مانند گوگل استفاده می کنید، این وب سایت تریلیون ها صفحه را اسکن می کند تا لیستی از نتایج مرتبط با آن عبارت ایجاد کند. در اینجا سؤالاتی در ذهن کاربران کنجکاو ایجاد می شود: این موتورهای جستجو دقیقاً چگونه به همه این صفحات دسترسی دارند؟ چگونه می دانند چگونه آنها را جستجو کنند و این نتایج را در چند ثانیه تولید کنند و به کاربر نشان دهند؟
پاسخ این سوال خزنده های وب است که به عنکبوت ها نیز معروف هستند. آنها برنامه های خودکاری به نام روبات یا بات هستند که در وب می خزند تا به موتورهای جستجو اضافه شوند. این رباتها وبسایتهای مختلفی را برای ایجاد فهرستی از صفحاتی که در نهایت در نتایج جستجوی شما ظاهر میشوند، پیدا میکنند.
خزنده ها همچنین کپی هایی از این صفحات را در پایگاه داده موتور ایجاد و ذخیره می کنند و به شما امکان می دهند موارد مختلف را به سرعت جستجو کنید. به همین دلیل، موتورهای جستجو اغلب نسخه های کش شده سایت ها را در پایگاه داده خود قرار می دهند.
خزنده چگونه کار می کند؟
در اصل، یک خزنده مانند یک کتابدار است. به دنبال اطلاعاتی در وب میگردد که آنها را به دستههای خاصی اختصاص میدهد و سپس آنها را فهرستبندی میکند تا اطلاعات خزیدهشده قابل بازیابی و ارزیابی شوند.
عملیات این برنامه های کامپیوتری باید قبل از شروع خزیدن مشخص شود. بنابراین هر سفارش از قبل تعریف شده است. سپس خزنده این دستورالعمل ها را به صورت خودکار اجرا می کند. یک نمایه با نتایج خزنده ایجاد می شود که از طریق نرم افزار خروجی قابل دسترسی است.
اطلاعاتی که یک خزنده از وب جمع آوری می کند به دستورالعمل های خاص بستگی دارد.
نقشه های وب سایت و انتخاب
خزنده ها چگونه وب سایت هایی را برای خزیدن انتخاب می کنند؟ باید بگوییم که رایجترین سناریو این است که صاحبان وبسایتها میخواهند موتورهای جستجو در سایتهایشان بخزند. آنها میتوانند با درخواست از گوگل، یاهو یا موتورهای جستجوی دیگر برای فهرست کردن صفحاتشان به این هدف دست یابند. این فرآیند از موتوری به موتور دیگر متفاوت است. همچنین، موتورهای جستجو اغلب وبسایتهای محبوب و راحت را برای خزیدن با ردیابی تعداد دفعاتی که یک URL به وبسایتهای عمومی دیگر پیوند میدهد، انتخاب میکنند.
صاحبان وب سایت می توانند از فرآیندهای ویژه ای برای کمک به موتورهای جستجو برای فهرست کردن وب سایت های خود استفاده کنند. مانند آپلود نقشه سایت. این فایل شامل تمامی لینک ها و صفحاتی است که بخشی از وب سایت شما هستند. همچنین، این فایل معمولا برای نشان دادن اینکه کدام صفحات قرار است ایندکس شوند استفاده می شود.
هنگامی که موتورهای جستجو قبلاً یک وب سایت را خزیده باشند، به طور خودکار آن وب سایت را برای انجام این کار مجدداً انتخاب می کنند. تعداد دفعات انجام آن بسته به محبوبیت وب سایت و معیارهای دیگر متفاوت خواهد بود. بنابراین، صاحبان وب سایت اغلب نقشه های سایت خود را به روز می کنند.
صفحات را از خزنده ها پنهان کنید
اگر یک وب سایت نمی خواهد برخی یا همه صفحات آن در موتور جستجو ظاهر شود چه؟ به عنوان مثال، ممکن است نخواهید افراد قادر به جستجوی یک صفحه فقط برای اعضا باشند یا صفحه خطای ۴۰۴ را در سایت شما مشاهده کنند. اینجاست که لیست محرومیت از خزیدن به نام robots.txt وارد عمل می شود. این گزینه یک فایل متنی ساده است که به خزنده ها می گوید کدام صفحات وب را از فهرست حذف کنند.
دلیل دیگری که robots.txt مهم است این است که خزنده وب می توانند تأثیر قابل توجهی بر عملکرد وب سایت داشته باشند. از آنجا که خزنده وب ها تقریباً تمام صفحات وب شما را دانلود می کنند، می توانند سرعت شما را کاهش دهند. همچنین کار آنها زمان قابل پیش بینی ندارد و بدون تایید وارد می شوند. اگر نیازی به خزیدن مکرر صفحات خود ندارید، توقف خزنده ها ممکن است به کاهش بار وب سایت شما کمک کند. خوشبختانه اکثر خزنده ها خزیدن در برخی از صفحات را طبق قوانین مالک سایت متوقف می کنند.
نمونه هایی از خزنده وب
شناخته شده ترین خزنده وب گوگل ربات است و نمونه های اضافی زیادی وجود دارد زیرا موتورهای جستجو معمولاً از خزنده وب خود استفاده می کنند. مثلا
- Bingbot
- Slurp Bot
- DuckDuckBot
- بایدوسپایدر
- ربات Yandex
- عنکبوت سوگو
- Exabot
- خزنده الکسا
جمع بندی
جستجوی وب یکی از بخشهای ضروری استفاده از اینترنت است. جستجو در وب یک راه عالی برای کشف وب سایت ها، فروشگاه ها، جوامع و علایق جدید است. خزنده وب هر روز از میلیون ها صفحه بازدید می کنند و آنها را به موتورهای جستجو اضافه می کنند. در نهایت باید بگوییم که خزندگان معایبی نیز دارند. اما برای صاحبان وب سایت و بازدیدکنندگان نیز بسیار ارزشمند هستند.