۳-۵ چالش های اجرای یک خزنده
با توجه به اندازه و نرخ بالای تغییر در وب، خزنده با چالش های بسیار مهمی روبه رو است که در زیر به آن ها اشاره شده است:
۳-۵-۱ انتخاب صفحات برای دانلود
( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
در اغلب موارد خزنده نمی تواند همه ی صفحات وب را دانلود نماید. حتی اغلب موتورهای جستجوی جامع هم تنها بخش کوچکی از تمام وب را فهرست می کنند. با توجه به این واقعیت، برای خزنده بسیار مهم می باشد که با دقت صفحات را انتخاب و مهمترین صفحات را در ابتدا ملاقات نماید به طوری که بخشی از وب که بازدید و بروز نگه داشته شده است معنی دار باشد]۲۳ و ۳۶[.
۳-۵-۲ بازدید مجدد صفحات
اولین بار که خزنده تعدادی از صفحات معنی دار را دانلود می کند مجبور است دوباره صفحـات دانلـود
شده را به منظور تشخیص تغییرات و تازه کـردن مجموعه دانلود مـلاقات نماید. خزنـده باید با دقت تصمیم گیری کند که کدام صفحات باید بازنگری شوند و کدام صفحات به دلیل اینکه نرخ تغییرات در وب زیاد و بسیار متـفاوت می باشد به منظور دستیابی به طراوت[۱۰۱] بالا، نادیده گـرفته شـوند]۱۹[.
هر بارکه کراولر ”صفحات مهم” را دانلود می کند، مجبور است برای یافتن تغییرات و روزآمدسازی صفحات دانلود شده، آنها را مورد مرور مجدد قرار دهد. به دلیل این که صفحات وب با سرعت متفاوتی تغییر می کنند کراولر نیاز دارد که با دقت تصمیم بگیرد که کدام صفحات را مورد مرور مجدد قرار دهد و از کدام صفحات صرف نظر کند. این تصمیم ممکن است به طور قابل توجهی بر روزآمدسازی یک مجموعه دانلود شده اثر بگذارد مثلاً اگر یک صفحه مشخص به ندرت تغییر می کند، کراولر ممکن است به دلیل بازدید از صفحاتی که بیش تر تغییر می کنند، آن صفحه را کم تر مورد بازدید مجدد قرار دهد]۱۹ و ۳۶[.
ماژول خزنده موظف است صفحات وب را برای تحلیل و ایجاد شاخص به صورت جامع استخراج کرده و تحویل انباره صفحـات بدهد. این ماژول با یک مجمـوعه اولیه یو آر اِل کار خـود را شروع می کند. این یو آر اِل ها به صورت یک صف اولویت دار قرار می گیرند. این ماژول آدرس لینک های موجود در یـک URL را نیـز بازیابی و آدرس هـای ملاقـات شده را حذف می کند]۳۶[.
۳-۶ پیچیدگی های فرایند خزیدن
با توجه به ماهیت دائماً متغیر وب، خزنده ی وب با پیچیدگی های زیر رو به رو است] ۲۳ و ۲۴ [:
-
- انتخاب صفحات
-
- مدل خزیدن
-
- تازه سازی و سرکشی دوره ای به صفحات وب
۳-۶-۱ استراتژی های سنجش انتخاب صفحات
-
- معیار مبتنی بر گرایشات کاربران[۱۰۲]
-
- معیار مبتنی بر شهرت صفحات[۱۰۳]
-
- معیار مبتنی بر محل قرار گرفتن صفحات[۱۰۴]
۳-۶-۱-۱ معیار مبتنی بر گرایشات کاربران
در این روش هدف فراهم آوردن صفحات مورد نظر کاربر یا مجموعه ای از کاربران است. پس صفحات مهم، صفحاتی هستند که با خواسته کاربر مرتبط اند و از طریق میزان شباهت بین کلید واژه های متن و سوال مورد نظر کاربر صفحات با اهمیت مشخص می شوند یعنی هر چه کلید واژه های سـوال در متنی بیشتر تکرار شده باشد یا آن کلید واژه در عنوان یا خطوط ابتدایی متن آمده باشد، آن متن دارای اهمیت بیشتری است و در صفحه نمایش در قسمت بالاتری قرار می گیرد]۲۳ و ۲۴[.
۳-۶-۱-۲ معیار مبتنی بر شهرت صفحات
در این روش اهمیت صفحه بستگی به میزان محبوبیت آن صفحه دارد. یک راه تشخیص محبوبیت صفحات از طریق تعداد لینک هـایی است که به آن صفحـه اشاره شده است یعنی صفـحه ای که تعـداد بیشتری لینک به آن اشاره شده باشد مهم تر است]۲۳ و ۲۴[.
۳-۶-۱-۳ معیار مبتنی بر محل قرار گرفتن صفحات
در معیار مبتنی بر محل قرار گرفتن صفحه، منظور از محل قرار گرفتن صفحه، آدرس صفحه، ماهیت آدرس از لحاظ com. یا net . یا edu. و … و میزان فاصله آن از صفحه خانگی آن وب سایت است]۲۳ و ۲۴[.
۳-۷ چگونگی آغاز و ختم فرایند استخراج و ذخیره سازی صفحات وب
-
- خزش و توقف[۱۰۵]
-
- خزش و توقف مبتنی بر مقدار آستانه[۱۰۶]
۳-۷-۱ خزش و توقف
در روش خزش و توقف، خزنده پس از ملاقات و دریافت دقیقاً k صفحه وب متوقف می شود که k عددی ثابت است. صفحات نیز به ترتیب اهمیت شان مرتب می شوند]۴۸[.
۳-۷-۲ خزش و توقف مبتنی بر مقدار آستانه
در روش خزش و توقف مبتنی بر مقدار آستانه، دقیقاً مانند الگوی توقف و خزش عملیات انجام می شود با این تفاوت که صفحاتی دریافت و ذخیره می شوند که اهمیت آنان از مقدار آستانه t بیشتر باشد]۴۸[.
۳-۸ استراتژی های روزآمدسازی صفحات
-
- سیاست روزآمد سازی یکپارچه[۱۰۷]
-
- سیاست روزآمد سازی نسبی[۱۰۸]
۳-۸-۱ سیاست روزآمد سازی یکپارچه
طبق سیاست روزآمد سازی یکپارچه، خزنده تمام صفحـات را در یک بسـامد و بدون توجـه به این که
چگونه این صفحات تغییر یافته اند، مورد مرور مجدد قرار می دهد]۲۳[.
۳-۸-۲ سیاست روزآمد سازی نسبی