ویژگی های مبتنی بر محتوا:
تعداد کلمات در صفحه، تعداد کلمات در عنوان، میانگین طول کلمات، کسری از تعداد کلمات در متن لنگر به کل کلمات در صفحه، کسری از متن قابل رویت، نرخ فشردگی، دقت و فراخوانی پیکره که k تا از پرتکرارترین کلمات در مجموعه داده یافته شده است، به استثنای stopword ها. دقت پیکره[۸۰] بخشی از کلمات در یک صفحه نامیده می شود که در مجموعه کلمات محبوب وجود دارند. فراخوانی پیکره[۸۱] بخشی از کلمات محبوب تعریف شده که در صفحه ظاهر شده است. برای هر دوی دقت پیکره و فراخوانی پیکره ۴ ویژگی استخراج شده است، برای.k =100, 200, 500, 1000
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
دقت پرسش و فراخوانی پرسش که مجموعه q را اصطلاحات محبوب پرتکرار در یک query log در نظر گرفته شده است (۸ ویژگی)، احتمال trigram مستقل، انتروپی trigram. به طورکلی ۲۴ ویژگی برای هر صفحه استخراج شد.
پس ویژگی های مبتنی بر محتوای صفحات برای رسیدن به ویژگی های مبتنی بر محتوای میزبان ترکیب می شود. فرض کنید h یک میزبان در برگیرنده m صفحه ی وب باشد ، به وسیله مجموعه P={p1,….,pm} مشخص شود. را صفحه ی خانگی میزبان h در نظر گرفته و را صفحه با بزرگترین رتبه صفحه مابین صفحات در P در نظر گرفته می شود. c(P) ویژگی های محتوایی ۲۴ بعدی از صفحه P می باشد. برای میزبان h بردار ویژگی های مبتنی بر محتوا c(h) مطابق زیر تشکیل می شود.
C(h)=<c(,c(,E[c(p)],Var[c(p)]>
در اینجا E[c(p)] میانگین همه بردارهای c(p) است و p P و Var[c(p)] واریانس c(p) است. بنابراین برای هر میزبان داریم ۴ *۲۴=۹۶ ویژگی محتوایی، به طور کلی ۱۴۰+۹۶=۲۳۶ ویژگی مبتنی بر لینک و ویژگی محتوا تعریف می شود.
در فرایند ترکیب ویژگی های صفحه، میزبان های h برای صفحه خانگی یا صفحه ی بیشینه رتبه صفحه را نادیده گرفته شده است که در نمونه خلاصه ارائه نشده است ]۴۴[.
طبقه بندی کننده:
به عنوان طبقه بندی کننده پایه پیاده سازی C4.5 (درخت تصمیم) در وکا را استفاده شده است ]۲۶[. با بهره گرفتن از هر دوی ویژگی های مبتنی بر لینک و محتوا، درخت نتیجه ۴۱ ویژگی واحد دارد که ۱۸ تای آنها ویژگی های مبتنی بر محتوا هستند. برای کمینه کردن خطای misclassify از درخت تصمیم حساس به هزینه استفاده شده و هزینه صفر را برای طبقه بندی به درستی در نظر گرفته شده و مجموعه هزینه misclassify یک میزبان هرزنامه را به عنوان نرمال R بار بزرگتر نسبت به misclassify یک میزبان نرمال به عنوان هرزنامه اعمال شده است. سپس طبقه بندی کننده پایه را با بهره گرفتن از bagging بهبود داده شده است.
bagging نتایج را به وسیله کاهش نرخ مثبت غلط بهبود می دهد. درخت تصمیم ایجاد شده به وسیله bagging اندازه ای مشابه با درخت تصمیم بدون bagging دارد و از ۴۹ ویژگی واحد استفاده می کند که ۲۱ تا از آنها ویژگی های محتوایی هستند.
طبقه بندی که پایه و اساس آزمایشات ما در آینده نیز می باشد از bagging با درخت تصمیم حساس به هزینه R=30 استفاده می کند.
خوشه بندی:
به طور مستقیم اگر اکثریت یک خوشه به عنوان هرزنامه پیش بینی شده است، پیش بینی برای همه میزبانها در خوشه به هرزنامه تغییر داده شده است. به طور مشابه اگر اکثریت یک خوشه به عنوان غیرهرزنامه پیش بینی شده است همه میزبانهای این خوشه را به عنوان غیرهرزنامه پیش بینی شده است.
گراف G با بهره گرفتن از الگوریتمهای خوشه بندی گراف METIS خوشه بندی شده اند. ۱۱۴۰۰ میزبان گراف را به ۱۰۰۰ خوشه تقسیم بندی شدند. براساس نتایج تعداد خوشه ها زیاد مهم نیست و به نتایج مشابهی برای تقسیم گراف به ۵۰۰ و ۲۰۰۰ خوشه دست یافته شده است.
فرض کنید که خوشه بندی G از m خوشه ی c1 تا cm تشکیل شده است که پارتیشن جدای v را شکل می دهند. فرض p(h) [0..1]، پیش بینی یک الگوریتم طبقه بندی ویژه C باشد، برای هر میزبان h یک میزان p(h) مساوی با صفر غیرهرزنامه بودن و یک مقدار ۱ هرزنامه بودن را نشان دهد ( به طور رسمی ، p(h) را درجه هرزنامه گی پیش بینی شده گراف h می خوانیم). برای هر خوشه ی Cj و j=1..m، میانگین هرزنامه گی به صورت زیر تعریف می شود.
(۳-۸)
p(Cj)=
الگوریتم ما از دو آستانه استفاده می کند، یک آستانه کمتر t1 و یک آستانه بالاتر tn. برای هر خوشه Cj اگر P(Cj)≤tL همه میزبانها در Cj به عنوان هرزنامه برچسب می خوردند و P(h) با صفر تنظیم می شود برای همه hCj. به طور مشابه اگر P(Cj)≥tn همه میزبان ها در Cj به عنوان هرزنامه برچسب می خورند و p(h) مساوی ۱ تنظیم می شود.
انتشار
شبیه سازی قدم زدن تصادفی را از گرههایی که در طبقه بندی کننده پایه به عنوان “هرزنامه” برچسب گذاری شده است، شروع کرده، یک پیوند با احتمال α را دنبال نموده و با احتمال ۱-α به گره هرزنامه برگردانده می شود. زمان برگشت به یک گره هرزنامه ، گره با احتمال متناسب با پیش بینی “spamcity” برداشته می شود، بعد از این فرایند، از قسمت آموزشی داده برای یادگیری یک پارامتر آستانه استفاده می شود و از این آستانه برای طبقه بندی کردن قسمت تست به عنوان هرزنامه و غیرهرزنامه استفاده می شود.
یادگیری گرافیکی پشته ای
یک طرح یادگیری پایه C برای استخراج پیش بینی های اولیه برای اشیا در مجموعه داده استفاده می کند. سپس یک مجموعه ویژگی های اضافی را با ترکیب پیش بینی ها برای اشیا مرتبط در گراف برای هر شی خلق می کند. نهایتاً ویژگی های اضافی به ورودی C اضافه می کند و الگوریتم را برای بدست آوردن ویژگی های جدید اجرا می کند، پیش بینی ها برای داده ها بهتر هستند.
P(h) [0..1] پیش بینی الگوریتم طبقه بندی کننده ویژه C که در بالا شرح داده شده می باشد . فرض کنید r(h) مجموعه صفحات مرتبط با h باشد، در اینصورت:
f(h)=
سپس f(h) را به عنوان یک ویژگی اضافی برای نمونه h در الگوریتم طبقه بندی C اضافه کرده و دوباره الگوریتم اجرا می شود. این فرایند می تواند به دفعات تکرار شود اما اغلب بهبود با تکرار نخست بدست آمده است ]۴۴[.
۳-۴-۵ تشخیص هرزنامه وب از طریق آنالیز مدلهای زبانی:
در این مطالعه رویکرد مدل زبان برای منابع اطلاعاتی استخراج شده از یک صفحه وب به منظور ارائه شاخص های با کیفیت بالا در تشخیص صفحات هرزنامه وب به کار می برد. از واگرایی کولبک-لیبلر به منظور توصیف ارتباط دو صفحه که به هم لینک شده اند استفاده شده است. با توجه به ماهیت متفاوت لینکهای خارجی و داخلی سه نوع از لینکها را که یک بهبود قابل توجه در طبقه بندی بدست میدادند متمایز کرده اند. در این مقاله چند ویژگی جدید براساس مدل های زبانی برای بهبود تشخیص هرزنامه وب ارائه داده شده است. از زمانی که مدل های آماری ارائه شدند و در اوایل ۱۹۶۰ در بازیابی اطلاعات مورد استفاده قرار گرفتند هیچ مزیتی واضح و روشنی برای مدل فضای برداری نداشت تا وقتی که پونته و کرافت کار خود را ارائه دادند که از مدل های مختلف احتمالاتی برای بازیابی اطلاعات استفاده کردند به عنوان مثال روش رتبه دهی احتمال پرس و جو ]۹۱[. مدلهای آماری زبان برای ضبط ویژگیهای پنهان شده در متن ها توسعه یافته اند نظیر احتمال کلمات یا ترتیب کلمات در زبان. یک مدل آماری زبان (SLM) یک P(s) یک توزیع احتمالاتی روی رشته S است که تلاش میکند، منعکس کند که چگونه یک رشته S روی یک عبارت اتفاق می افتد .
یک مدل زبانی از هر منبع اطلاعاتی ساخته شده و سپس بررسی شده که این دو مدل زبانی چه تفاوتهایی نسبت به هم دارند.
طبقه بندی:
از دو مجموعه هرزنامه وب عمومی که در می ۲۰۰۶ و ۲۰۰۷ روی .uk دامین، خزش شده اند، استفاده شده است.
از یک الگوریتم طبقه بندی مبتنی بر درخت تصمیم حساس به هزینهبه همراه bagging بهره گرفته و برای آزمایش ها از ویژگی های لینک و محتوایی از پیش محاسبه شده استفاده شده که این ویژگی ها قبلاً در ۲ و ۱۴ ارائه شده اند ]۹۲[. برای تمام پیش بینی ها از اعتبارسنجی ten-fold استفاده شده است.
مدلهای زبانی و ویژگی ها:
یکی از موفق ترین روشها مبتنی بر تجزیه و تحلیل توزیع اصطلاحات از مفهوم واگرایی کوبلک – لیبلر (KLD) برای محاسبه واگرایی مابین توزیع های احتمالاتی اصطلاحات دو سند خاص استفاده می کند ]۹۳[. از KLD برای اندازه گیری واگرایی مابین دو واحد متن صفحات منبع و مقصد استفاده شده است. در طرح زیر دو نمونه از KLD به کار رفته به متن لنگر لینک و عنوان صفحه مورد اشاره توسط این لینک نمایش داده شده است.
KLD(T1||T2)=
PT1(t) احتمال اصطلاح t در نخستین واحد متن، PT2(t) احتمال اصطلاح t در دومین واحد متن می باشد.
KLD(Free Ringtones||Free Ringtones for Your Mobile Phone from remieringtones.com)=0.25
KLD(Best UK Reviews || Findabmw.co.uk-BMW Information Resoure)=3.89
واگرایی محاسبه شده KLD مابین متن لنگر یک پیوند و عنوان صفحه مورد اشاره به وسیله این لینک، نمونه استحراج شده از Web Spam UK2006.
مدلهای زبانی که استفاده شده بیشینه احتمال وقوع های unigram را تخمین می زند. نتایج نشان داده که با smoothing بهبود حاصل شده است هرچند تفاوت ناچیز است، علاوه بر این زمان محاسبه افزایش یافته است، به این دو دلیل ما تصمیم گرفته شده که از smoothing برای مدلهای زبانی در این کار استفاده نشود .
ویژگی ها:
مقادیر مختلف با محاسبه واگرایی KL مابین یک یا چند منبع اطلاعاتی از هر صفحه بدست آمده است. به ویژه به سه منبع اطلاعاتی از هر صفحه توجه شده i) متن لنگر ii) اطراف متن لنگر iiii)اصطلاحاتURL . همچنین سه منبع اطلاعاتی را از صفحه مقصد بدست آورده اند: i) عنوان ii) محتوای صفحه iii) برچسب های متا.
در این مطالعه مقادیر مختلف واگرایی برای “متن لنگر– محتوا” (محتوای صفحه مقصد)، محیط متن لنگر-محتوا، اصطلاحات URL–محتوا(محتوای صفحه مقصد)، متن لنگر – عنوان(عنوان صفحه هدف)، اطراف متن لنگر-عنوان، اصطلاحات URL – عنوان، عنوان–محتوا(ارتباط بین عنوان و محتوای صفحه در همان سایت)، متا برچسب ها و منابع اطلاعاتی دیگر نظیر متن لنگر و محیط متن لنگر از صفحه منبع و محتوای صفحه و اصطلاحات URL از صفحه هدف مورد محاسبه قرار گرفته است.
ترکیب منابع اطلاعاتی
منابع مختلف اطلاعاتی از صفحه ی منبع ترکیب شده اند.متن لنگر (A)، محیط متن لنگر (S) و اصطلاحات URL (U) به عنوان منابع اطلاعاتی استفاده کرده و همچنین دو منبع جدید اطلاعاتی را پیشنهاد داده اند : ترکیب متن لنگر و اصطلاحات URL (AU) و ترکیب محیط اطراف متن لنگر و اصطلاحات URL (SU).علاوه بر این منابع اطلاعاتی از صفحه هدف نیز مورد توجه قرار گرفته است (محتوای صفحه (P) ، عنوان صفحه (T) و متا برچسب ها (M)).
مابین لینک های داخلی و خارجی به منظور آنالیز واگرایی تمایز قائل شده و بنابراین برای هر صفحه وب ما ویژگی های سه گانه داریم: ۱۴ ویژگی برای لینک های خارجی، ۱۴ ویژگی برای لینک های داخلی و ۱۴ ویژگی برای لینک های داخلی و خارجی. میانگین توزیع هرزنامه در لینک های خارجی (KL≈۳) نسبت به لینک های داخلی (۵/۴ (KL≈ بالاتر است.
از Web Spam uk2007 و Web Spam uk2006 استفاده شده است. از ویژگیهای از پیش محاسبه شده موجود برای مجموعه داده های عمومی استفاده کرده. به ویژه از ویژگی های مبتنی بر محتوا و ویژگی های مبتنی بر لینک تغییریافته استفاده شده است. و سرانجام ویژگی های مدلهای زبانی و محتوا و لینک را به منظور رسیدن به طبقه بندی کننده با دقت بیشتر ترکیب کرده اند. برای طبقه بندی از الگوریتم های meta cost ( درخت تصمیم حساس به هزینه به همراه bagging) پیاده سازی شده در وکا استفاده کرده اند.
بهترین F-measure در آزمایشات زمانی بدست آمد که ویژگی های مدلهای زبانی و محتوایی ترکیب شدند (C U L U M) با بهبود ۲ درصد نسبت به پایه ]۹۴[.
۳-۴-۶ تاثیر زبان صفحه بر ویژگی های تشخیص هرزنامه وب:
تاثیر زبان صفحه بر ویژگی های شناسایی هرزنامه بررسی شده است. به بررسی نحوه توزیع مجموعه ویژگی های تشخیص انتخابی و تغییر آنها بر طبق زبان صفحه پرداخته شده و علاوه بر آن ما به مطالعه تاثیر زبان صفحه بر روی نرخ تشخیص طبقه بندی کننده فرضی با بهره گرفتن از مجموعه انتخابی ویژگی ها پرداخته شده است. نتایج تحلیلی نشان می دهند که انتخاب ویژگی های مناسب برای یک طبقه بندی کننده که تفکیک کننده صفحات هرزنامه است، بسیار زیاد وابسته به زبان صفحه وب است.