(۳-۱)
در فرمول بالا X نشاندهنده مقدار متغیر است.
۳-۲-۴- تعیین تعداد بهینه خوشهها
یکی از مهمترین مسایل در خوشهبندی انتخاب تعداد خوشههای مناسب میباشد. تعداد خوشهای مناسب میباشد که:
نمونههای موجود در یک خوشه تا حد امکان شبیه به یکدیگر باشند.
نمونههای متعلق به خوشههای متفاوت تا حد امکان با یکدیگر نامشابه باشند.
عبارات فوق را بدین صورت نیز بیان میکنند که خوشهها باید بیشینه فشردگی داشته باشند و تا حد امکان جدایی آنها نیز زیاد باشد. برای یک خوشهبندی مناسب هر دو معیار باهم باید ارضا شوند چرا که اگر تنها معیار فشردگی مورد استفاده قرار گیرد در آن صورت هر داده میتواند به صورت یک خوشه در نظر گرفته شود چرا که هیچ خوشهای فشردهتر از خوشهای با یک داده نیست و اگر تنها معیار جدایی در نظر گرفته شود در آن صورت بهترین خوشهبندی این است که کل دادهها را یک خوشه بگیریم با این توضیح که فاصله هر خوشه از خودش صفر است. بنابراین باید از ترکیب دو معیار فوق استفاده شود.
( اینجا فقط تکه ای از متن پایان نامه درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
به منظور تعیین تعداد بهینه خوشهها میتوان از روشهایی چون شاخص Davis-Bouldin، روش Two Step، تعیین تعداد بهینه خوشهها به کمک روشهای مبتنی بر گراف و یا نظرات خبرگان استفاده نمود.
۳-۲-۵- خوشهبندی
خوشهبندی یا گروهبندی، تقسیم اقلام موجود در یک مجموعه داده است که به طور طبیعی باهم شباهت دارند. دادههایی که با این معیار به صورت خوشههایی تفکیک میگردند، با دادههای موجود در خوشهای که در آن قرار میگیرند، بیشترین شباهت را دارند؛ و با دادههای موجود در سایر خوشهها متفاوتاند.
در خوشهبندی موضوعات زیر مورد توجه است:
-
- چه تعداد از خوشهها می تواند دانش نهفته در دادهها را کشف نماید؟ مسئله تعداد خوشهها معمولاً به صورت جداگانه مورد بررسی قرار میگیرد.
-
- معیارهای شباهت و تفاوت دادهها چیست؟ این معیارها خود به واسطه روشهای مختلفی محاسبه میگردد، اما در بیشتر روشهای خوشهبندی موجود از معیار فاصله فضایی دو داده از یکدیگر، استفاده می شود. فاصله فضایی می تواند با روشهای مختلفی چون فاصله اقلیدسی[۱۳۸]، فاصله مینکوفسکی[۱۳۹] و یا فاصله مانهاتان[۱۴۰] محاسبه شود.
-
- بعد از تعیین تعداد خوشهها و معیار شباهت یا فاصله دادهها، دادهها با بهره گرفتن از چه روشی در تعداد خوشههای معین جای گیرند [۱۱].
خوشهبندی یک الگوریتم بدون ناظر[۱۴۱] در دادهکاوی است، زیرا هیچ صفتی منفردی برای هدایت فرایند Training استفاده نمی شود و همه صفات ورودی ارزش یکسان دارند [۲].
تفاوت این روش با طبقه بندی در این است که در طبقهبندی هر داده به یک طبقه (کلاس) از پیش مشخصشده تخصیص مییابد ولی در خوشهبندی هیچ اطلاعی از کلاسهای موجود درون دادهها وجود ندارد و به عبارتی خود خوشهها نیز از دادهها استخراج میشوند.
با مطالعه و بررسی روشهای دادهکاوی موجود جهت خوشهبندی دادهها، الگوریتمهای K-Means، WK- Means و A-H-Means برای اعمال بر روی مجموعه دادهها انتخاب شده اند.
۳-۲-۵-۱- انواع خوشهبندی
امروزه الگوریتمهای متنوعی در زمینه خوشهبندی معرفی شده اند. این الگوریتمها به طور کلی به سه دسته تقسیم میشوند [۱]:
۱- خوشهبندی سلسلهمراتبی[۱۴۲]
در این نوع خوشهبندی خوشهها به صورت متوالی به دو شیوه انباشتی[۱۴۳] و یا تقسیمکنندگی[۱۴۴] توسعه مییابند. در روش انباشتی، هر یک از نقاط به عنوان خوشه در نظر گرفته شده و سپس خوشههای مشابه باهم ادغام میگردند. در شیوه تقسیمکنندگی در ابتدا کل دادهها به عنوان یک خوشه در نظر گرفته شده و تقسیمات متوالی تا رسیدن به تعداد مناسب خوشهها ادامه مییابد.
۲- خوشهبندی مبتنی بر مدل[۱۴۵]
در این روش یک مدل احتمالی مشخص برای دادهها در نظر گرفته شده و سپس پارامترها برآورد میشوند. در این گروه از الگوریتمها یک مدل چگالی آمیخته مطرح می شود و فرض می شود که دادهها از مخلوط شدن تعدادی منبع داده به وجود آمدهاند. هر یک از این منابع یک خوشه بالقوه در نظر گرفته می شود.
۳- خوشهبندی مبتنی بر بخشبندی[۱۴۶]
نام دیگر این روش خوشهبندی بر مبنای تابع هدف است که در آن اساس کار فرمولبندی تابع هدف است. تابع هدف حاصل باید طبیعت مسئله را به خوبی نشان دهد تا بتوان از طریق کمینه سازی آن، ساختار معنیداری (خوشهها) را در دادههای مفروض آشکار ساخت. معروفترین و سادهترین الگوریتم خوشهبندی مبتنی بر بخشبندی، الگوریتم K-means است. این الگوریتم به خاطر سادگی اجرا، سادگی برنامه و کارایی آن استفاده فراوانی دارد [۱]. عملکرد کلی این روش به این صورت است که هدف ایجاد K خوشه است، بدین ترتیب که عناصر درون هر خوشه نسبت به میانگین رکوردهای آن خوشه که مرکز نامیده می شود بیشترین شباهت و با مراکز دیگر خوشهها بیشترین عدم شباهت را داشته باشند.
۳-۲-۵-۲- خوشهبندی به روش K-Means
این روش، یک روش خوشهبندی مبتنی بر بخشبندی است که در آن هر خوشه به یک مرکز وابسته است. هر نقطه بسته فاصله خود باهر یک از مراکز، به خوشهای که نزدیکترین فاصله را با مرکز آن دارد مرکز تخصیص مییابد. تعداد خوشهها که همان تعداد مراکز است باید از قبل تعیین شده باشد. الگوریتم پایه این روش بسیار ساده است.
۱- الگوریتم با انتخاب K مرکز آغاز می شود. این مراکز می تواند به طور حدسی یا تصادفی انتخاب گردد.
۲- محاسبه مقدار تابع هدف به صورت زیر است:
(۳-۲)
۳- برای هر داده xi، عضویت m(cjǀxi) به ازای هر مرکز cj و وزن مربوط به آن (w(xi)) محاسبه می شود.
تابع عضویت به صورت زیر محاسبه می شود: