مقادیر دور افتاده[۶۶] یا حدی، مقادیر گم شده[۶۷]، صفات تکراری[۶۸]، دادههایی که در فرم مناسب برای مدلسازی نیستند و دادههایی که با عقل سلیم جور در نمیآیند. برای این منظور در دادهکاوی روشهای مختلف تمیز کردن و تغییر شکل دادهها ارائه گردیده است [۱۱].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
مدلسازی: در این گام، روشهای متفاوت مدلسازی انتخاب و بکار گرفته می شود، و پارامترهای آنها به صورت مقادیر بهینه تنظیم می شود. بعضی از روشها ساختار دادهای خاصی را میطلبند. بین فازهای آمادهسازی و مدلسازی دادهها ارتباط نزدیکی برقرار است. اغلب مشکلات دادهها حین مدلسازی درک می شود و یا ایدههایی برای ساخت دادههای جدید به ذهن میرسد [۵۰].
این گام شامل بخشهای زیر است [۱۱]:
-
- انتخاب و استفاده از تکنیک مدلسازی مناسب
-
- دستکاری و تنظیم مدل برای دستیابی به نتایج بهینه
-
- در صورت نیاز برگشت به گام پیشپردازش
ارزیابی: در پروژهای که بر اساس یک یا چند مدل ساخته شده است، پیش از رسیدن به گام بهکارگیری، مدلها باید به طور دقیق ارزیابی شوند و گامهای اجرایی ساخت مدلها بازبینی شوند تا از حصول اهداف کسب و کار اطمینان حاصل شود [۵۰]. مدلهای دادهکاوی باید به فرایند تصمیم گیری کمک کنند [۳۱]. پس مدل زمانی مفید است که تفسیر پذیر باشد زیرا انسانها مایل به استفاده از اصول پیچیده در فرایند تصمیم گیری جعبه سیاه مانند خود نیستند [۱۱].
بهکارگیری: عموماً ساخت مدل پایان کار پروژه نیست. معمولاً دانش حاصل از این چرخه باید به صورتی سازماندهی و ارائه شود که مشتری نهایی بتواند از آن استفاده نماید. بسته به نیازمندیها، فاز بهکارگیری می تواند به سادگی یک گزارش و یا به پیچیدگی اجرای یک فرایند دادهکاوی تکرارپذیر[۶۹] باشد. در بسیاری از موارد کاربر یک تحلیلگر داده نیست که گامهای استقرار را درک نماید. بنابراین نکات لازم باید برای او توضیح و تبیین شود [۵۰].
هر کدام از گامهای مدل فرایند CRISP-DM که پیش از این تفسیر شد شامل کارهای[۷۰] مختلفی است که کارهای مربوط به هر گام و خروجی آن به طور خلاصه در جدول ۲-۴ آمده است.
جدول ۲-۴ فعالیتهای مربوط به فازهای CRISP-DM و خروجی هر فعالیت [۵۰]
درک کسبوکار
درک دادهها
آمادهسازی دادهها
مدلسازی
ارزیابی
بهکارگیری
-تعیین اهداف کسبوکار
درک اهداف کسب و کار و معیارهای موفقیت[۷۱] آن
–ارزیابی وضعیت
موجودی منابع، نیازمندیها، فرضیات، محدودیتها، ریسکها و احتمالات، مجموعه اصطلاحات[۷۲] و هزینهها و فایدهها
–تعیین اهداف دادهکاوی
اهداف دادهکاوی، عوامل موفقیت دادهکاوی
–تولید طرح پروژه
طرح پروژه
تخمین اولیه ابزارها و تکنیکها
-جمع آوری دادههای اولیه
گزارش جمع آوری دادههای اولیه
–توصیف دادهها
گزارش توصیف دادهها
–مرور[۷۳] دادهها
گزارش مرور دادهها
–ارزیابی کیفیت دادهها
گزارش کیفیت دادهها
-جمع آوری دادهها
توصیف مجموعه داده
–انتخاب داده
منطق انتخاب/حذف[۷۴] دادهها
–پاکسازی دادهها
گزارش پاکسازی دادهها
–ساختاردهی دادهها
تفکیک ویژگیها
تولید رکوردها