C1
غلط دسته بندی شده اند FN
درست دسته بندی شده اند TP
C1
درست دسته بندی شده اند TN
غلط دسته بندی شده اند FP
C2
مدل های مختلف با درجه صحتهای مختلفی قابل پذیرش هستند.به عنوان مثال در یک مدل تشخیص سرطان مدلی با 90% صحت قابل قبول نیست.بدین منظور شاخص های دیگری نیز مورد نیاز است که در اینجا به انها اشاره میشود.
شاخص آخر یا همان صحت[31] ، ترکیبی از دو شاخص قبل است و به صورت زیر محاسبه می شود:
توجه به این نکته ضروری است که در روابط فوق، وزن یا اهمیت عناصر ماتریس یکسان در نظر گرفته شده است.در حالی که در مسائل مختلف، اهمیت این عناصر می تواند متفاوت باشد.مثلا عدم تشخیص سرطان با تشخیص سرطان به اشتباه هزینه های کاملا متفاوتی دارند.
2-7 تکنیک حداقل مربعات
روش کمترین مربع خطا که یکی از روش های مورد استفاده در تحلیل رگرسیونی است اولین بار توسط لژندر[32] ریاضیدان فرانسوی در سال 1805 و گوس[33] ریاضیدان مشهور آلمانی در سال 1809 معرفی و در مطالعات نجومی به کار برده شد.روش کمترین مربعات[34] روشی در آمار است که برای حل دستگاه معادلاتی به کار میرود که تعداد معادلههایش بیش از تعداد مجهولهایش است. این روش بیشتر در تحلیل رگرسیون به کار میرود.کمترین مربعات در واقع روشی برای برازش (fit) دادهها است. در روش کمترین مربعات، بهترین مدل برازششده بر مجموعهای از دادهها مدلی است که در آن مجموع مربع باقیماندهها[35] کمینه باشد. منظور از باقیماندهها، اختلاف بین داده مشاهده شده و مقداری است که از مدل به دست میآید.این روش از جمله موارد تقریبی است که بسیار مورد استفاده قرار می گیرد.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
اگر بخواهیم خط مستقیمی(یا یک منحنی)را روی یک رشته از دادههای زمانی برازنده کنیم نخست دادهها را به صورت نقطههایی روی صفحه محورهای مختصات رسم میکنیم، سپس تابع جبری منحنی یا خطی را که به دلخواه برگزیده و برازندگی آن را شایسته دیدهایم مینویسیم و ضرایب آن تابع را چنان برمیگزینیم که مجموع مجذورات انحرافات نقطهها از این خط (یا منحنی) به حداقل ممکن برسد. اگر تابع خط مستقیم به صورت y = a + bx باشد که در آن a وb ضرایب تابعاند، این ضرایب را طوری حساب میکنیم که مجموع توان دوم “فاصله عمودی نقطهها از این خط” حداقل شود.یعنی خطy=ax+b باید طوری به نقاط برازش شود که مجموع مربعات فواصل نقاط مزبور از این خط مستقیم حداقل باشد.فاصله ها در امتداد قائم((y اندازه گرفته میشوند.
در واقع تفاوت برازش و درون یابی در این است که در درون یابی به دنبال تابعی هستیم که از تمام نقاط عبور کند و در برازش منحنی به دنبال تابعی از درجه پایین تر هستیم که دارای کمترین خطا باشد]37[.
2-7-1 تقریب کمترین مربعات گسسته چند جمله ای
چندجمله ای کمترین مربعات درجه n مجموعه داده های برای ، چندجمله ای درجه n ، میباشد، که در آن بگونه ای هستند که خطای کمترین مربعات، یعنی حداقل شود.باید توجه داشت یک تابع n+1 متغیره چند جمله ای بر حسب می باشد. در واقع مجموع مربعات خطاها است.شرط لازم برای به حداقل رسیدن به صورت زیر است :
پس از انجام محاسبات خواهیم داشت :
.
(2-1)
دستگاه فوق یک دستگاه خطی با (n+1) معادله و (n+1) مجهول می باشد، که در آن
این دستگاه به دستگاه معادلات نرمال معروف است و جواب یکتا دارد.
حالت خاص اول ) چند جمله ای کمترین مربعات درجه یک(خط تقریب ساز کمترین مربعات) مجموعه نقاط ، چندجمله ای درجه یک می باشد که از دستگاه زیر بدست می آید:
(2-2)
حالت خاص دوم) چند جمله ای کمترین مربعات درجه دوم (سهمی کمترین مربعات) مجموعه نقاط ، چندجمله ای می باشد که از دستگاه زیر بدست می آید.
(2-3)
چون چندجمله ای کمترین مربعات ممکن است نوسانات زیادی داشته باشد، در واقع هر قدر درجه چندجمله ای افزایش یابد ممکن است این نوسانات بیشتر شود، به خاطر همین اصل در عمل کمتر از چند جمله ای های درجه بالاتر از پنج استفاده می شود.
2-8 ماشین بردار پشتیبان
2-8-1مقدمه
اولین الگوریتم برای طبقه بندی و دسته بندی الگوها در سال 1963 توسط Fisher ارائه شد و معیار آن برای بهینه بودن، کم کردن خطای طبقه بندی الگوهای اموزشی بود.بسیاری از الگوریتم ها و روش هایی که تا کنون برای طراحی طبقه بندی کننده های الگو ارائه شده است از همین استراتژی پیروی می کنند.در هیچ یک از این روش ها خاصیت تعمیم طبقه بندی کننده به طور مستقیم در تابع هزینه روش دخالت داده نشده است و طبقه بندی کننده طراحی شده نیز دارای خاصیت تعمیم دهندگی کمی میباشد.اگر طراحی دسته بندی کننده الگو را به عنوان مساله بهینه سازی در نظر بگیریم، بسیاری از این روش ها با مشکل بهینه های محلی در تابع هزینه مواجهند و در دام بهینه های محلی گرفتار میآیند.مشکل دیگر تعیین ساختار و توپولوژی دسته بندی کننده قبل از طراحی است که به عنوان مثال تعیین تعداد بهینه گره های لایه مخفی در شبکه های عصبی MLP، تعداد توابع گوسی در شبکه های عصبی RBF و یا تعداد بهینه حالت ها و توابع گوسی در مدل پنهان مارکوف میباشد.همه این عوامل باعث میشوند که در عمل نتوانیم به یک تابع بهینه دسته بندی کننده برسیم]9[.
الگوریتم SVM اولیه در سال 1963 توسط ولادیمر وپنیک[36] ارائه شد و در سال 1995 توسط او و همکارش برای حالت غیر خطی تعمیم داده شد.ماشین بردار پشتیبان دارای خواص بسیار ارزشمندی است که آن را برای شناسایی الگو مناسب میسازد.از جمله اینکه SVM در آموزش خود مشکل بهینه های محلی را ندارد، دسته بندی را با حداکثر تعمیم بنا می کند، ساختار و توپولوژی خود را به صورت بهینه تعیین می کند و توابع تمایز غیرخطی را به راحتی و محاسبات کم، با بهره گرفتن از مفهوم حاصلضرب داخلی در فضاهای هیلبرت تشکیل میدهد.این روش یکی از روشهای یادگیری با نظارت[37] است که از آن برای طبقهبندی[38] و رگرسیون[39] استفاده میکنند.این روش از جمله روشهای نسبتاً جدیدی است که در سالهای اخیر کارایی خوبی نسبت به روشهای قدیمیتر برای طبقهبندی نشان داده است.
اگر بخواهیم شرحی خلاصه از این روش ارائه دهیم این است که مبنای کاری دستهبندی کنندة SVM دستهبندی خطی دادهها است و در تقسیم خطی دادهها سعی میکنیم خطی را انتخاب کنیم که حاشیه اطمینان بیشتری داشته باشد.حل معادلة پیدا کردن خط بهینه برای دادهها به وسیله روشهای[40]QP که روشهای شناخته شدهای در حل مسائل محدودیتدار هستند صورت میگیرد. قبل از تقسیمِ خطی برای اینکه ماشین بتواند دادههایی با پیچیدگی بالا را دستهبندی کند دادهها را به وسیله تابعِ phi به فضای با ابعاد خیلی بالاتر[41] میبریم. برای اینکه بتوانیم مساله ابعاد خیلی بالا را با بهره گرفتن از این روشها حل کنیم از قضیه دوگانی لاگرانژ برای تبدیلِ مساله مینیممسازی مورد نظر به فرم دوگانی آن که در آن به جای تابع پیچیده phi که ما را به فضایی با ابعاد بالا میبرد، تابعِ سادهتری به نامِ تابع هسته که ضرب برداری تابع phi است ظاهر میشود استفاده میکنیم.از توابع هسته مختلفی از جمله هستههای نمایی، چندجملهای و سیگموید میتوان استفاده نمود.