شکل ۲-۴ – مقایسه آموزش افزایشی و یکجا
۲-۱۳- شبکه های چند لایه[۶۵]
بر خلاف پرسپترونها شبکه های چند لایه میتوانند برای یادگیری مسائل غیر خطی و همچنین مسائلی با تصمیم گیری های متعدد بکار روند. ]۲۹[
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
یک سلول واحد
برای اینکه بتوانیم فضای تصمیم گیری را بصورت غیر خطی از هم جدا بکنیم، لازم است تا هر سلول واحد را بصورت یک تابع غیر خطی تعریف نمائیم. مثالی از چنین سلولی میتواند یک واحد سیگموئید باشد:
تابع سیگموئید[۶۶]
خروجی این سلول واحد را بصورت زیر میتوان بیان نمود:
(۱)
(۲)
تابع σ تابع سیگموئید یا لجستیک نامیده میشود. این تابع دارای خاصیت زیر است:
(۳)
۲-۱۴- الگوریتم Back propagation
برای یادگیری وزن های یک شبکه چند لایه از روش Back Propagation استفاده میشود. در این روش با بهره گرفتن از gradient descent سعی میشود تا مربع خطای بین خروجی های شبکه و تابع هدف مینیمم شود.
خطا بصورت زیر تعریف میشود:
(۱)
مراد ازoutputs خروجی های مجموعه واحد های لایه خروجی و tkdو okd مقدار هدف و خروجی متناظر با k امین واحد خروجی و مثال آموزشی d است.
فضای فرضیه مورد جستجو در این روش عبارت است از فضای بزرگی که توسط همه مقادیر ممکن برای وزنها تعریف میشود. روش gradient descent سعی میکند تا با مینیمم کردن خطا به فرضیه مناسبی دست پیدا کند. اما تضمینی برای اینکه این الگوریتم به مینیمم مطلق برسد وجود ندارد.
انتشار به سمت جلو[۶۷]
برای هر مثال X مقدار خروجی هر واحد را محاسبه کنید تا به گره های خروجی برسید.
انتشار به سمت عقب[۶۸]
برای هر واحد خروجی جمله خطا را بصورت زیر محاسبه کنید: δk = Ok (۱-Ok)(tk – Ok)
برای هر واحد مخفی جمله خطا را بصورت زیر محاسبه کنید: δh = Oh (۱-Oh) Σk Wkh δk
مقدارهر وزن را بصورت زیر تغییر دهید:
Wji = Wji + ΔWji
(۱)
که در آن :
ΔWji = η δj Xji
(۲)
شرط خاتمه
معمولا الگوریتم BP پیش از خاتمه هزاران بار با استفاده همان داده های آموزشی تکرار میگردد شروط مختلفی را میتوان برای خاتمه الگوریتم بکار برد:
توقف بعد از تکرار به دفعات معین
توقف وقتی که خطا از یک مقدار تعیین شده کمتر شود.
توقف وقتی که خطا در مثالهای مجموعه تائید از قاعده خاصی پیروی نماید.
اگر دفعات تکرار کم باشد خطا خواهیم داشت و اگر زیاد باشد مسئله Overfitting رخ خواهد داد. ]۲۵[
محنی یادگیری
شکل ۲-۵- منحنی یادگیری
قدرت نمایش لایه پنهان[۶۹]
یکی از خواص BP این است که میتواند در لایه های پنهان شبکه ویژگیهای نا آشکاری از داده ورودی نشان دهد.
برای مثال شبکه ۸x3x8 زیر طوری آموزش داده میشود که مقدارهرمثال ورودی را عینا در خروجی بوجو د آورد )تابع f(x)=x را یاد بگیرد(. ساختار خاص این شبکه باعث میشود تا واحد های لایه وسط ویژگی های مقادیر ورودی را به نحوی کد بندی کنند که لایه خروحی بتواند از آنان برای نمایش مجدد داده ها استفاده نماید. ]۱۴[