تحلیلگر احساس یک مجموعه از اسناد D را که حاوی نظرات کاربران پیرامون یک شئ خاص O است را دریافت میکند و جهت گیری آنها را نسبت به آن شئ خاص تشخیص میدهد، به نحوی که هر سند D بطور قطعی نظر مثبت یا منفی را درباره شئ O بیان می کند.
بسیاری از تکنیکهای تحلیل احساس در سطح سند بر پایه الگوریتم های یادگیری نظارت شده[۵] هستند؛ تعداد از روش های یادگیری بدون نظارت[۶] نیز وجود دارد [۲۳]. در این رساله تمرکز بر روشهای یادگیرندهی مبتنی بر ناظر است.
گام اول تحلیل احساس در متن
سال ۲۰۰۲ pang و همکارانش تحقیقی را انجام دادند که سر آغاز این راه نامیده میشود. هر چند قبل از آن نیز کارهایی انجام شدهاند که بطور ضمنی از تحلیل احساسات و عقاید سخن به میان آوردهاند ولی pang و همکارانش اولین بار بطور صریح در سال ۲۰۰۲ به تحلیل احساس در متن پرداختهاند [۴].
pang و همکارانش از مجموعه خصیصههای unigram، bigram، صفات و ترکیبی از این سه نوع مجموعه خصیصهها استفاده کردند. همچنین برای طبقهبندی از الگوریتمهای SVM[7]، بیز ساده و حداکثر آنتروپی بهره گرفتهاند. روشهای متفاوتی برای نمایش بردار خصیصهها وجود دارد pang و همکارانش از دو روش فرکانس خصیصه[۸] و حضور خصیصه[۹] برای نمایش بردار خصیصهها استفاده کردهاند. نتایج نشان داد روش حضور خصیصه نسبت به سایر روشهای مورد استفاده نتایج بهتری به همراه خواهد داشت. روشهای که آنها برای نمایش بردار خصیصههای بکار بردهاند، تاکنون در تحقیقات متفاوت به کار گرفته شده است. نتایج تحقیق نشان داد خصیصههای unigram نسبت به سایر خصیصههای زبان شناختی عملکرد بهتری دارند و باعث بهبود طبقهبندی میشوند. خصیصههای bigram نسبت به خصیصههای unigram دقت کمتری در طبقهبندی از خود نشان دادند. در این تحقیق برای طبقهبندی اسناد از روشهای بیز ساده SVM و حداکثر آنتروپی استفاده شده است. نتایج طبقهبند SVM نسبت به سایر الگوریتمهای طبقهبندی دقت بهتری از خود نشان داد. علاوه بر مطالب ذکر شده آنها مجموعه دادههای بازبینی فیلمها را ارائه دادند. این مجموعه دادهها از سایت IMDB[10] جمع آوری شده است، مجموعه داده بازبینی فیلمها داده متشکل از ۲۰۰۰ فایل بازبینی فیلم بود، ۱۰۰۰ فایل آن حاوی نظرات مثبتی پیرامون فیلمها و ۱۰۰۰ فایل دیگر نیز حاوی نظرات منفی پیرامون فیلمها بودند. بهترین دقت بدست آمده توسط pang و همکارانش با بهره گرفتن از ۱۶۱۶۵ خصیصه unigram و در الگوریتم طبقهبندی SVM حاصل شده بود[۴].
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
مهمترین ویژگی این تحقیق ارائه زمینه تحقیقی جدید برای طبقهبندی متون بودهاست. همچنین نمایش بردار خصیصه ارائه شده در این تحقیق، تا کنون به عنوان یکی از بهترین روشها نمایش بردار خصیصه مورد استفاد قرار میگیرد. pang و همکارانش در این تحقیق بر غیر مفید بودن خصیصههای bigram و خصیصههای N-gram n>1 تاکید داشتند.
روشهای مبتنی بر خصیصههای N-gram
یکی از مهمترین فازهای فرایند تحلیل احساسات و عقاید، مدلسازی متون با بهره گرفتن از خصیصههایی است که قادرند بخوبی بیان کننده صفات اسناد باشند. این رساله بر روی خصیصههایN-gram تاکید دارد.
خصیصههای N-gram به دو دسته تقسیم میشوند:
N-gram ثابت؛ یک توالی دقیق در سطح کاراکتر یا توکن میباشد. مانند unigram یا biram.
N-gram متغیر؛ الگوهایی برای استخراج اطلاعات از متن هستند. مانند <subj> Pass VP یا <subj> dealt bow.
خصیصههای N-gram متغیر قادرند مفاهیم پیچیدهتر زبان شناختی را بیان کنند [۱]. در این رساله هدف اصلی خصیصههای N-gram مانند، بسته کلمات[۱۱] همچنین N-gram با درجات بالاتر مانند bigram و trigram می باشند. N-pos ترکیب n تایی از ادات سخن میباشد. همچنین n-posword ترکیب n تای از کلمات به همراه برچسب ادات سخن آنها میباشد. در ادامه مثالهایی برای هر یک از انواع خصیصههای N-gram بیان خواهیم کرد(جدول ۲-۱).
همانطور که در بخش قبلی بیان شد، pang و همکارانش نشان دادهاند استفاده از خصیصههای bigram برای تحلیل احساسات و عقاید عملکردی بدتری نسبت به خصیصههای unigram در پی خواهند داشت. تحقیقی که وینسنت و همکارانش سال ۲۰۰۶ انجام دادهاند خصیصههای unigram، bigram و trigram را برای مدلسازی اسناد به کار بردند [۲۵]. اسناد متنی به دو دسته حقایق و عقاید دستهبندی میشوند و مثال بخش ۱-۲ نشان میدهد اغلب متون حاوی ترکیبی از حقایق و عقاید هستند، بنابراین بیشتر اسناد متنی ترکیبی از متون جهتدار (عقاید و نظرات) با متون عینی و واقعی (حقایق) هستند. متون عینی و واقعی درون اسناد در واقع همان خصیصههای غیر مرتبط با تحلیل احساس هستند چون اطلاعات مفیدی برای الگوریتم یادگیری ماشین در جهت تحلیل احساس موجود در متون را فراهم نمیکنند. تعداد زیاد خصیصهها و غیر مرتبط بودن بسیاری از این خصیصهها به تحلیل احساس، مشکلات زیادی را موجب می شود، از جمله این مشکلات میتوان کاهش دقت طبقهبندی وکاهش سرعت عملیات طبقهبندی را نام برد. بهتر است قسمتی از متن که حاوی حقایق است در فاز اول از متون حاوی نظرات و عقاید مجزا شود. وینسنت و همکارانش در ابتدا، بخشهایی از اسناد که عقاید و نظرات را بیان میکردند را تشخیص داده، از متن جدا کردهاند. آنها با فیلتر کردن متون حاوی حقایق از متون احساسی توانستند برای خصیصهها unigram و bigram نتایج بهتری را نسبت به pang و همکارانش بدست آورند. همچنین آنها نشان دادن خصیصههای N-gram n>1 قادرند وابستگی کلمات موجود در متن، را در مدلسازی وارد کنند بنابراین به دقت عملکرد الگوریتم یادگیری ماشین در جهت طبقهبندی متون کمک میکنند. در این تحقیق دقت حاصله از طبقهبندی اسناد با بهره گرفتن از خصیصههای unigram به میزان ۸۷٫۱ درصد گزارش شده است. این میزان نسبت به نتیجه بهترین روش ارائه شده توسط pang و همکارانش ۵ درصد بهبود یافته است. همچنین با بهره گرفتن از خصیصههای unigram+bigram+trigram (ترکیب هر سه نوع خصیصه) فرایند طبقهبندی اسناد را با دقت ۸۹٫۲ درصد انجام دادهاند. در این تحقیق به بررسی اثر گذاری خصیصههای N-gram پرداخته شده است وینسنت و همکارانش نشان دادند استفاده از خصیصههای bigram به همراه unigram باعث بهبود عملکرد طبقهبندی میشود. همچنین به این نتیجه دست یافتند که خصیصههای bigram به تنهایی بهبودی در طبقهبندی ایجاد نمیکنند، دلیل این موضوع نیز پراکندگی خصیصههای bigram است؛ برخلاف آنچه در [۴] اعلام شده، که خصیصههای bigram ذاتا به بهبود طبقهبندی کمک نمیکنند. بنابراین چنانچه بتوانیم پراکندگی موجود در خصیصههای bigram را کاهش دهیم میتوانیم دقت عملکرد این نوع خصیصهها را بهبود دهیم.
در برخی از تحقیقات برای مدلسازی اسناد از خصیصههای N-POS[12] استفاده شدهاست. فی و همکارانش در سال ۲۰۰۴ از خصیصههای ۱-pos و ۲-pos استفاده کردهاند و بهترین دقت حاصل از طبقهبندی در این تحقیق ۸۶% بوده است [۲۶]. آنها الگوهایی نحوی را ارائه دادند که اغلب متون جهتدار در این الگوها قرار میگیرند، مثلا یکی از الگوهای ارائه شده n+adj[13] بوده است. ابتدا متن را برچسب گذاری کردهاند و الگوهای مورد نظر را از متن استخراج کردهاند. مدلی که در این روش ارائه شده همانند روش وینسنت و همکارانش سعی دارد در ابتدا متن را فیلتر کند و فقط متن جهتدار(متن حاوی نظرات مثبت یا منفی کاربران درباره یک موجودیت مشخص) را برای مرحله طبقهبندی و مدلسازی استفاده کند. اما مشکل این روش آن است که نمیتوان برای همه حالت های متن جهتدار الگویی ارائه داد و همواره ممکن است متن خاصی با الگوهای ارائه شده سازگار نباشد. مدلسازی متن با بهره گرفتن از الگوهای N-POS حتی نسبت به مدل unigram دقت کمتری را برای طبقهبندی به همراه داشت. لذا روش مناسبی برای مدلسازی اسناد نیست.
گامن سال ۲۰۰۴ ۴ گروه خصیصه را مورد بررسی قرار داد. گروه اول خصیصههای N-gram از ترکیب خصیصههای unigram، bigram و trigram تشکیل شدهاند. گروه دوم خصیصههای متشکل از ترکیب N-gram و ۳-POS بودهاند. گروه سوم، خصیصههای مانند طول جمله، طول عبارات، تعداد کلمات بودهاند و گروه چهارم ترکیب سه گروه خصیصه ذکر شده بودهاند. تعداد خصیصهها در این روش از ۱۰۰۰ تا ۴۰۰۰۰ خصیصه بودهاند. بهترین دقت حاصله برای طبقهبندی متون با بهره گرفتن از خصیصههای گروه چهارم بدست آمده است که نشان میدهد ترکیب خصیصهها مدل بهتری از اسناد به منظور تحلیل احساس در متن را ارائه میدهد. در بهترین حالت دقت طبقهبندی ۸۹ درصد گزارش شده است. در این تحقیق ترکیبهای متفاوت از خصیصهها مورد بررسی قرار گرفت و میزان اثر گذاری آنها بحث شدهاست [۲۰].
مدل N-gram کاراکترها(N-char) توسط عباسی و همکارانش مورد استفاده قرار گرفت. مثلا مدل Bigram عبارت Like بصورت “li ik ke” خواهد بود [۲]. در این مدل تعداد بسیار زیاد خصیصهها مشکلساز خواهد بود و استفاده از الگوریتمهای انتخاب خصیصه به دلیل تعداد بسیار زیاد خصیصهها ما را با مشکل پیچیدگی زمانی روبرو خواهد کرد. استفاده از خصیصهها N-char همواره باعث افزونگی و افزایش تعداد خصیصههای غیر مفید میشود، به این دلیل که همپوشانی بسیاری زیادی در خصیصههای n-char وجود دارد.
تحقیقات اندکی از مدل POSWORD[14] (برچسب نقش کلمه در سخن به همراه خود کلمه) استفاده کردهاند. ویب و همکارانش در سال ۲۰۰۴ . به منظور کاهش ابهام کلمات در فرایند تحلیل احساس از ۳-POSWORD استفاده کردهاند. با توجه به اینکه خصیصههای POS-Tag به همراه خود کلمه میتواند باعث کاهش ابهام کلمات شود در نتیجه باعث بهبود دقت ارزیابی و طبقهبندی اسناد میشود [۱۲]. مهمترین دلیل استفاده از ۳-POSWORD وارد کردن وابستگی به متن در مدل مورد استفاده میباشد. لذا اگر بتوان مشکلات ناشی از پراکندگی و افزونگی را مدیریت کرد به نظر میرسد استفاده از خصیصههای N-gram n>1 به بهبود نتایج کمک زیادی کند.
جدول ۲-۱ مثالی برای هر یک از خصیصههای N-gram مطرح شده را نشان میدهد.
عباسی و همکارانش در سال ۲۰۱۱ مجموعه کاملی از خصیصههای N-gram که در کارهای پیشین استفاده شده بود را جمع آوری کرده و برای مدلسازی اسناد از آنها استفاده کردند [۱]. این مجموعه خصیصهها در جدول ۲-۲ بیان شدهاند. آنها در این تحقیق با بهره گرفتن از طبقه بند SVM به دقت ۹۰ درصد برای طبقهبندی مجموعه دادههای بازبینی فیلمها دست یافتند. مدل ارائه شده که در جدول ۲-۲ قابل مشاهده است، بسیاری از خصیصهها همدیگر را پوشش میدهند لذا باعث تشدید افزونگی در مدل حاصله میشوند. هر گروه از این خصیصهها دارای تعداد زیادی خصیصههای غیرمرتبط با تحلیل احساس موجود در متن هستند، استفاده همزمان از همه این خصیصهها باعث افزایش چشمگیر خصیصههای غیر مرتبط در نتیجه کاهش اثر گذاری خصیصههای مرتبط با تحلیل احساس و در نهایت کاهش دقت طبقهبندی میشود. آنها برای حل این مشکل یک روش انتخاب خصیصه شبکه ارتباطی خصیصه[۱۵] را ارائه دادند، که پیچیدگی زمانی بالایی دارد. میتوان با بهره گیری از خصیصههای مطلوبتر خصیصههای افزونه و خصیصههای غیر مرتبط را کاهش داد و برای تعیین سودمندی خصیصهها از الگوریتم انتخاب خصیصه سادهتر با پیچیدگی زمانی کمتر بهره برد.
جدول ۲-۱ مجموعه خصیصهها N-gram و مثال برای هر خصیصه
جمله مثال
I go home.
خصیصههای N-gram
Unigram
I, go, home
Bigram
I go, go home
Trigram
I go home
خصیصههای N-POS
۱-pos
FW, VBP,NN