myself
ought
our
ours
a
about
above
after
again
against
all
am
an
and
any
are
as
at
be
because
been
before
being
below
between
both
but
by
cannot
could
did
do
جملاتی که حاوی کلمات منفی ساز هستند به این طریق اصلاح میشوند، که دو کلمه قبل از کلمه منفیساز و دوکلمه بعد از آن را با افزودن NOT به فرم منفی قراردادی تبدیل میکنیم، در هر صورت اگر به علامت نقطهگذاری رسیدیم منفیسازی را متوقف میکنیم و در نهایت کلمه منفیساز را از جمله حذف میکنیم. مثلا جمله “I like hamid, but I don’t like javad.” پس از حذف Stopwordها به فرم “Like hamid, do not like javad” تبدیل میشود. در مرحله بعد دو کلمه قبل و دو کلمه بعد از کلمه منفیساز به فرم “Like hamid, do_NOT not Like_NOT javad_NOT.” تبدیل میشود. در گام آخر نیز کلمه منفی ساز از جمله حذف میشود، بنابراین جمله مذکور به شکل “Like hamid, do_NOT Like_NOT javad_NOT“ تبدیل میشود، قبل از کلمه منفیساز Not کلمه do و یک کاما وجود دارد. لذا با رسیدن به اولین علامت نقطهگذاری(کاما در این مثال) منفیسازی را متوقف میکنیم، و تنها یک کلمهی do قبل از not به فرمت منفی قراردادی تبدیل میشوند، ولی بعد از not دو کلمه به فرمت منفی قراردادی تبدیل میشوند. اصلاح جملات حاوی کلمات منفی ساز به این دلیل انجام میشود که در مدل Unigram اسناد بتوانیم معنای منفی جمله را وارد کنیم. خروجی این مرحله جملات اصلاح شده متن هستند؛ جملاتی که برخی کلمات غیرمفید آنها حذف شده است و ساختار جملات حاوی کلمات منفی ساز نیز با ساختار قرار دادی جایگزین شده است. اسناد برای پردازش به مرحله بعدی هدایت میشود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
در ادامه فرایند پیشپردازش نیز همه اسناد به توکنهای تشکیل دهنده خود تجزیه میشوند. در ادامه بیشتر با توکنهای هر سند کار خواهیم کرد و دیگر کمتر به متن خام و بدون پیش پردازش نیاز خواهیم داشت.
برچسب گذاری ادات سخن
در این مرحله با بهره گرفتن از کتابخانه پردازش زبان طبیعی استنفورد، برچسب ادات سخن هر کلمه را مشخص میکنیم. استفاده از برچسب ادات سخن برای رفع ابهام کلمات با چند معنای متفاوت بسیار مفید خواهد بود و تا حدی قادر است این ابهام را رفع کند. شکل ۳-۴ مثالی از عملکرد برچسب گذار استنفورد را مشخص میکند. همانطور که در شکل ۳-۴ دیده میشود کلمه Like در متن با دو معنای متفاوتش به کار رفته است. معنای اول “علاقمند بودن” که میتواند به فرایند تحلیل احساس کمک کند، معنای دوم “مانند”، که بیشتر نقش یک Stopword را دارد و کمکی به فرایند تحلیل احساس نمیکند. در این مرحله متون پیش پردازش شده با بهره گرفتن از کتابخانه استنفورد برچسب گذاری میشوند و سپس هر سند به مجموعه توکن/نقش سخن توکن تبدیل میشود.
POS Tagger
I/PRP like/VBP you/PRP ./. You/PRP are/VBP like/IN my/PRP$ mother/NN ./.
I like you. You are like my mother.
شکل۳-۴ برچسب گذار استنفورد: در این شکل یک مثال از عملکرد POS Tagger استنفورد را میبینیم، خروجی به این شکل تولید میشود که به هر کلمه POS آن اضافه شده و کلمه-POS مطابق شکل تولید میشود.
استخراج بردار خصیصهها و ترکیب خصیصهها
این مرحله مهمترین مرحله از فرایند تحلیل احساس میباشد. باید مجموعه خصیصههایی را انتخاب کنیم که به خوبی اسناد موجود در مجموعه دادهها را مدلسازی کنند. همچنین این مدلهای ایجاد شده سودمندترین اطلاعات برای تحلیل احساس را در خود داشته باشند. توجه داشته باشیم مدلهای مناسب زیادی برای یک سند میتوان ارائه داد ولی مهمترین مسائله که باید مورد توجه قرار گیرد، این است که کدام یک از این مدلها برای فرایند تحلیل احساس مفید میباشد. مثلا عباسی و همکارانش برای ارائه مدل مناسب از هر سند مجموعه بسیار کاملی از خصیصهها را بکار گرفتند [۱]. این مجموعه خصیصهها در جدول ۲-۲ بیان شدهاند. استفاده از این مجموعه کامل از خصیصهها که بسیاری از آنها با یکدیگر همپوشانی دارند باعث افزایش غیر قابل توجیه تعداد خصیصهها خواهد شد، عباسی و همکارانش برای حل این مشکل از الگوریتم انتخاب خصیصه شبکه ارتباطی خصیصهها استفاده کردهاند، این الگوریتم پیچیدگی زمانی بالایی دارد؛ علاوه بر آن افزایش قابل توجهی در دقت طبقهبندی نیز حاصل نشده است. میتال و آگراوال در سال ۲۰۱۳ مدلی ارائه دادهاند، آنها در این مدل تنها ترکیبی از خصیصههای unigram و bigram را استفاده کردهاند [۵]. آنها از الگوریتم انتخاب حداقل افزونگی – حداکثر وابستگی استفاده کردند؛ این الگوریتم علارغم اینکه پیچیدگی زمانی کمتری نسبت به شبکه ارتباطی خصیصه(ارائه شده در [۱] ) دارد ولی نسبت به سایر الگوریتمهای تک متغیره بیان شده در بخشهای قبل پیچیدگی زمانی بیشتری دارد.