جلسه دفاع از رساله: آقای حمیدرضا کشاورز محمدیان، گروه مهندسی کامپیوتر

خلاصه خبر: نظرکاوی بر پایه کشف ویژگی‌های فرهنگ واژگان نظر

  • عنوان: نظرکاوی بر پایه کشف ویژگی‌های فرهنگ واژگان نظر
  • ارائه‌کننده: حمیدرضا کشاورز محمدیان
  • استاد راهنما: دکتر محمد صنیعی آباده
  • استاد ناظر داخلی اول: دکتر احسان‌اله کبیر
  • استاد ناظر داخلی دوم: دکتر سعید جلیلی
  • استاد ناظر خارجی اول: دکتر بهروز مینایی بیدگلی (دانشگاه: علم و صنعت)،
  • استاد ناظر خارجی دوم: دکتر آزاده شاکری (دانشگاه: تهران)
  • استاد مشاور اول: دکتر فواد قادری
  • مکان: اتاق 1002 دانشکده علوم پایه
  • تاریخ: 97/01/27
  • ساعت: 13:30

چکیده: شبکه‌های اجتماعی و وب‌سایت‌ها منبعی غنی از نظرات شخصی کاربران هستند. نظرکاوی رشته‌ای است که به تشخیص و دسته‌بندی این نظرات می‌پردازد. مساله پایه نظرکاوی، دسته‌بندی قطبیت نظرات به دو دسته مثبت و منفی است که در این رساله، چارچوبی برای حل این مساله ارائه می‌شود. نظرکاوی چالش‌های بسیاری دارد، مانند کوتاه بودن طول نوشته‌های کاربران در شبکه‌های اجتماعی و فرهنگ خاص کاربران در این شبکه‌ها. فرهنگ‌های واژگان نظر موجود با مشکلاتی روبرو هستند، مانند احتمال اشتباه درباره معنای واقعی کلمات در شبکه‌های اجتماعی، پوشش اندک آنها روی متون، و عدم قابلیت تشخیص طعنه‌ها. برای برطرف کردن مشکلات ذکرشده، یک چارچوب برای حل مساله تشخیص قطبیت در ریزبلاگ‌ها ارائه می‌شود که مبتنی بر استفاده از ویژگی‌های فرهنگ‌های واژگان نظر آگاه به زمینه و فرهنگ‌های واژگان نظر عام‌منظوره در کنار یکدیگر است. در این پژوهش، دو فرهنگ‌ واژگان نظر آگاه به زمینه با روش‌های ALGA و FBSA بر روی مجموعه داده آموزشی ساخته می‌شود. سپس، بر روی هر مجموعه داده، با استفاده از هر کدام از این دو فرهنگ واژگان نظر، پنج ویژگی محاسبه می‌شود. این ویژگی‌ها در کنار دو ویژگی‌ محاسبه‌شده با فرهنگ واژگان نظر عام‌منظوره Bing Liu قرار می‌گیرند و به این ترتیب، برای دوازده ویژگی حاصل، یک مدل برای دسته‌بندی از روی مجموعه داده‌ای آموزشی ساخته می‌شود و بر روی مجموعه داده آزمایشی اعمال می‌شود. یکی از این دو روش ALGA نام دارد و فرهنگ واژگان نظر را با الگوریتم ژنتیک می‌سازد و دیگری FBSA نام دارد و مبتنی بر ایجاد فرهنگ واژگان نظر با تناوب کلمات است. این چارچوب بر روی شش مجموعه داده‌ای اعمال شده و به صورت میانگین دقت 81.89، F-Measure 78.79، مانعیت دسته مثبت 76.66، جامعیت دسته مثبت 74.82، مانعیت دسته منفی 83.23، و جامعیت دسته منفی 81.99 درصد دارد. دلایل دقت برای بالای این چارچوب، در نظر گرفتن تمامی کلمات به عنوان واژگان نظر، نداشتن پیش‌فرض درباره مثبت و منفی بودن کلمات، و در کنار هم قرار دادن فرهنگ‌های واژگان نظر آگاه به زمینه و عام‌منظوره است. اجرای روش ALGA برای مجموعه‌های داده‌ای عظیم زمان‌بر است، و به همین دلیل روشی به نام ALGA-Big ارائه می‌شود که با موازی‌سازی اجرای ALGA بر روی شانزده هسته، سرعت آن را روی مجموعه‌های داده‌ای متفاوت 3.32 تا 5.02 برابر می‌سازد.
کلمات کلیدی: نظرکاوی، تحلیل احساسات، متن‌کاوی، پردازش زبان‌های طبیعی، الگوریتم‌های فرامکاشفه‌ای، الگوریتم ژنتیک.


27 فروردین 1397 / تعداد نمایش : 2203