دراسة تقنيات استخراج الميزات المستخدمة في تحليل المشاعر
الملخص
أدّى ظهور الويب 2.0 إلى تغيير طريقة تواصل الأفراد وتشجيعهم على مشاركة آرائهم وأفكارهم وخبراتهم في المدوّنات والمنتديات والشبكات الاجتماعية. تشكّل هذه البيانات معلومات قيّمة لكل من الأفراد والمؤسسات وتساعدهم في اتخاذ قراراتهم. يحتاج هذا الكم الهائل من البيانات إلى تقنيات خاصّة لمعالجتها وتحليلها تُعرف عملية استخدام معالجة اللغات الطبيعية واللغويات الحاسوبية للكشف عمّا يحمله النص من مشاعر باسم تحليل المشاعر. يعتمد تحليل المشاعر على أربع مهام رئيسية وهي: تحديد الرأي، واستخراج الميزات، ومن ثم تصنيف المشاعر لتحديد قطبية الرأي، وأخيراً عرض النتائج وتلخيصها. يعدّ استخراج الميزات أحد أكثر المهام تعقيداً في تحليل المشاعر. نجري في هذه الورقة البحثية دراسة حول أداء أربع تقنيات لاستخراج الميزات من مجموعة بيانات نصيّة وهي BOW وTF-IDF وWord2vec وBERT. استخدمنا الميزات المستخرجة باستخدام هذه التقنيات لتدريب واختبار خمس مصنّفات تعلّم آلي وهي: خوارزميات الانحدار اللوجستي وآلات متجه الدعم وبايز وشجرة القرار والغابة العشوائية. قمنا بتقييم أداء هذه المصنّفات مع جميع التقنيات لاكتشاف أثر تقنيات الاستخراج عليها والمقارنة بينها وفق عدة مقاييس تقييم.