طرق تحليل المشاعر الحديثة
تحليل المشاعر (SA) هو تطبيق شائع لطرق معالجة اللغة الطبيعية (NLP) ، وخاصة التصنيف لغرض تحسين المحتوى العاطفي للنص.باستخدام طرق مثل تحليل المشاعر ، يمكن تحليل البيانات النوعية من الناحية الكمية من خلال درجات المشاعر.على الرغم من أن المشاعر محفوفة بالذاتية ، إلا أن تحليل المشاعر الكمية لديه بالفعل العديد من الوظائف المفيدة ، على سبيل المثال ، للشركات لفهم كيفية تفاعل المستخدمين مع المنتجات أو لتمييز خطاب الكراهية في المراجعات عبر الإنترنت.
أبسط أشكال تحليل المشاعر هو استخدام قاموس يحتوي على كل من الكلمات الإيجابية والسلبية.يتم تعيين كل كلمة درجة الشعور ، وعادة ما تكون +1 للشعور الإيجابي و -1 للسلبية.بعد ذلك ، نضيف ببساطة عشرات المشاعر لجميع الكلمات في الجملة لحساب النتيجة الإجمالية النهائية.من الواضح أن هذا النهج له العديد من العيوب ، وأهمها أنها تتجاهل السياق والكلمات المجاورة.على سبيل المثال ، فإن عبارة بسيطة "غير جيدة" لها درجة مشاعر نهائية من 0 ، لأن "لا" هي -1 و "جيدة" هي +1.سيصنف الشخص العادي هذه العبارة على أنها عاطفة سلبية ، على الرغم من وجود "جيد".
الممارسة الشائعة الأخرى هي صياغة "حقيبة من الكلمات" من حيث النص.نحن نعتبر كل نص ناقل من 1 إلى N ، حيث N هو حجم جميع المفردات.كل عمود عبارة عن كلمة ، والقيمة المقابلة هي عدد حوادث الكلمة.على سبيل المثال ، يمكن ترميز عبارة "حقيبة حقيبة من الكلمات" على أنها [2 ، 2 ، 1].يمكن استخدام هذه القيمة كمدخلات لخوارزميات التعلم الآلي مثل الانحدار اللوجستي وآلات ناقلات الدعم (SVM) لإجراء التصنيف.هذا يسمح بالتنبؤ بالمشاعر على بيانات غير معروفة (غير مرئية).لاحظ أن هذا يتطلب تدريب بيانات ذات مشاعر معروفة عن طريق الأزياء الخاضعة للإشراف.
على الرغم من أنه تحسن كبير على النهج السابق ، إلا أنه لا يزال يتجاهل السياق ويزيد حجم البيانات مع حجم المفردات.
Word2Vec و DOC2VEC
في السنوات الأخيرة ، طورت Google طريقة جديدة تسمى Word2Vec لالتقاط سياق الكلمات مع تقليل حجم البيانات.يحتوي Word2Vec بالفعل على نهجين مختلفين: CBOW (حقيبة مستمرة من الكلمات) و Skip-Gram.
بالنسبة إلى CBOW ، فإن الهدف هو التنبؤ بالكلمات الفردية بالنظر إلى جيرانهم ، في حين أن Skip-Gram هو عكس ذلك: نريد التنبؤ بمجموعة من الكلمات التي تعطى كلمة واحدة (انظر أدناه).تستخدم كلتا الطريقتين الشبكات العصبية الاصطناعية كخوارزمية تصنيفهما.أولاً ، كل كلمة في المفردات هي متجه عشوائي N- الأبعاد.أثناء التدريب ، تستخدم الخوارزمية CBOW أو SKIP-GRAM لتعلم المتجه الأمثل لكل كلمة.
يمكن أن تأخذ ناقلات الكلمات هذه الآن في الاعتبار الخلفية السياقية.يمكن اعتبار ذلك على أنه علاقات كلمات التعدين باستخدام المعادلات الجبرية الأساسية (على سبيل المثال ، "King" - "Man" + "Woman" = "Queen").يمكن استخدام ناقلات الكلمات هذه كمدخلات في خوارزمية التصنيف للتنبؤ بالمشاعر ، متميزة عن نهج نموذج حقيبة الكلمات.هذا له ميزة أنه يمكننا ربط الكلمات بالسياق وأن مساحة الميزات لدينا لها أبعاد منخفضة للغاية (عادة ما تكون حوالي 300 ، نسبة إلى مفردات تبلغ حوالي 100000 كلمة).بعد أن استخرجت الشبكة العصبية هذه الميزات ، يجب علينا أيضًا إنشاء عدد صغير من الميزات يدويًا.نظرًا للطول المتغير للنص ، يتم استخدام متوسط قيمة متجه الكلمة بأكمله كمدخل في خوارزمية التصنيف لتصنيف المستند بأكمله.
اقترح Quoc Le و Tomas Mikolov نهج DOC2VEC لتوصيف نص الأطوال المختلفة.هذا النهج هو في الأساس مثل Word2Vec باستثناء أنه يتم إضافة متجه الفقرة / المستند إلى الناتج الأصلي.يوجد مقاربتان أيضًا: DM (الذاكرة الموزعة) و DBOW (كيس موزع من الكلمات) ، والتي تحاول التنبؤ بالكلمات الفردية بالنظر إلى الكلمات ومتجهات الفقرة من الجزء السابق.
تستخدم DBOW الفقرة للتنبؤ بمجموعة عشوائية من الكلمات في فقرة (انظر أدناه).بمجرد التدريب ، يمكن استخدام متجه الفقرة كمدخلات لمصنف المشاعر دون كل الكلمات.