أكاديمية Osint

طرق تحليل المعنويات النصية

Introduction to text sentiment analysis

إدخال نص ، ثم النظام الإلكتروني يطعمك تلقائيًا نوع اتجاه المشاعر الذي يتمتع به النص ، سواء كان إيجابيًا أو سلبيًا ، هذا هو تحليل المعنويات النصية ، والمعروف أيضًا باسم تعدين الرأي.إنه يشير إلى عملية جمع ومعالجة وتحليل وتلخيص وتلخيص حول النص الشخصي مع العاطفة ، والتي تتضمن مختلف مجالات البحث مثل الذكاء الاصطناعي والتعلم الآلي وتعدين البيانات ومعالجة اللغة الطبيعية.

يعد تحليل المعنويات النصية فرعًا مهمًا في مجال معالجة اللغة الطبيعية ، والذي يستخدم على نطاق واسع في تحليل الرأي العام وتوصية المحتوى ، وما إلى ذلك. إنه موضوع بحث ساخن في السنوات الأخيرة.وفقًا للطرق المختلفة المستخدمة ، يتم تصنيفها في أساليب تحليل المشاعر القائمة على معجمات المشاعر ، وطرق تحليل المشاعر القائمة على التعلم الآلي التقليدي ، وطرق تحليل المشاعر القائمة على التعلم العميق.

1. إدخال طرق تحليل المعنويات القائمة على المعجم

تشير الطريقة التي تعتمد على المعجمات المشاعر إلى تقسيم قطبية المشاعر في ظل تفاصيل مختلفة بناءً على قطبية المشاعر للكلمات المشاعر التي توفرها معجمات المشاعر المختلفة.

sentiment analysis

أولاً ، يتم إدخال النص ويتم تجهيزه مسبقًا من خلال البيانات (بما في ذلك تقليل الأحرف ، وإزالة الأحرف غير الصالحة ، وما إلى ذلك) ، تليها عملية فصل الكلمات ، ثم يتم وضع كلمات الأنواع والدرجات المختلفة من المعجم المشاعر في النموذج للتدريب، وأخيراً يتم إخراج أنواع المشاعر وفقًا لقواعد الحكم المشاعر.

يتم بناء معظم المعجمات المشاعر الحالية يدويًا ، ووفقًا لمختلف التفاصيل بين الانقسام ، يمكن تصنيف مهام تحليل المشاعر الحالية في كلمة ، عبارة ، سمة ، جملة ، الفصل والمستويات الأخرى.

يعد البناء اليدوي للمعجمات المعنوية مكلفة ويتطلب قراءة كمية كبيرة من المواد ذات الصلة والمعجمات الحالية ، وتلخيص الكلمات التي تحتوي على ميول المشاعر من خلال تلخيصها ووصفها بمستويات مختلفة من قطبية المشاعر وكثافة.

المميزات والعيوب:

يمكن أن يعكس النهج القائم على المعجم بدقة الميزات غير المهيكلة للنص ويسهل تحليلها وفهمها.في هذه الطريقة ، يكون تأثير تصنيف المشاعر أكثر دقة عندما تكون تغطية ودقة كلمات المشاعر عالية.

ومع ذلك ، لا تزال هذه الطريقة لديها بعض العيوب.

تعتمد طريقة تصنيف المشاعر القائمة على المعجمات المعنوية بشكل أساسي على بناء معجمات المشاعر ، ولكن بسبب التطوير السريع للشبكة في هذه المرحلة وسرعة تحديث المعلومات ، هناك العديد من الكلمات الجديدة على الشبكة ، والتعرف على هذهالكلمات الجديدة لا تعمل بشكل جيد ، ويجب توسيع المعجمات المشاعر الحالية بشكل مستمر لتلبية الاحتياجات.

قد تعبر نفس كلمة المشاعر في المعجمات المعنوية عن معاني مختلفة في أوقات مختلفة ، بلغات مختلفة أو في مجالات مختلفة ، وبالتالي فإن الطريقة القائمة على المعجمات المشاعر ليست فعالة للغاية في المجال المتقاطع واللغة المتقاطعة.

عند استخدام المعجمات المشاعر لتصنيف المشاعر ، غالبًا ما لا يتم النظر في العلاقات الدلالية بين السياقات.

لذلك هناك حاجة إلى مزيد من العلماء لإجراء البحوث الكافية حول الأساليب القائمة على المعجم.

2. إدخال أساليب تحليل المعنويات التقليدية القائمة على التعلم الآلي

التعلم الآلي هو طريقة تعليمية تدرب نموذجًا من البيانات المعطاة ويتوقع النتائج حسب النموذج.تمت دراسة هذه الطريقة حتى الآن وحققت العديد من النتائج الفعالة.

تشير طريقة تحليل المعنويات القائمة على التعلم الآلي إلى استخراج الميزات من خلال كمية كبيرة من المجموعة المسمى أو غير المسمى ، باستخدام خوارزميات التعلم الآلي الإحصائي ، وأخيراً النتائج في تحليل المعنويات.

sentiment analysis

تنقسم طرق تصنيف المعنويات القائمة على التعلم الآلي إلى ثلاث فئات رئيسية:خاضع للإشراف ، أساليب شبه خاضعة للإشراف وغير خاضعة للإشراف.

في الأساليب الخاضعة للإشراف ، يمكن تصنيف فئات المعنويات المختلفة عن طريق إعطاء عينة مع قطبية عاطفية.تعتمد الطرق الخاضعة للإشراف أكثر على عينات البيانات وقضاء المزيد من الوقت في وضع العلامات اليدوية ومعالجة عينات البيانات.الأساليب المشتركة الخاضعة للإشراف هي knn ، bayes الساذجة و SVM.

في الطرق شبه الخاضعة للإشراف ، يمكن تحسين نتائج تصنيف المعنويات النصية بشكل فعال عن طريق استخراج الميزات من النص غير المرفق ، ويمكن أن تحل هذه الطريقة بشكل فعال مشكلة مجموعات البيانات المتفرقة مع وضع العلامات.

في الأساليب غير الخاضعة للإشراف ، يتم تصنيف النص غير المسماة بناءً على التشابه بين النصوص ، وهذه الطريقة أقل استخدامًا في تحليل المعنويات.

المميزات والعيوب:

تركز أساليب تصنيف المشاعر التقليدية القائمة على التعلم الآلي بشكل أساسي على استخراج ميزات المشاعر ومجموعة المصنفات ، والمزيج من المصنفات المختلفة لها تأثير معين على نتائج تحليل المشاعر.غالبًا ما لا يمكن لهذه الطرق الاستفادة الكاملة من المعلومات السياقية للنص ، ولديها مشكلة في تجاهل الدلالات السياقية عند تحليل محتوى النص ، لذلك تتأثر دقة التصنيف الخاصة بهم.

3. إدخال أساليب تحليل المعنويات القائمة على التعلم العميق

يتم تنفيذ طرق تحليل المشاعر القائمة على التعلم العميق باستخدام الشبكات العصبية ، وطرق تعلم الشبكة العصبية النموذجية هي: الشبكة العصبية التلافيفية (CNN) ، والشبكة العصبية المتكررة (RNN) ، والذاكرة طويلة الأجل طويلة الأجل (LSTM) وما إلى ذلك.

من خلال تقسيم أساليب تحليل المشاعر العميقة القائمة على التعلم ، يمكن تقسيمها إلى: طرق تحليل معنويات الشبكة العصبية الفردية ، وطرق تحليل معنويات الشبكة العصبية الهجينة (مجتمعة ، الانصهار) ، وتحليل المشاعر من خلال إدخال آلية الانتباه وتحليل المشاعر باستخدام النماذج التي تم تدريبها مسبقًا..

1. تحليل معنويات الشبكة العصبية الفردية:

في عام 2003 Bengio et al.اقترح نموذج لغة الشبكة العصبية ، والذي يستخدم شبكة عصبية من ثلاث طبقات لتصميم اللغة.تتكون الشبكة العصبية بشكل أساسي من طبقة إدخال ، وطبقة مخفية ، وطبقة إخراج.

تمثل كل خلية عصبية في طبقة الإدخال للشبكة سمة ، ويتم تعيين عدد الطبقات المخفية والخلايا العصبية للطبقة المخفية يدويًا ، وتمثل طبقة الإخراج عدد الملصقات الفئوية ، ويرد أدناه شبكة عصبية ثلاثية الطبقات.

neural network



يتمثل جوهر نموذج اللغة في التنبؤ بمحتوى الكلمة التالية بناءً على المعلومات السياقية دون الاعتماد على المجموعة المسمى يدويًا ، والتي يمكن العثور عليها من أن ميزة نموذج اللغة هي القدرة على تعلم المعرفة الغنية منمجموعة واسعة النطاق.

يمكن أن يحل هذا النهج بشكل فعال مشكلة تجاهل الدلالات السياقية في الأساليب التقليدية القائمة على تحليل المشاعر.

2. تحليل المشاعر عن طريق الشبكات العصبية الهجينة (مجتمعة ، تنصهر):

بالإضافة إلى البحث عن مقاربات الشبكات العصبية المفردة ، قام عدد من العلماء بدمج هذه الأساليب وتحسينها واستخدموها في تحليل المشاعر بعد النظر في مزايا الأساليب المختلفة.

بالمقارنة مع أساليب تحليل المشاعر القائمة على معجم المعنويات والتعلم الآلي التقليدي ، فإن النهج باستخدام الشبكات العصبية له مزايا كبيرة في تعلم ميزة النص ، والتي يمكن أن تتعلم بشكل نشط المعلومات والاحتفاظ بنشاط حول الكلمات في النص لاستخراج المعلومات الدلالية بشكل أفضلالكلمات لتحقيق تصنيف المعنويات بشكل فعال للنص.

مع اقتراح مفهوم التعلم العميق ، استكشفه العديد من الباحثين بشكل مستمر وحصلوا على الكثير من النتائج ، وبالتالي فإن أساليب تصنيف المعنويات النصية القائمة على التعلم العميق تتوسع.

3. تحليل المشاعر مع إدخال آلية الانتباه:

بناءً على الشبكات العصبية ، في عام 2006 ، هينتون وآخرون.كان رائدًا في مفهوم التعلم العميق لتحسين أداء التعلم من خلال تعلم المعلومات الرئيسية في البيانات من خلال نماذج الشبكة العميقة لتعكس خصائص البيانات.

تستخدم الأساليب العميقة القائمة على التعلم متجهات مستمرة منخفضة الأبعاد لتمثيل المستندات والكلمات ، وبالتالي يمكنها حل مشكلة البيانات المتفرقة بشكل فعال.بالإضافة إلى ذلك ، فإن الأساليب العميقة القائمة على التعلم هي طرق شاملة تستخرج تلقائيًا ميزات النص وتقلل من تعقيد ميزات إنشاء النص.

أحرزت أساليب التعلم العميق تقدمًا كبيرًا في مجال معالجة اللغة الطبيعية ، مثل الترجمة الآلية ، وتصنيف النص ، والتعرف على الكيان ، بالإضافة إلى نتائج ملحوظة في مجالات الكلام والصورة.ينتمي البحث عن أساليب تحليل المعنويات النصية إلى فرع صغير من تصنيف النص.

من خلال إضافة آلية الانتباه إلى أساليب التعلم العميق لمهام تحليل المشاعر ، يمكنه الحصول على المعلومات ذات الصلة بشكل أفضل في السياق ، واستخراج المعلومات الدلالية ومنع فقدان المعلومات المهمة ، والتي يمكن أن تحسن بشكل فعال من دقة تصنيف المعنويات النصية.

تتعلق المرحلة الحالية من البحث بشكل أكبر وتحسين نموذج ما قبل التدريب لتعزيز التجارب بشكل أكثر فعالية.

4. تحليل المشاعر باستخدام النماذج التي تم تدريبها مسبقًا:

النموذج الذي تم تدريبه مسبقًا هو نموذج تم تدريبه مع مجموعة بيانات.من خلال ضبط النموذج الذي تم تدريبه مسبقًا ، يمكن تحقيق نتائج تصنيف المشاعر الأفضل ، لذلك تستخدم معظم الطرق الأخيرة النماذج التي تم تدريبها مسبقًا ، وأحدث النماذج التي تم تدريبها قبل التدريب هي: Elmo ، Bert ، XL-NET ، Albert ، إلخ.

من خلال الاستفادة الكاملة من المجموعة أحادية النطاق على نطاق واسع مقارنة بالطرق التقليدية ، يمكن أن تعتبر طريقة التدريب قبل التدريب باستخدام نماذج اللغة معانيًا متعددة للكلمة ، ويمكن اعتبار عملية التدريب المسبق باستخدام نماذج اللغة جملة-مستوى تمثيل الكلمات السياقية.

من خلال تدريب مجموعة واسعة النطاق باستخدام نموذج موحد أو إضافة ميزات إلى بعض النماذج البسيطة ، تم تحقيق نتائج جيدة في العديد من مهام NLP ، مما يشير إلى أن هذا النهج فعال إلى حد كبير في تخفيف مشكلة الاعتماد على بنية النموذج.

سيكون هناك المزيد من الأبحاث حول مهام معالجة اللغة الطبيعية في المستقبل ، وخاصة حول تعدين المشاعر للنص.تستند معظم الأساليب الأخيرة لتحليل المشاعر إلى صقل النماذج التي تم تدريبها مسبقًا وحققت نتائج جيدة.

لذلك ، يمكن التنبؤ بأن أساليب تحليل المعنويات المستقبلية ستركز أكثر على البحث في الأساليب العميقة القائمة على التعلم وتحقيق نتائج تحليل المشاعر بشكل أفضل من خلال صياغة نماذج ما قبل التدريب.



خاتمة

من خلال إدخال المقالات السابقة ، يمكننا التنبؤ بأن استخدام التعلم العميق لتحليل المشاعر هو اتجاه بحث مستقبلي في مجال معالجة اللغة الطبيعية ، حيث يتوسع حجم بيانات النص.من اتجاه تطوير الأساليب المختلفة ، يحتاج البحث المستقبلي حول تحليل المعنويات النصية إلى التركيز على الجوانب التالية:

1. من خلال مقارنة طرق البحث المختلفة ، يمكننا أن نجد أن أساليب البحث الحالية لتحليل المشاعر تعتمد في الغالب على مجال واحد ، مثل وسائل التواصل الاجتماعي على Twitter ، ومراجعات الفنادق ، إلخ. في التوصية الشخصية ، كيفية الجمع بين محتوى متعددالمجالات ، وإجراء تصنيف المعنويات ، وتحقيق تأثير توصية أفضل ، وتحقيق في تحسين أداء تعميم النموذج كلها تستحق البحث في المستقبل والاستكشاف.

2. يتم استخدام معظم الأبحاث حول تحليل المشاعر في الغالب لمشاكل تصنيف المعنويات الصريحة ، باستخدام مجموعات البيانات التي تحتوي على كلمات مشاعر واضحة ، في حين أن اكتشاف وتصنيف بعض الكلمات الضمنية غير فعال.في هذه المرحلة ، لا يزال البحث عن تحليل المشاعر الضمني في المرحلة الأولية وليس كافية للغاية.في المستقبل ، يمكن تحقيق تصنيف مشاعر أفضل من خلال بناء معجم مشاعر ضمنية أو باستخدام أساليب تعليمية عميقة أفضل لاستخراج المعلومات ذات الصلة الدلالية بطريقة أعمق.

3. يجب تحسين الأبحاث حول تحليل المشاعر من الكلمات المعقدة.عندما تظهر العبارات عبر الإنترنت ذات ميل المشاعر بشكل متكرر ، خاصةً عندما يحتوي النص على كلمات مفارقة أو مجازية ، سيكون اكتشاف قطبية المشاعر أمرًا صعبًا ، والذي يحتاج أيضًا إلى مزيد من البحث.

4. تحليل المشاعر متعددة الوسائط هو أيضا نقطة ساخنة للبحث الحديثة.كيفية استخراج معلومات المشاعر ودمجها في طرائق متعددة هي الاتجاه الرئيسي للبحث.عندما تكون تعبيرات المشاعر في طرائق متعددة غير متسقة ، فإن كيفية وزن معلومات المشاعر في طرائق مختلفة تحتاج أيضًا إلى أخذها في الاعتبار ؛وما إذا كان يمكن النظر في المعلومات الدلالية الخارجية ، وما إذا كانت مفيدة لدقة تحليل المشاعر ، يجب أيضًا إجراء الكثير من الأبحاث.

5. في المهمة الفرعية لتحليل المشاعر ، يمكن أيضًا العثور على أن معظم الأبحاث تعتمد على تحليل المعنويات الثنائية البسيطة ، وتحقيق التصنيف متعدد الحواس وتحليل المشاعر الدقيقة هو أيضًا موضوع ساخن للبحث في المستقبل.

6. نموذج ما قبل التدريب هو موضوع بحث ساخن في هذه المرحلة.يمكن أن يحل بشكل فعال مشاكل الأساليب التقليدية ، مثل الحد من عدم القدرة على موازاة الحساب ، ويمكن أيضًا التقاط العلاقة المتبادلة بين الكلمات وتحقيق نتائج أفضل في مهام المصب عن طريق الضبط.ومع ذلك ، فإنه يعاني أيضًا من مشكلة عدد كبير من المعلمات النموذجية ووقت التدريب الطويل.كيفية تحقيق نتائج تصنيف جيدة مع عدد صغير من معلمات النماذج وتقصير وقت التدريب سيكون أيضًا اتجاهًا يستحق الدراسة.



طرق تحليل المشاعر الحديثة