أكاديمية Osint

مقدمة لتكنولوجيا تحليل المعنويات على تويتر

يمثل تحليل المشاعر مشكلة صعبة في معالجة اللغة الطبيعية (NLP) ، وتحليل النص ، واللغويات الحسابية.بمعنى عام ، يركز تحليل المشاعر على تحليل آراء المستخدمين حول الكائنات أو القضايا المختلفة.تم تحليله في البداية باستخدام نصوص طويلة (على سبيل المثال ، الرسائل ، رسائل البريد الإلكتروني ، إلخ).من خلال تطوير الإنترنت ، يستخدم المستخدمون وسائل التواصل الاجتماعي تدريجياً لمختلف التفاعلات (المشاركة ، والتعليق ، والتوصية ، وتكوين الأصدقاء ، وما إلى ذلك) ، وبالتالي توليد كمية كبيرة من البيانات التي تحتوي على كمية كبيرة من المعلومات وتعكس الأنماط السلوكية الجوهرية لـالمستخدمون.تتطلب كمية البيانات الضخمة استخدام التقنيات الآلية للتعدين والتحليل.

تستخدم معظم دراسات تحليل المشاعر طرق التعلم الآلي.في مجال تحليل المشاعر ، يمكن تصنيف النصوص إلى فئات إيجابية أو سلبية ، أو فئات متعددة ، أي إيجابية ، سلبية ، ومحايدة (أو غير ذات صلة).يمكن تصنيف تقنيات تحليل المشاعر لمحتوى Twitter على النحو التالي: التحليل المعجمي ، والتحليل القائم على التعلم الآلي ، والتحليل المختلط.

1. التحليل المعجمي:

تستخدم هذه التقنية بشكل أساسي قاموسًا يتكون من كلمات مسبقة.يتم تحويل نص الإدخال إلى كلمات فردية بواسطة محلل معجمي.تتم مطابقة كل كلمة جديدة مع الكلمات الموجودة في القاموس.إذا كانت هناك تطابق إيجابي ، تتم إضافة النتيجة إلى مجموع الدرجات لنص الإدخال.على سبيل المثال ، إذا كانت "الدرامية" عبارة عن تطابق إيجابي في القاموس ، فسيتم زيادة النتيجة الإجمالية للنص.على العكس ، إذا كانت هناك تطابق سلبي ، فإن النتيجة الإجمالية لنص الإدخال تنخفض.على الرغم من أن هذه التقنية تشعر بالهواة إلى حد ما في الطبيعة ، إلا أنها أثبتت أنها ذات قيمة.يتم توضيح الطريقة التي تعمل بها تقنية التحليل المعجمية أدناه.

twitter sentiment analysis lexical analysis

يعتمد تصنيف النص على النتيجة الإجمالية للنص.هناك مجموعة كبيرة من العمل المكرسة لقياس صحة المعلومات المعجمية.بالنسبة للعبارات الفردية ، يمكن تحقيق دقة بنسبة 80 ٪ تقريبًا عن طريق وضع علامة يدويًا على الكلمات (التي تحتوي على صفات فقط) ، والتي يتم تحديدها من خلال الطبيعة الذاتية للنص الذي تم تقييمه.بالإضافة إلى الطريقة اليدوية لوضع علامة على الكلمات ، هناك باحثون يستخدمون محركات البحث على الإنترنت لتمييز قطبية الكلمات.لقد استخدموا محركين للبحث في Altavista لاستفساراتهم: Target Word + "Good" و Target Word + "BAD" ، واستندت النتيجة النهائية إلى عدد نتائج البحث ، وزاد معدل الدقة من 62 ٪ إلى 65 ٪.في وقت لاحق ، استخدم باحثون آخرون قاعدة بيانات WordNet ، قاموا بحساب الحد الأدنى لمسافة المسار بين الكلمة المستهدفة و "جيدة" و "سيئة" في هرم WordNet ، وحولوا MPD إلى قيمة تسجيل.يتم تحويل MPD إلى قيم كسرية وتخزينها في القاموس المعجمي.يمكن أن يصل معدل دقة هذه الطريقة إلى 64 ٪.قام باحثون آخرون بتقييم الفجوة الدلالية عن طريق إزالة الكلمات الإيجابية ببساطة من مجموعة الكلمات السلبية وحصلوا على دقة 82 ٪.كما أن التحليل المعجمي له عيب: تنخفض دقتها بسرعة مع زيادة عدد كلمات القاموس.

2. التحليل القائم على التعلم الآلي:

تلقت تقنيات التعلم الآلي اهتمامًا متزايدًا بسبب قدرتها على التكيف ودقتها.في تحليل المعنويات ، يتم استخدام أساليب التعلم الخاضعة للإشراف بشكل أساسي.يمكن تقسيمها إلى ثلاث مراحل: جمع البيانات ، والمعالجة المسبقة ، والتدريب للتصنيف.

في عملية التدريب ، يجب توفير مجموعة من العلامات كبيانات تدريب.يستخدم المصنف سلسلة من متجهات الميزات لتصنيف البيانات المستهدفة.في تقنيات التعلم الآلي ، يكون مفتاح تحديد دقة المصنف هو اختيار الميزة المناسب.عادة ، يمكن اختيار unigram (عبارة واحدة) ، BigRams (عبارات متتالية) ، و trigrams (ثلاث عبارات متتالية) جميعها كمتجهات ميزة.بالطبع هناك ميزات أخرى مثل عدد الكلمات الإيجابية ، وعدد الكلمات السلبية ، وطول المستند ، وآلة ناقلات الدعم (SVM) ، و Bayes الساذجة (NB).اعتمادًا على مزيج من الميزات المختلفة المختارة ، يمكن أن تصل الدقة من 63 ٪ إلى 80 ٪.يوضح الشكل أدناه الخطوات الرئيسية التي ينطوي عليها التحليل القائم على التعلم الآلي.

twitter sentiment analysis machine learning

في الوقت نفسه ، تواجه تقنيات التعلم الآلي العديد من التحديات: تصميم المصنف ، واكتساب البيانات للتدريب ، والتفسير الصحيح لبعض العبارات غير المرئية.مقارنة بطرق التحليل المعجمية ، فإنه لا يزال يعمل بشكل جيد عندما ينمو عدد كلمات القاموس بشكل كبير.

3. التحليل الهجين:

اجتذبت التقدم في دراسة تحليل المشاعر عددًا كبيرًا من الباحثين لاستكشاف إمكانية الجمع بين الطريقتين ، واستغلال كل من الدقة العالية لأساليب التعلم الآلي والميزات السريعة لطرق التحليل المعجمية.استخدم بعض الباحثين الكلمات التي تتكون من كلمتين وبيانات غير مفيدة لتصنيف هذه الكلمات التي تتكون من كلمتين إلى فئات إيجابية وسلبية.يتم إنشاء بعض الحجج الكاذبة باستخدام جميع الكلمات في مجموعة الكلمات المحددة.ثم يتم حساب تشابه جيب التمام بين الحجة الزائفة والوثيقة غير المقيدة.بناءً على مقياس التشابه ، يتم تصنيف المستند على أنه شعور إيجابي أو سلبي.ثم يتم تغذية مجموعات بيانات التدريب هذه في مصنف Bayes الساذج للتدريب.

اقترح بعض الباحثين إطار عمل موحد باستخدام المعلومات المعجمية للخلفية كجمعيات فئة الكلمات وصمموا حدودًا متعددة الحدود التي تتضمن البيانات المسمى يدويًا في التدريب.يزعمون أن الأداء قد تم تحسينه بعد استغلال المعرفة المعجمية.



تحليل سلوك البالغين في الولايات المتحدة على تويتر
هل تعرف كيفية العثور على الحساب الأول على Twitter لنشر علامة الهاشتاج الذكاء الاصطناعي؟
كيفية تحليل الكلمات الرئيسية على Twitter؟
كيفية تحليل حسابات مستخدمي Twitter وملامحها؟
كيف تجد التغريدات المنشورة من موقع معين؟
كيف تجري تحقيقات أفضل في ذكاء المصادر على Twitter؟
كيفية استخراج الصور من Twitter؟
كيف تفعل تحليل معنويات تويتر دون الترميز؟