Académie OSINT

Introduction à la technologie d'analyse des sentiments Twitter

L'analyse des sentiments est un problème difficile dans le traitement du langage naturel (PNL), l'analyse de texte et la linguistique informatique.Dans un sens général, l'analyse des sentiments se concentre sur l'analyse des opinions des utilisateurs sur divers objets ou problèmes.Il a été initialement analysé à l'aide de textes longs (par exemple, lettres, e-mails, etc.).Avec le développement d'Internet, les utilisateurs utilisent progressivement les médias sociaux pour diverses interactions (partager, commentaires, recommander, se faire des amis, etc.), générant ainsi une grande quantité de données qui contient une grande quantité d'informations et reflète les modèles de comportement intrinsèques des modèles de comportement intrinsèques deutilisateurs.L'énorme quantité de données nécessite l'utilisation de techniques automatisées pour l'exploitation minière et l'analyse.

La plupart des études d'analyse du sentiment utilisent des méthodes d'apprentissage automatique.Dans le domaine de l'analyse des sentiments, les textes peuvent être classés en classes positives ou négatives, ou plusieurs catégories, c'est-à-dire positives, négatives et neutres (ou non pertinentes).Les techniques d'analyse des sentiments pour le contenu Twitter peuvent être classées comme: analyse lexicale, analyse basée sur l'apprentissage automatique et analyse hybride.

1. Analyse lexicale:

Cette technique utilise principalement un dictionnaire composé de mots pré-marqués.Le texte d'entrée est converti en mots individuels par un analyseur lexical.Chaque nouveau mot est apparié aux mots du dictionnaire.S'il y a une correspondance positive, le score est ajouté au pool total de scores pour le texte d'entrée.Par exemple, si "dramatique" est une correspondance positive dans le dictionnaire, le score total du texte est incrémenté.Inversement, s'il y a une correspondance négative, le score total du texte d'entrée diminue.Bien que cette technique semble de nature quelque peu amateur, elle s'est avérée précieuse.Le fonctionnement de la technique d'analyse lexicale est illustré ci-dessous.

twitter sentiment analysis lexical analysis

La classification d'un texte dépend du score total du texte.Il existe un grand nombre de travaux consacrés à la mesure de la validité des informations lexicales.Pour les phrases individuelles, une précision d'environ 80% peut être obtenue en marquant manuellement les mots (contenant uniquement des adjectifs), qui est déterminé par la nature subjective du texte évalué.En plus de la méthode manuelle de marquage des mots, il y a des chercheurs qui utilisent des moteurs de recherche Internet pour marquer la polarité des mots.Ils ont utilisé deux moteurs de recherche Altavista pour leurs requêtes: Target Word + "Good" et Target Word + "Bad", et le score final était basé sur le nombre de résultats de recherche, et le taux de précision est passé de 62% à 65%.Plus tard, d'autres chercheurs ont utilisé la base de données WordNet, ils ont calculé la distance de chemin minimale entre le mot cible et le "bon" et le "mauvais" dans la pyramide WordNet, et ont converti le MPD en valeur de score.Le MPD est converti en valeurs fractionnaires et stockée dans le dictionnaire lexical.Le taux de précision de cette méthode peut atteindre 64%.D'autres chercheurs ont évalué l'écart sémantique en supprimant simplement les mots positifs de l'ensemble des mots négatifs et ont obtenu une précision de 82%.L'analyse lexicale a également une lacune: sa précision diminue rapidement à mesure que le nombre de mots de dictionnaire augmente.

2. Analyse basée sur l'apprentissage automatique:

Les techniques d'apprentissage automatique ont reçu une attention croissante en raison de leur grande adaptabilité et de leur précision.Dans l'analyse des sentiments, les méthodes d'apprentissage supervisées sont principalement utilisées.Il peut être divisé en trois phases: collecte de données, prétraitement et formation pour la classification.

Dans le processus de formation, un corpus de marqueurs doit être fourni comme données de formation.Le classificateur utilise une série de vecteurs de fonctionnalités pour classer les données cibles.Dans les techniques d'apprentissage automatique, la clé pour déterminer la précision d'un classificateur est la sélection de fonctionnalités appropriée.En règle générale, unigramme (une seule phrase), des bigrams (deux phrases consécutives) et des trigrammes (trois phrases consécutives) peuvent toutes être sélectionnées comme vecteurs de caractéristiques.Bien sûr, il existe d'autres fonctionnalités telles que le nombre de mots positifs, le nombre de mots négatifs, la longueur du document, la machine vectorielle de support (SVM) et les Bayes naïfs (NB).Selon la combinaison des différentes caractéristiques choisies, la précision peut atteindre 63% à 80%.La figure ci-dessous montre les principales étapes impliquées dans l'analyse basée sur l'apprentissage automatique.

twitter sentiment analysis machine learning

Dans le même temps, les techniques d'apprentissage automatique sont confrontées à de nombreux défis: la conception du classificateur, l'acquisition de données pour la formation et l'interprétation correcte de certaines phrases invisibles.Par rapport aux méthodes d'analyse lexicale, il fonctionne toujours bien lorsque le nombre de mots de dictionnaire augmente de façon exponentielle.

3. Analyse hybride:

Les progrès de l'étude de l'analyse des sentiments ont attiré un grand nombre de chercheurs pour explorer la possibilité de combiner les deux méthodes, exploitant à la fois la haute précision des méthodes d'apprentissage automatique et les caractéristiques rapides des méthodes d'analyse lexicale.Certains chercheurs ont utilisé des mots composés de deux mots et de données non marquées pour classer ces mots constitués de deux mots en classes positives et négatives.Certains pseudo-documents sont générés en utilisant tous les mots de l'ensemble de mots sélectionné.Ensuite, la similitude du cosinus entre le pseudo-document et le document non marqué est calculée.Sur la base de la mesure de similitude, le document est classé comme sentiment positif ou négatif.Ces ensembles de données de formation sont ensuite introduits dans un classificateur de Bayes naïf pour la formation.

Certains chercheurs ont proposé un cadre unifié en utilisant des informations lexicales de fond comme associations de classe de mots et conçu un Bayes naïf polynomial qui intègre des données étiquetées manuellement dans la formation.Ils affirment que la performance est améliorée après l'exploitation des connaissances lexicales.



Analyse du comportement des adultes américains sur Twitter
Savez-vous comment trouver le premier compte sur Twitter pour publier le hashtag de l'intelligence artificielle?
Comment analyser les mots clés sur Twitter?
Comment analyser les comptes et les profils des utilisateurs de Twitter?
Comment trouver des tweets publiés à partir d'un emplacement spécifique?
Comment faire de meilleures enquêtes de renseignement open source sur Twitter?
Comment extraire des images de Twitter?
Comment faire l'analyse du sentiment Twitter sans codage?