Académie OSINT

Méthodes d'analyse des sentiments modernes

L'analyse des sentiments (SA) est une application courante des méthodes de traitement du langage naturel (NLP), en particulier la classification dans le but de raffiner le contenu émotionnel du texte.En utilisant des méthodes telles que l'analyse des sentiments, les données qualitatives peuvent être analysées quantitativement grâce à des scores de sentiment.Bien que le sentiment soit chargé de subjectivité, l'analyse quantitative des sentiments a déjà de nombreuses fonctions utiles, par exemple, pour que les entreprises comprennent comment les utilisateurs réagissent aux produits ou discernent le discours de haine dans les critiques en ligne.

La forme la plus simple d'analyse des sentiments est d'utiliser un dictionnaire contenant des mots positifs et négatifs.Chaque mot se voit attribuer un score de sentiment, généralement +1 pour le sentiment positif et -1 pour négatif.Ensuite, nous additionnons simplement les scores de sentiment de tous les mots de la phrase pour calculer le score total final.De toute évidence, cette approche a de nombreux défauts, dont le plus important est qu'il ignore le contexte et les mots voisins.Par exemple, une phrase simple "pas bon" a un score de sentiment final de 0, car "pas" est -1 et "bon" est +1.Une personne normale classerait cette phrase comme une émotion négative, malgré la présence de "bien".

Une autre pratique courante consiste à modéliser un «sac de mots» en termes de texte.Nous considérons chaque texte comme un vecteur de 1 à n, où n est la taille de tout le vocabulaire.Chaque colonne est un mot, et la valeur correspondante est le nombre d'occurrences du mot.Par exemple, l'expression «sac de sacs de mots» peut être codée comme [2, 2, 1].Cette valeur peut être utilisée comme entrée dans les algorithmes d'apprentissage automatique tels que la régression logistique et les machines vectorielles de support (SVM) pour effectuer la classification.Cela permet la prédiction des sentiments sur les données inconnues (invisibles).Notez que cela nécessite des données avec un sentiment connu pour être formé par la mode supervisée.

Bien qu'il s'agisse d'une amélioration significative par rapport à l'approche précédente, elle ignore toujours le contexte et la taille des données augmente avec la taille du vocabulaire.

Word2vec et doc2vec

Ces dernières années, Google a développé une nouvelle méthode appelée Word2Vec pour capturer le contexte des mots tout en réduisant la taille des données.Word2Vec a en fait deux approches différentes: CBOW (sac continu de mots) et Skip-Gram.

Pour CBOW, l'objectif est de prédire les mots individuels compte tenu de leurs voisins, tandis que Skip-Gram est le contraire: nous voulons prédire une gamme de mots étant donné un seul mot (voir ci-dessous).Les deux méthodes utilisent des réseaux de neurones artificiels comme algorithme de classification.Premièrement, chaque mot du vocabulaire est un vecteur N dimensionnel aléatoire.Pendant l'entraînement, l'algorithme utilise CBOW ou Skip-Gram pour apprendre le vecteur optimal pour chaque mot.

sentiment analysis

Ces vecteurs de mots peuvent désormais prendre en compte le contexte contextuel.Cela peut être considéré comme des relations de mot minière utilisant des équations algébriques de base (par exemple, "King" - "man" + "femme" = "reine").Ces vecteurs de mots peuvent être utilisés comme entrée dans un algorithme de classification pour prédire le sentiment, distinct de l'approche du modèle de sacs de mots.Cela a l'avantage que nous pouvons relier les mots à leur contexte et que notre espace de fonctionnalité a une dimensionnalité très faible (généralement environ 300, par rapport à un vocabulaire d'environ 100 000 mots).Une fois que le réseau neuronal a extrait ces fonctionnalités, nous devons également créer un petit nombre de fonctionnalités manuellement.En raison de la longueur variable du texte, la valeur moyenne de l'ensemble du vecteur de mots est utilisée comme entrée dans l'algorithme de classification pour catégoriser l'ensemble du document.

Quoc Le et Tomas Mikolov ont proposé l'approche DOC2VEC pour caractériser le texte de différentes longueurs.Cette approche est fondamentalement la même que Word2Vec, sauf que le vecteur de paragraphe / document est ajouté à celui d'origine.Deux approches existent également: DM (mémoire distribuée) et DBow (sac distribué de mots), qui tente de prédire les mots individuels compte tenu des mots et des vecteurs de paragraphe de la partie précédente.

DBow utilise un paragraphe pour prédire un ensemble aléatoire de mots dans un paragraphe (voir ci-dessous).Une fois formé, le vecteur de paragraphe peut être utilisé comme entrée dans le classificateur de sentiment sans tous les mots.

sentiment analysis

Méthodes d'analyse du sentiment de texte
Analyse du rôle de soutien de Chatgpt dans l'armée