Académie OSINT

Méthodes d'analyse du sentiment de texte

Introduction to text sentiment analysis

Entrer un texte, puis le système électronique vous nourrit automatiquement quel type d'orientation du sentiment du texte, qu'il soit positif ou négatif, il s'agit d'une analyse du sentiment de texte, également connu sous le nom d'extraction d'opinion.Il fait référence au processus de collecte, de traitement, d'analyse, de résumé et de raisonnement sur le texte subjectif avec émotion, qui implique divers domaines de recherche tels que l'intelligence artificielle, l'apprentissage automatique, l'exploration de données et le traitement du langage naturel.

L'analyse du sentiment de texte est une branche importante dans le domaine du traitement du langage naturel, qui est largement utilisée dans l'analyse d'opinion publique et la recommandation de contenu, etc. Il s'agit d'un sujet de recherche brûlant ces dernières années.Selon les différentes méthodes utilisées, elles sont classées en méthodes d'analyse des sentiments basées sur les lexiques de sentiment, les méthodes d'analyse des sentiments basées sur l'apprentissage automatique traditionnel et les méthodes d'analyse des sentiments basées sur l'apprentissage en profondeur.

1. Introduction des méthodes d'analyse des sentiments basés sur le lexique

La méthode basée sur les lexiques de sentiment fait référence à la division de la polarité des sentiments sous différentes granularité en fonction de la polarité du sentiment des mots de sentiment fournis par différents lexiques de sentiment.

sentiment analysis

Premièrement, le texte est entré et prétraité via les données (y compris le débroussage, la suppression des caractères non valides, etc.), suivi d'une opération de séparation de mots, puis les mots et les diplômes différents des lexiques de sentiment sont placés dans le modèle de formation, et enfin les types de sentiment sont sortis en fonction des règles de jugement du sentiment.

La plupart des lexiques de sentiment existants sont construits manuellement, et selon la granularité différente de la division, les tâches d'analyse des sentiments existantes peuvent être classées en mots, phrase, attribut, phrase, chapitre et autres niveaux.

La construction manuelle des lexiques de sentiment est coûteuse et nécessite la lecture d'une grande quantité de matériaux pertinents et de lexiques existants, résumant les mots contenant des tendances de sentiment en les résumant et en les étiquetant avec différents niveaux de polarité et d'intensité du sentiment.

Avantages et inconvénients:

L'approche basée sur le lexique du sentiment peut refléter avec précision les caractéristiques non structurées du texte et est facile à analyser et à comprendre.Dans cette méthode, l'effet de classification des sentiments est plus précis lorsque la couverture et la précision des mots de sentiment sont élevées.

Cependant, cette méthode présente encore quelques défauts.

La méthode de classification des sentiments basée sur les lexiques de sentiment dépend principalement de la construction des lexiques de sentiment, mais en raison du développement rapide du réseau à ce stade et de la vitesse de mise à jour de l'information, il y a de nombreux nouveaux mots sur le réseau, et la reconnaissance de celles-ciLes nouveaux mots ne fonctionnent pas bien et les lexiques de sentiment existants doivent être étendus en continu pour répondre aux besoins.

Le même mot de sentiment dans les lexiques de sentiment peut exprimer différentes significations à différents moments, dans différentes langues ou dans différents domaines, de sorte que la méthode basée sur les lexiques de sentiment n'est pas très efficace dans le domaine transversal et la langue transversale.

Lorsque vous utilisez des lexiques de sentiment pour la classification des sentiments, les relations sémantiques entre les contextes ne sont souvent pas prises en compte.

Par conséquent, davantage de chercheurs sont nécessaires pour mener des recherches suffisantes sur les méthodes basées sur le lexique des sentiments.

2. Introduction des méthodes traditionnelles d'analyse des sentiments basées sur l'apprentissage automatique

L'apprentissage automatique est une méthode d'apprentissage qui forme un modèle à partir de données données et prédit les résultats du modèle.Cette méthode a été étudiée jusqu'à présent et a obtenu de nombreux résultats efficaces.

La méthode d'analyse des sentiments basée sur l'apprentissage automatique fait référence à l'extraction des fonctionnalités à travers une grande quantité de corpus étiqueté ou non étiqueté, à l'aide d'algorithmes d'apprentissage automatique statistiques, et enfin de la sortie des résultats dans l'analyse des sentiments.

sentiment analysis

Les méthodes de classification des sentiments basées sur l'apprentissage automatique sont divisées en trois catégories principales:méthodes supervisées, semi-supervisées et non supervisées.

Dans les méthodes supervisées, différentes catégories de sentiment peuvent être classées en donnant un ensemble d'échantillons avec polarité émotionnelle.Les méthodes supervisées dépendent davantage des échantillons de données et passent plus de temps sur l'étiquetage manuel et le traitement des échantillons de données.Les méthodes supervisées communes sont KNN, Naive Bayes et SVM.

Dans les méthodes semi-supervisées, les résultats de la classification du sentiment de texte peuvent être efficacement améliorés par l'extraction des fonctionnalités à partir de texte non étiqueté, et cette méthode peut résoudre efficacement le problème des ensembles de données clairsemés avec l'étiquetage.

Dans les méthodes non supervisées, le texte non marqué est classé en fonction de la similitude entre les textes, et cette méthode est moins utilisée dans l'analyse des sentiments.

Avantages et inconvénients:

Les méthodes traditionnelles de classification des sentiments basées sur l'apprentissage automatique se concentrent principalement sur l'extraction des caractéristiques du sentiment et la combinaison de classificateurs, et la combinaison de différents classificateurs a un certain impact sur les résultats de l'analyse des sentiments.Ces méthodes ne peuvent souvent pas utiliser pleinement les informations contextuelles du texte et ont le problème d'ignorer la sémantique contextuelle lors de l'analyse du contenu texte, de sorte que leur précision de classification est affectée.

3. Introduction des méthodes d'analyse des sentiments basées sur l'apprentissage en profondeur

Les méthodes d'analyse des sentiments basées sur l'apprentissage en profondeur sont effectuées à l'aide de réseaux de neurones, et les méthodes d'apprentissage du réseau neuronal typiques sont: le réseau neuronal convolutionnel (CNN), le réseau neuronal récurrent (RNN), la mémoire à long terme (LSTM), etc.

En subdivisant les méthodes d'analyse des sentiments basés sur l'apprentissage en profondeur, ils peuvent être divisés en: méthodes d'analyse de sentiment de réseaux neuronaux, hybrides (combinés, fusion) Méthodes d'analyse des sentiments du réseau neuron.

1. Analyse des sentiments du réseau neuronal unique:

En 2003, Bengio et al.a proposé un modèle de langage de réseau neuronal, qui utilise un réseau neuronal à trois couches pour modéliser la langue.Le réseau neuronal se compose principalement d'une couche d'entrée, d'une couche cachée et d'une couche de sortie.

Chaque neurone de la couche d'entrée du réseau représente un trait, le nombre de couches cachées et de neurones de couche cachée est réglé manuellement et la couche de sortie représente le nombre d'étiquettes catégoriques, un réseau neuronal de base à trois couches est illustré ci-dessous.

neural network



L'essence du modèle de langue consiste à prédire le contenu du mot suivant basé sur les informations contextuelles sans s'appuyer sur le corpus étiqueté manuellement, à partir de laquelle il peut être constaté que l'avantage du modèle de langue est la capacité d'apprendre des connaissances riches de laCorpus à grande échelle.

Cette approche peut résoudre efficacement le problème de l'ignorance de la sémantique contextuelle dans les méthodes basées sur l'analyse des sentiments traditionnels.

2. Analyse des sentiments par réseaux neuronaux hybrides (combinés, fusionnés):

En plus des recherches sur les approches des réseaux de neurones uniques, un certain nombre de chercheurs ont combiné et amélioré ces approches et les ont utilisés dans l'analyse des sentiments après avoir pris en compte les avantages de différentes approches.

Par rapport aux méthodes d'analyse des sentiments basées sur les lexiques de sentiment et l'apprentissage automatique traditionnel, l'approche utilisant des réseaux de neurones présente des avantages importants dans l'apprentissage des fonctionnalités de texte, qui peut apprendre activement les fonctionnalités et conserver activement des informations sur les mots dans le texte pour mieux extraire les informations sémantiques des informations correspondantesmots pour réaliser efficacement la classification des sentiments du texte.

Comme le concept d'apprentissage en profondeur a été proposé, de nombreux chercheurs l'ont continuellement exploré et ont obtenu beaucoup de résultats, de sorte que les méthodes de classification du sentiment de texte basées sur l'apprentissage en profondeur se développent.

3. Analyse des sentiments avec l'introduction du mécanisme d'attention:

Sur la base des réseaux de neurones, en 2006, Hinton et al.Pionnier du concept d'apprentissage en profondeur pour améliorer les performances de l'apprentissage en apprenant les informations clés dans les données via des modèles de réseau profonds pour refléter les caractéristiques des données.

Les méthodes basées sur l'apprentissage en profondeur utilisent des vecteurs continus et de faible dimension pour représenter des documents et des mots, et peuvent donc résoudre efficacement le problème des données clairsemées.De plus, les méthodes basées sur l'apprentissage en profondeur sont des méthodes de bout en bout qui extraient automatiquement les fonctionnalités du texte et réduisent la complexité des caractéristiques de construction de texte.

Les méthodes d'apprentissage en profondeur ont fait des progrès significatifs dans le domaine du traitement du langage naturel, tels que la traduction automatique, la classification du texte et la reconnaissance des entités, en plus de résultats remarquables dans les domaines de la parole et de l'image.La recherche sur les méthodes d'analyse du sentiment de texte appartient à une petite branche de la classification du texte.

En ajoutant un mécanisme d'attention aux méthodes d'apprentissage en profondeur pour les tâches d'analyse des sentiments, il peut mieux capturer des informations contextuellement pertinentes, extraire des informations sémantiques et empêcher la perte d'informations importantes, ce qui peut améliorer efficacement la précision de la classification des sentiments du texte.

L'étape actuelle de la recherche concerne davantage le réglage et l'amélioration du modèle de pré-formation afin d'améliorer les expériences plus efficacement.

4. Analyse des sentiments à l'aide de modèles pré-formés:

Un modèle pré-formé est un modèle formé avec un ensemble de données.En réglant le modèle pré-formé, de meilleurs résultats de classification des sentiments peuvent être obtenus, de sorte que la plupart des dernières méthodes utilisent des modèles pré-formés, et les derniers modèles pré-formés sont: Elmo, Bert, XL-Net, Albert, etc..

En utilisant pleinement le corpus monolingue à grande échelle par rapport aux méthodes traditionnelles, la méthode de pré-formation utilisant des modèles de langage peut modéliser plusieurs significations d'un mot, et le processus de pré-formation à l'aide de modèles de langage peut être considéré comme une phrase-Niveau Représentation des mots contextuels.

En pré-formation d'un corpus à grande échelle à l'aide d'un modèle unifié ou en ajoutant des caractéristiques à certains modèles simples, de bons résultats ont été obtenus dans de nombreuses tâches PNL, ce qui indique que cette approche est significativement efficace pour soulager le problème de la dépendance à la structure du modèle.

Il y aura plus de recherches sur les tâches de traitement du langage naturel à l'avenir, en particulier sur l'exploitation des sentiments du texte.La plupart des dernières approches de l'analyse des sentiments sont basées sur le réglage fin des modèles pré-formés et ont obtenu de bons résultats.

Par conséquent, on peut prédire que les méthodes d'analyse future des sentiments se concentreront davantage sur la recherche de méthodes basées sur l'apprentissage en profondeur et la réalisation de résultats d'analyse des sentiments en amenant les modèles pré-formation.



Conclusion

Grâce à l'introduction des articles précédents, nous pouvons prédire que l'utilisation de l'apprentissage en profondeur pour l'analyse des sentiments est une future tendance de recherche dans le domaine du traitement du langage naturel, où l'échelle des données de texte se développe.D'après la tendance de développement des différentes méthodes, les recherches futures sur l'analyse du sentiment de texte doivent se concentrer sur les aspects suivants:

1. En comparant différentes méthodes de recherche, nous pouvons constater que les méthodes de recherche existantes pour l'analyse des sentiments sont principalement basées sur un seul domaine, comme les médias sociaux Twitter, les critiques d'hôtel, etc. dans une recommandation personnalisée, comment combiner le contenu de plusieursLes domaines, effectuer la classification des sentiments, obtenir un meilleur effet de recommandation et réaliser dans l'amélioration des performances de généralisation du modèle sont tous dignes de la recherche et de l'exploration futures.

2. La plupart des recherches sur l'analyse des sentiments sont principalement utilisées pour des problèmes explicites de classification des sentiments de texte, en utilisant des ensembles de données contenant des mots de sentiment évidents, tandis que la détection et la classification de certains mots implicites ne sont pas efficaces.À ce stade, la recherche sur l'analyse des sentiments implicites est toujours au stade initial et pas très adéquate.À l'avenir, une meilleure classification des sentiments peut être réalisée en créant un lexique de sentiment implicite ou en utilisant de meilleures méthodes d'apprentissage en profondeur pour extraire les informations liées sémantiques de manière plus approfondie.

3. La recherche sur l'analyse des sentiments des énoncés complexes doit être encore améliorée.Lorsque des phrases en ligne avec tendance du sentiment apparaissent de plus en plus fréquemment, en particulier lorsque le texte contient des mots ironiques ou métaphoriques, la détection de la polarité du sentiment sera difficile, ce qui nécessite également des recherches supplémentaires.

4. L'analyse des sentiments multimodaux est également un hotspot de recherche récent.Comment extraire et fusionner les informations sur le sentiment dans plusieurs modalités est la principale orientation de recherche.Lorsque les expressions de sentiment dans plusieurs modalités sont incohérentes, comment pondérer les informations sur le sentiment dans différentes modalités doivent également être prises en compte;Et si des informations sémantiques externes peuvent être prises en compte et si elles sont utiles à l'exactitude de l'analyse des sentiments, doit également avoir beaucoup de recherches.

5. Dans la sous-tâche de l'analyse des sentiments, on peut également constater que la plupart des recherches sont basées sur une analyse des sentiments binaires simple, et la réalisation de la multi-catégorisation et une analyse des sentiments plus fin est également un sujet brûlant pour les recherches futures.

6. Le modèle de pré-formation est un sujet de recherche brûlant à ce stade.Il peut résoudre efficacement les problèmes des méthodes traditionnelles, telles que la limitation de ne pas être capable de paralléliser le calcul, et peut également capturer efficacement l'interrelation entre les mots et obtenir de meilleurs résultats dans les tâches en aval par un réglage fin.Cependant, il souffre également du problème du grand nombre de paramètres du modèle et du long temps de formation.Comment obtenir de bons résultats de classification avec un petit nombre de paramètres du modèle et raccourcir efficacement le temps de formation serait également une direction qui mérite d'être étudiée.



Méthodes d'analyse des sentiments modernes