Academia OSINT

Métodos de análisis de sentimientos de texto

Introduction to text sentiment analysis

Introducir un texto, y luego el sistema electrónico le alimenta automáticamente qué tipo de orientación de sentimiento tiene el texto, ya sea positivo o negativo, este es un análisis de sentimientos de texto, también conocido como minería de opinión.Se refiere al proceso de recopilación, procesamiento, análisis, resumen y razonamiento sobre el texto subjetivo con emoción, que implica varios campos de investigación como inteligencia artificial, aprendizaje automático, minería de datos y procesamiento del lenguaje natural.

El análisis de sentimientos de texto es una rama importante en el campo del procesamiento del lenguaje natural, que se usa ampliamente en el análisis de opinión pública y la recomendación de contenido, etc. Es un tema de investigación en los últimos años.De acuerdo con los diferentes métodos utilizados, se clasifican en métodos de análisis de sentimientos basados en léxicos de sentimiento, métodos de análisis de sentimientos basados en el aprendizaje automático tradicional y los métodos de análisis de sentimientos basados en el aprendizaje profundo.

1. Introducción de métodos de análisis de sentimientos basados en léxico

El método basado en los léxicos del sentimiento se refiere a la división de la polaridad del sentimiento bajo una granularidad diferente basada en la polaridad del sentimiento de las palabras del sentimiento proporcionadas por diferentes léxicos de sentimiento.

sentiment analysis

En primer lugar, el texto se ingresa y se procesa previamente a través de los datos (incluida la renovación, la eliminación de caracteres no válidos, etc.), seguido de una operación de separación de palabras, luego las palabras de diferentes tipos y grados del sentimiento léxicos se colocan en el modelo para capacitar, y finalmente los tipos de sentimientos se emiten de acuerdo con las reglas de juicio del sentimiento.

La mayoría de los léxicos de sentimiento existentes se construyen manualmente, y de acuerdo con la diferente granularidad de la división, las tareas de análisis de sentimientos existentes se pueden clasificar en palabras, frase, atributo, oración, capítulo y otros niveles.

La construcción manual de los léxicos de sentimiento es costosa y requiere leer una gran cantidad de materiales relevantes y léxicos existentes, resumiendo palabras que contienen tendencias de sentimiento al resumirlos y etiquetarlos con diferentes niveles de polaridad e intensidad del sentimiento.

Ventajas y desventajas:

El enfoque basado en el léxico del sentimiento puede reflejar con precisión las características no estructuradas del texto y es fácil de analizar y comprender.En este método, el efecto de clasificación de sentimientos es más preciso cuando la cobertura y la precisión de las palabras de sentimiento son altas.

Sin embargo, este método todavía tiene algunos defectos.

El método de clasificación de sentimientos basado en los léxicos de sentimiento depende principalmente de la construcción de léxicos de sentimiento, pero debido al rápido desarrollo de la red en esta etapa y la velocidad de la actualización de la información, hay muchas palabras nuevas en la red y el reconocimiento de estosLas nuevas palabras no funcionan bien, y los léxicos de sentimiento existentes deben ampliarse continuamente para satisfacer las necesidades.

La misma palabra de sentimiento en los léxicos de sentimiento puede expresar diferentes significados en diferentes momentos, en diferentes idiomas o en diferentes dominios, por lo que el método basado en los léxicos del sentimiento no es muy efectivo en dominio cruzado y en el lenguaje cruzado.

Al usar léxicos de sentimiento para la clasificación de sentimientos, las relaciones semánticas entre contextos a menudo no se consideran.

Por lo tanto, se necesitan más académicos para realizar una investigación suficiente sobre los métodos basados en el léxico de los sentimientos.

2. Introducción de los métodos tradicionales de análisis de sentimientos basados en el aprendizaje automático

El aprendizaje automático es un método de aprendizaje que entrena un modelo a partir de datos dados y predice los resultados del modelo.Este método se ha estudiado hasta ahora y ha logrado muchos resultados efectivos.

El método de análisis de sentimientos basado en el aprendizaje automático se refiere a la extracción de características a través de una gran cantidad de corpus etiquetado o no etiquetado, utilizando algoritmos estadísticos de aprendizaje automático, y finalmente generar resultados en el análisis de sentimientos.

sentiment analysis

Los métodos de clasificación de sentimientos basados en el aprendizaje automático se dividen en tres categorías principales:Métodos supervisados, semi-supervisados y no supervisados.

En los métodos supervisados, se pueden clasificar diferentes categorías de sentimientos dando un conjunto de muestras con polaridad emocional.Los métodos supervisados dependen más de muestras de datos y pasan más tiempo en el etiquetado manual y el procesamiento de muestras de datos.Los métodos supervisados comunes son KNN, Naive Bayes y SVM.

En los métodos semi-supervisados, los resultados de la clasificación de sentimientos de texto pueden mejorarse de manera efectiva mediante la extracción de características del texto no etiquetado, y este método puede resolver efectivamente el problema de los conjuntos de datos dispersos con el etiquetado.

En los métodos no supervisados, el texto no etiquetado se clasifica en función de la similitud entre los textos, y este método se usa menos en el análisis de sentimientos.

Ventajas y desventajas:

Los métodos tradicionales de clasificación de sentimientos basados en el aprendizaje automático se centran principalmente en la extracción de las características de los sentimientos y la combinación de clasificadores, y la combinación de diferentes clasificadores tiene un cierto impacto en los resultados del análisis de sentimientos.Estos métodos a menudo no pueden hacer uso completo de la información contextual del texto y tienen el problema de ignorar la semántica contextual al analizar el contenido del texto, por lo que su precisión de clasificación se ve afectada.

3. Introducción de métodos de análisis de sentimientos basados en el aprendizaje profundo

Los métodos de análisis de sentimientos basados en el aprendizaje profundo se realizan utilizando redes neuronales, y los métodos típicos de aprendizaje de redes neuronales son: red neuronal convolucional (CNN), red neuronal recurrente (RNN), memoria a largo plazo (LSTM), etc.

Al subdividir los métodos de análisis de sentimientos basados en el aprendizaje profundo, se pueden dividir en: métodos de análisis de sentimientos de red neuronal individual, métodos de análisis de sentimientos de redes neuronales híbridos (combinados, fusiones), análisis de sentimientos mediante la introducción de mecanismo de atención y análisis de sentimientos utilizando modelos previamente capacitados.

1. Análisis de sentimientos de red neuronal individual:

En 2003, Bengio et al.propuso un modelo de lenguaje de red neuronal, que utiliza una red neuronal de feedsward de tres capas para modelar el lenguaje.La red neuronal consiste principalmente en una capa de entrada, una capa oculta y una capa de salida.

Cada neurona en la capa de entrada de la red representa un rasgo, el número de capas ocultas y las neuronas de capa oculta se establecen manualmente, y la capa de salida representa el número de etiquetas categóricas, se muestra una red neural básica de tres capas a continuación.

neural network



La esencia del modelo de lenguaje es predecir el contenido de la siguiente palabra basada en la información contextual sin depender del corpus etiquetado manualmente, desde el cual se puede encontrar que la ventaja del modelo de idioma es la capacidad de aprender un conocimiento rico delCorpus a gran escala.

Este enfoque puede resolver efectivamente el problema de ignorar la semántica contextual en los métodos basados en análisis de sentimientos tradicionales.

2. Análisis de sentimientos por redes neuronales híbridas (combinadas, fusionadas):

Además de la investigación sobre enfoques de redes neuronales individuales, varios académicos han combinado y mejorado estos enfoques y los han utilizado en el análisis de sentimientos después de considerar las ventajas de diferentes enfoques.

En comparación con los métodos de análisis de sentimientos basados en léxicos de sentimiento y el aprendizaje automático tradicional, el enfoque que usa redes neuronales tiene ventajas significativas en el aprendizaje de características de texto, que pueden aprender activamente características y retener activamente información sobre las palabras en el texto para extraer mejor la información semántica de la correspondientepalabras para lograr efectivamente la clasificación de sentimientos del texto.

Como se propuso el concepto de aprendizaje profundo, muchos investigadores lo han explorado continuamente y obtuvieron muchos resultados, por lo que los métodos de clasificación de sentimientos de texto basados en el aprendizaje profundo se están expandiendo.

3. Análisis de sentimientos con la introducción del mecanismo de atención:

Basado en redes neuronales, en 2006, Hinton et al.Pionero fue pionero en el concepto de aprendizaje profundo para mejorar el rendimiento del aprendizaje mediante el aprendizaje de la información clave en los datos a través de modelos de red profundas para reflejar las características de los datos.

Los métodos basados en el aprendizaje profundo utilizan vectores continuos y de baja dimensión para representar documentos y palabras, y por lo tanto pueden resolver efectivamente el problema de los datos dispersos.Además, los métodos basados en el aprendizaje profundo son métodos de extremo a extremo que extraen automáticamente las características de texto y reducen la complejidad de las características de construcción de texto.

Los métodos de aprendizaje profundo han hecho un progreso significativo en el campo del procesamiento del lenguaje natural, como la traducción automática, la clasificación de texto y el reconocimiento de la entidad, además de resultados notables en los campos del habla y la imagen.La investigación sobre los métodos de análisis de sentimientos de texto pertenece a una pequeña rama de la clasificación de texto.

Al agregar un mecanismo de atención a los métodos de aprendizaje profundo para las tareas de análisis de sentimientos, puede capturar mejor información contextualmente relevante, extraer información semántica y evitar la pérdida de información importante, lo que puede mejorar efectivamente la precisión de la clasificación de sentimientos de texto.

La etapa actual de la investigación se trata más de ajustar y mejorar el modelo de pre-entrenamiento para mejorar los experimentos de manera más efectiva.

4. Análisis de sentimientos utilizando modelos previamente capacitados:

Un modelo previamente capacitado es un modelo que ha sido entrenado con un conjunto de datos.Al ajustar el modelo previamente capacitado, se pueden lograr mejores resultados de clasificación de sentimientos, por lo que la mayoría de los últimos métodos utilizan modelos previamente capacitados, y los últimos modelos previamente capacitados son: Elmo, Bert, XL-Net, Albert, etc..

Al hacer un uso completo del corpus monolingüe a gran escala en comparación con los métodos tradicionales, el método de pre-entrenamiento utilizando modelos de lenguaje puede modelar múltiples significados de una palabra, y el proceso de pre-entrenamiento utilizando modelos de lenguaje puede considerarse como una oración.Representación de palabras contextuales de nivel.

Al prevenir previamente un corpus a gran escala utilizando un modelo unificado o agregar características a algunos modelos simples, se han logrado buenos resultados en muchas tareas de PNL, lo que indica que este enfoque es significativamente efectivo para aliviar el problema de la dependencia de la estructura del modelo.

Habrá más investigación sobre tareas de procesamiento del lenguaje natural en el futuro, especialmente sobre la minería de texto de los sentimientos.La mayoría de los últimos enfoques para el análisis de sentimientos se basan en el ajuste de los modelos previamente capacitados y han logrado buenos resultados.

Por lo tanto, se puede predecir que los métodos de análisis de sentimientos futuros se centrarán más en investigar métodos basados en el aprendizaje profundo y lograr mejores resultados de análisis de sentimientos mediante el ajuste de los modelos previos a la capacitación.



Conclusión

A través de la introducción de los artículos anteriores, podemos predecir que el uso del aprendizaje profundo para el análisis de sentimientos es una tendencia de investigación futura en el campo del procesamiento del lenguaje natural, donde la escala de los datos de texto se está expandiendo.De la tendencia de desarrollo de diferentes métodos, la investigación futura sobre el análisis de sentimientos de texto debe centrarse en los siguientes aspectos:

1. Al comparar diferentes métodos de investigación, podemos encontrar que los métodos de investigación existentes para el análisis de sentimientos se basan principalmente en un dominio único, como las redes sociales de Twitter, las revisiones de hoteles, etc. en recomendación personalizada, cómo combinar el contenido de múltiplesLos dominios, la clasificación de sentimientos realizan un mejor efecto de recomendación y logro para mejorar el rendimiento de la generalización del modelo son todos dignos de investigación y exploración futuras.

2. La mayoría de la investigación sobre el análisis de sentimientos se usa principalmente para problemas de clasificación de sentimientos de texto explícitos, utilizando conjuntos de datos que contienen palabras de sentimiento obvias, mientras que la detección y clasificación de ciertas palabras implícitas no es efectiva.En esta etapa, la investigación sobre el análisis de sentimientos implícitos todavía está en la etapa inicial y no es muy adecuada.En el futuro, se puede lograr una mejor clasificación de sentimientos mediante la construcción de un léxico de sentimiento implícito o utilizando mejores métodos de aprendizaje profundo para extraer información relacionada con semántica de una manera más profunda.

3. La investigación sobre el análisis de sentimientos de expresiones complejas debe mejorarse aún más.Cuando las frases en línea con tendencia a los sentimientos aparecen cada vez más frecuentemente, especialmente cuando el texto contiene palabras irónicas o metafóricas, la detección de la polaridad del sentimiento será difícil, lo que también necesita más investigación.

4. El análisis de sentimientos multimodales también es un punto de acceso de investigación reciente.Cómo extraer y fusionar la información del sentimiento en múltiples modalidades es la principal dirección de investigación.Cuando las expresiones de sentimiento en múltiples modalidades son inconsistentes, también debe considerarse la información del sentimiento en diferentes modalidades;Y si se puede considerar información semántica externa y si es útil para la precisión del análisis de sentimientos, también debe tener mucha investigación.

5. En la subtarea del análisis de sentimientos, también se puede encontrar que la mayor parte de la investigación se basa en un análisis de sentimientos binarios simples, y lograr una categorización multi-categorización y un análisis de sentimientos más de grano fino también es un tema candente para futuras investigaciones.

6. El modelo de pre-entrenamiento es un tema de investigación en esta etapa.Puede resolver efectivamente los problemas de los métodos tradicionales, como la limitación de no poder paralelizar el cálculo, y también puede capturar efectivamente la interrelación entre las palabras y lograr mejores resultados en las tareas aguas abajo mediante el ajuste fino.Sin embargo, también sufre el problema de una gran cantidad de parámetros del modelo y un largo tiempo de entrenamiento.Cómo lograr buenos resultados de clasificación con un pequeño número de parámetros del modelo y acortar efectivamente el tiempo de entrenamiento también sería una dirección que valga la pena estudiar.



Métodos de análisis de sentimientos modernos