Academia OSINT

Introducción a la tecnología de análisis de sentimientos de Twitter

El análisis de sentimientos es un problema desafiante en el procesamiento del lenguaje natural (PNL), el análisis de texto y la lingüística computacional.En un sentido general, el análisis de sentimientos se centra en analizar las opiniones de los usuarios sobre varios objetos o problemas.Inicialmente se analizó utilizando textos largos (por ejemplo, cartas, correos electrónicos, etc.).Con el desarrollo de Internet, los usuarios usan gradualmente las redes sociales para varias interacciones (compartir, comentar, recomendar, hacer amigos, etc.), generando así una gran cantidad de datos que contienen una gran cantidad de información y refleja los patrones de comportamiento intrínsecos deusuarios.La gran cantidad de datos requiere el uso de técnicas automatizadas para la minería y el análisis.

La mayoría de los estudios de análisis de sentimientos utilizan métodos de aprendizaje automático.En el campo del análisis de sentimientos, los textos se pueden clasificar en clases positivas o negativas, o categorías múltiples, es decir, positiva, negativa y neutral (o irrelevante).Las técnicas de análisis de sentimientos para el contenido de Twitter se pueden clasificar como: análisis léxico, análisis basado en el aprendizaje automático y análisis híbrido.

1. Análisis léxico:

Esta técnica utiliza principalmente un diccionario que consiste en palabras pregestionadas.El texto de entrada se convierte en palabras individuales por un analizador léxico.Cada nueva palabra coincide con las palabras en el diccionario.Si hay una coincidencia positiva, el puntaje se agrega al conjunto total de puntajes para el texto de entrada.Por ejemplo, si "dramático" es una coincidencia positiva en el diccionario, entonces la puntuación total para el texto se incrementa.Por el contrario, si hay una coincidencia negativa, la puntuación total del texto de entrada disminuye.Aunque esta técnica se siente algo aficionado en la naturaleza, ha demostrado ser valioso.La forma en que funciona la técnica de análisis léxico se ilustra a continuación.

twitter sentiment analysis lexical analysis

La clasificación de un texto depende de la puntuación total del texto.Hay un gran trabajo dedicado a medir la validez de la información léxica.Para frases individuales, se puede lograr una precisión de aproximadamente el 80% marcando las palabras manualmente (que contienen solo adjetivos), que está determinado por la naturaleza subjetiva del texto evaluado.Además del método manual de marcar palabras, hay investigadores que usan motores de búsqueda en Internet para marcar la polaridad de las palabras.Usaron dos motores de búsqueda de Altavista para sus consultas: palabra objetivo + "buena" y palabras objetivo + "mala", y el puntaje final se basó en el número de resultados de búsqueda, y la tasa de precisión aumentó del 62% al 65%.Más tarde, otros investigadores utilizaron la base de datos de WordNet, calcularon la distancia de ruta mínima entre la palabra de destino y "bueno" y "malo" en la pirámide de WordNet, y convirtieron el MPD para calificar el valor.El MPD se convierte en valores fraccionales y se almacena en el diccionario léxico.La tasa de precisión de este método puede alcanzar el 64%.Otros investigadores evaluaron la brecha semántica simplemente eliminando palabras positivas del conjunto de palabras negativas y obtuvieron una precisión del 82%.El análisis léxico también tiene una deficiencia: su precisión disminuye rápidamente a medida que aumenta el número de palabras de diccionario.

2. Análisis basado en el aprendizaje automático:

Las técnicas de aprendizaje automático han recibido una atención creciente debido a su alta adaptabilidad y precisión.En el análisis de sentimientos, los métodos de aprendizaje supervisados se utilizan principalmente.Se puede dividir en tres fases: recopilación de datos, preprocesamiento y capacitación para la clasificación.

En el proceso de capacitación, se requiere que se proporcione un corpus de marcadores como datos de capacitación.El clasificador utiliza una serie de vectores de características para clasificar los datos de destino.En las técnicas de aprendizaje automático, la clave para determinar la precisión de un clasificador es la selección de características apropiada.Por lo general, unigram (una sola frase), BigRams (dos frases consecutivas) y trigramas (tres frases consecutivas) pueden seleccionarse como vectores de características.Por supuesto, hay otras características, como el número de palabras positivas, el número de palabras negativas, la longitud del documento, la máquina de vectores de soporte (SVM) y Naive Bayes (NB).Dependiendo de la combinación de las diversas características elegidas, la precisión puede alcanzar del 63% al 80%.La siguiente figura muestra los pasos principales involucrados en el análisis basado en el aprendizaje automático.

twitter sentiment analysis machine learning

Al mismo tiempo, las técnicas de aprendizaje automático enfrentan muchos desafíos: el diseño del clasificador, la adquisición de datos para la capacitación y la interpretación correcta de algunas frases invisibles.En comparación con los métodos de análisis léxico, todavía funciona bien cuando el número de palabras de diccionario está creciendo exponencialmente.

3. Análisis híbrido:

Los avances en el estudio del análisis de sentimientos han atraído a una gran cantidad de investigadores para explorar la posibilidad de combinar los dos métodos, explotando tanto la alta precisión de los métodos de aprendizaje automático como las características rápidas de los métodos de análisis léxico.Algunos investigadores han utilizado palabras que consisten en dos palabras y un datos sin etiquetar para clasificar estas palabras que consisten en dos palabras en clases positivas y negativas.Algunos pseudo-documentos se generan utilizando todas las palabras en el conjunto de palabras seleccionadas.Luego se calcula la similitud cosena entre el pseudo-documento y el documento sin etiquetar.Según la medida de similitud, el documento se clasifica como sentimiento positivo o negativo.Estos conjuntos de datos de capacitación se alimentan a un clasificador ingenuo de Bayes para el entrenamiento.

Algunos investigadores han propuesto un marco unificado utilizando información léxica de fondo como asociaciones de clase de palabras y diseñaron un bayes ingenuo polinomial que incorpora datos etiquetados manualmente en la capacitación.Afirman que el rendimiento se mejora después de explotar el conocimiento léxico.



Análisis del comportamiento de los adultos estadounidenses en Twitter
¿Sabes cómo encontrar la primera cuenta en Twitter para publicar el hashtag de inteligencia artificial?
¿Cómo analizar las palabras clave en Twitter?
¿Cómo analizar las cuentas y perfiles de los usuarios de Twitter?
¿Cómo encontrar tweets publicados desde una ubicación específica?
¿Cómo hacer mejores investigaciones de inteligencia de código abierto en Twitter?
¿Cómo extraer imágenes de Twitter?
¿Cómo hacer análisis de sentimientos de Twitter sin codificar?