OSINT Academy

Introdução à tecnologia de análise de sentimentos do Twitter

A análise de sentimentos é um problema desafiador no processamento de linguagem natural (PNL), análise de texto e lingüística computacional.Em um sentido geral, a análise de sentimentos se concentra na análise das opiniões dos usuários sobre vários objetos ou problemas.Foi analisado inicialmente usando textos longos (por exemplo, cartas, e -mails etc.).Com o desenvolvimento da Internet, os usuários usam gradualmente as mídias sociais para várias interações (compartilhando, comentando, recomendar, fazer amigos etc.), gerando uma grande quantidade de dados que contêm uma grande quantidade de informações e reflete os padrões comportamentais intrínsecos deUsuários.A enorme quantidade de dados requer o uso de técnicas automatizadas para mineração e análise.

A maioria dos estudos de análise de sentimentos usa métodos de aprendizado de máquina.No campo da análise de sentimentos, os textos podem ser classificados em classes positivas ou negativas, ou categorias múltiplas, isto é, positivas, negativas e neutras (ou irrelevantes).As técnicas de análise de sentimentos para o conteúdo do Twitter podem ser classificadas como: análise lexical, análise baseada em aprendizado de máquina e análise híbrida.

1. Análise lexical:

Essa técnica usa principalmente um dicionário que consiste em palavras pré-marcadas.O texto de entrada é convertido em palavras individuais por um analisador lexical.Cada nova palavra é comparada com as palavras no dicionário.Se houver uma correspondência positiva, a pontuação será adicionada ao pool total de pontuações para o texto de entrada.Por exemplo, se "dramático" for uma correspondência positiva no dicionário, a pontuação total do texto será incrementada.Por outro lado, se houver uma correspondência negativa, a pontuação total do texto de entrada diminui.Embora essa técnica pareça de natureza um tanto amadora, provou ser valiosa.A maneira como a técnica de análise lexical trabalha é ilustrada abaixo.

twitter sentiment analysis lexical analysis

A classificação de um texto depende da pontuação total do texto.Há um grande corpo de trabalho dedicado à medição da validade das informações lexicais.Para frases individuais, uma precisão de aproximadamente 80% pode ser alcançada pela marcação manualmente de palavras (contendo apenas adjetivos), o que é determinado pela natureza subjetiva do texto avaliado.Além do método manual de marcar palavras, há pesquisadores que usam mecanismos de pesquisa na Internet para marcar a polaridade das palavras.Eles usaram dois mecanismos de pesquisa do Altavista para suas consultas: Word Word + "Good" e Target Word + "Bad", e a pontuação final foi baseada no número de resultados de pesquisa, e a taxa de precisão aumentou de 62% para 65%.Posteriormente, outros pesquisadores usaram o banco de dados WordNet, calcularam a distância mínima do caminho entre a palavra de destino e "bom" e "ruim" na pirâmide WordNet e converteram o MPD para obter valor.O MPD é convertido em valores fracionários e armazenado no dicionário lexical.A taxa de precisão desse método pode atingir 64%.Outros pesquisadores avaliaram a lacuna semântica simplesmente removendo palavras positivas do conjunto de palavras negativas e obteve uma precisão de 82%.A análise lexical também tem uma falha: sua precisão diminui rapidamente à medida que o número de palavras do dicionário aumenta.

2. Análise baseada em aprendizado de máquina:

As técnicas de aprendizado de máquina receberam atenção crescente devido à sua alta adaptabilidade e precisão.Na análise de sentimentos, os métodos de aprendizado supervisionado são usados principalmente.Pode ser dividido em três fases: coleta de dados, pré -processamento e treinamento para classificação.

No processo de treinamento, é necessário que um corpus de marcadores seja fornecido como dados de treinamento.O classificador usa uma série de vetores de recursos para classificar os dados de destino.Nas técnicas de aprendizado de máquina, a chave para determinar a precisão de um classificador é a seleção de recursos apropriada.Normalmente, Unigram (uma única frase), bigrams (duas frases consecutivas) e trigramas (três frases consecutivas) podem ser selecionadas como vetores de características.É claro que existem outros recursos, como número de palavras positivas, número de palavras negativas, comprimento do documento, máquina de vetor de suporte (SVM) e Bayes ingênuo (NB).Dependendo da combinação dos vários recursos escolhidos, a precisão pode atingir de 63% a 80%.A figura abaixo mostra as principais etapas envolvidas na análise baseada em aprendizado de máquina.

twitter sentiment analysis machine learning

Ao mesmo tempo, as técnicas de aprendizado de máquina enfrentam muitos desafios: o design do classificador, a aquisição de dados para treinamento e a interpretação correta de algumas frases invisíveis.Comparado aos métodos de análise lexical, ele ainda funciona bem quando o número de palavras do dicionário está crescendo exponencialmente.

3. Análise híbrida:

Os avanços no estudo da análise de sentimentos atraíram um grande número de pesquisadores para explorar a possibilidade de combinar os dois métodos, explorando a alta precisão dos métodos de aprendizado de máquina e as características rápidas dos métodos de análise lexical.Alguns pesquisadores usaram palavras que consistem em duas palavras e dados não marcados para classificar essas palavras que consistem em duas palavras em classes positivas e negativas.Alguns pseudo-documentos são gerados usando todas as palavras no conjunto selecionado de palavras.Em seguida, a similaridade de cosseno entre o pseudo-documento e o documento não marcada é calculada.Com base na medida de similaridade, o documento é classificado como sentimento positivo ou negativo.Esses conjuntos de dados de treinamento são então alimentados em um classificador ingênuo de Bayes para treinamento.

Alguns pesquisadores propuseram uma estrutura unificada usando informações lexicais de fundo como associações de classe de palavras e projetaram um Bayes ingênuo polinomial que incorpora dados rotulados manualmente no treinamento.Eles afirmam que o desempenho é aprimorado após a exploração do conhecimento lexical.



Análise do comportamento dos adultos dos EUA no Twitter
Você sabe como encontrar a primeira conta no Twitter para publicar a hashtag de inteligência artificial?
Como analisar palavras -chave no Twitter?
Como analisar as contas e perfis dos usuários do Twitter?
Como encontrar tweets postados em um local específico?
Como fazer melhores investigações de inteligência de código aberto no Twitter?
Como extrair imagens do Twitter?
Como fazer a análise de sentimentos do Twitter sem codificação?