OSINT Academy

Métodos de análise de sentimentos modernos

A análise de sentimentos (SA) é uma aplicação comum dos métodos de processamento de linguagem natural (PNL), especialmente a classificação com o objetivo de refinar o conteúdo emocional do texto.Usando métodos como análise de sentimentos, os dados qualitativos podem ser analisados quantitativamente por meio de escores de sentimentos.Embora o sentimento esteja repleto de subjetividade, a análise quantitativa de sentimentos já possui muitas funções úteis, por exemplo, para as empresas entenderem como os usuários reagem a produtos ou discernem o discurso de ódio em críticas on -line.

A forma mais simples de análise de sentimentos é usar um dicionário contendo palavras positivas e negativas.Cada palavra recebe uma pontuação de sentimento, geralmente +1 para sentimento positivo e -1 por negativo.Em seguida, simplesmente somamos as pontuações de sentimentos de todas as palavras na frase para calcular a pontuação total final.Obviamente, essa abordagem tem muitas falhas, a mais importante das quais é que ela ignora o contexto e as palavras vizinhas.Por exemplo, uma frase simples "não boa" tem uma pontuação final de sentimento de 0, porque "não" é -1 e "bom" é +1.Uma pessoa normal classificaria essa frase como uma emoção negativa, apesar da presença de "bom".

Outra prática comum é modelar um "saco de palavras" em termos de texto.Consideramos cada texto como um vetor de 1 a n, onde n é o tamanho de todo vocabulário.Cada coluna é uma palavra e o valor correspondente é o número de ocorrências da palavra.Por exemplo, a frase "saco de palavras" pode ser codificada como [2, 2, 1].Esse valor pode ser usado como entrada para algoritmos de aprendizado de máquina, como regressão logística e máquinas vetoriais de suporte (SVM) para executar a classificação.Isso permite a previsão de sentimentos sobre dados desconhecidos (invisíveis).Observe que isso requer dados com sentimento conhecido para serem treinados pela moda supervisionada.

Embora seja uma melhoria significativa em relação à abordagem anterior, ela ainda ignora o contexto e o tamanho dos dados aumenta com o tamanho do vocabulário.

Word2vec e Doc2vec

Nos últimos anos, o Google desenvolveu um novo método chamado Word2vec para capturar o contexto das palavras, reduzindo o tamanho dos dados.Word2vec realmente tem duas abordagens diferentes: CBOW (saco contínuo de palavras) e pular grama.

Para CBOW, o objetivo é prever palavras individuais, dadas seus vizinhos, enquanto o Skip-Gram é o oposto: queremos prever uma variedade de palavras dada uma única palavra (veja abaixo).Ambos os métodos usam redes neurais artificiais como seu algoritmo de classificação.Primeiro, cada palavra no vocabulário é um vetor n-dimensional aleatório.Durante o treinamento, o algoritmo usa CBOW ou Skip-Gram para aprender o vetor ideal para cada palavra.

sentiment analysis

Esses vetores de palavras agora podem levar em consideração o contexto contextual.Isso pode ser visto como relacionamentos de palavras de mineração usando equações algébricas básicas (por exemplo, "rei" - "homem" + "mulher" = "rainha").Esses vetores de palavras podem ser usados como entrada para um algoritmo de classificação para prever sentimentos, distintos da abordagem do modelo de saco de palavras.Isso tem a vantagem de que podemos relacionar as palavras com o contexto deles e que nosso espaço de recursos tem uma dimensionalidade muito baixa (normalmente cerca de 300, em relação a um vocabulário de cerca de 100.000 palavras).Depois que a rede neural extraiu esses recursos, também devemos criar um pequeno número de recursos manualmente.Devido ao comprimento variável do texto, o valor médio de toda a palavra vetor é usado como entrada no algoritmo de classificação para categorizar o documento inteiro.

Quoc Le e Tomas Mikolov propuseram a abordagem DOC2VEC para caracterizar o texto de comprimentos variados.Essa abordagem é basicamente a mesma que o Word2vec, exceto que o vetor de parágrafo / documento é adicionado ao original.Também existem duas abordagens: DM (memória distribuída) e DBOW (saco distribuído de palavras), que tenta prever palavras individuais, dadas as palavras e os vetores do parágrafo da parte anterior.

O DBOW usa o parágrafo para prever um conjunto aleatório de palavras em um parágrafo (veja abaixo).Uma vez treinado, o vetor de parágrafo pode ser usado como entrada para o classificador de sentimentos sem todas as palavras.

sentiment analysis

Métodos de análise de sentimentos de texto
Análise do papel de apoio do ChatGPT nas forças armadas