Métodos de análise de sentimentos de texto
Introduction to text sentiment analysis
Entrar um texto e, em seguida, o sistema eletrônico alimenta automaticamente que tipo de orientação para sentimentos o texto possui, seja positivo ou negativo, isso é análise de sentimentos de texto, também conhecida como mineração de opinião.Refere -se ao processo de coleta, processamento, análise, resumo e raciocínio sobre texto subjetivo com emoção, que envolve vários campos de pesquisa, como inteligência artificial, aprendizado de máquina, mineração de dados e processamento de linguagem natural.
A análise de sentimentos de texto é um ramo importante no campo do processamento de linguagem natural, que é amplamente utilizado na análise de opinião pública e recomendação de conteúdo, etc. É um tópico de pesquisa quente nos últimos anos.De acordo com os diferentes métodos utilizados, eles são classificados em métodos de análise de sentimentos com base em lexicons de sentimentos, métodos de análise de sentimentos baseados no aprendizado de máquina tradicional e nos métodos de análise de sentimentos baseados no aprendizado profundo.
1. Introdução de métodos de análise de sentimentos baseados em léxico
O método baseado em lexicons de sentimentos refere -se à divisão de polaridade de sentimentos sob diferentes granularidade, com base na polaridade do sentimento de palavras de sentimento fornecidas por diferentes léxicos de sentimentos.
Em primeiro lugar, o texto é de entrada e pré-processado através dos dados (incluindo denoising, removendo caracteres inválidos etc.), seguido de operação de separação de palavras, as palavras de diferentes tipos e graus dos lexicons de sentimentos são colocados no modelo para treinamentoe, finalmente, os tipos de sentimentos são produzidos de acordo com as regras de julgamento do sentimento.
A maioria dos léxicos de sentimentos existentes é construída manualmente e, de acordo com a granularidade diferente da divisão, as tarefas de análise de sentimentos existentes podem ser classificadas em palavras, frases, atributos, sentença, capítulo e outros níveis.
A construção manual de lexicons de sentimentos é cara e requer a leitura de uma grande quantidade de materiais relevantes e léxicos existentes, resumindo palavras contendo tendências de sentimentos resumindo -os e rotulando -os com diferentes níveis de polaridade e intensidade de sentimentos.
Vantagens e desvantagens:
A abordagem baseada no léxico do sentimento pode refletir com precisão os recursos não estruturados do texto e é fácil de analisar e entender.Neste método, o efeito de classificação do sentimento é mais preciso quando a cobertura e a precisão das palavras de sentimento são altas.
No entanto, esse método ainda tem alguns defeitos.
O método de classificação de sentimentos baseado em lexicons de sentimentos depende principalmente da construção de lexicons de sentimentos, mas devido ao rápido desenvolvimento da rede nesta fase e à velocidade da atualização da informação, há muitas novas palavras na rede e o reconhecimento destesNovas palavras não funcionam bem, e os léxicos de sentimentos existentes precisam ser continuamente expandidos para atender às necessidades.
A mesma palavra de sentimento nos lexicons de sentimentos pode expressar significados diferentes em momentos diferentes, em diferentes idiomas ou em diferentes domínios; portanto, o método baseado em lexicons de sentimentos não é muito eficaz em domínio cruzado e na língua cruzada.
Ao usar léxicos de sentimentos para classificação de sentimentos, as relações semânticas entre contextos geralmente não são consideradas.
Portanto, são necessários mais estudiosos para realizar pesquisas suficientes sobre métodos baseados em léxico de sentimentos.
2. Introdução dos métodos tradicionais de análise de sentimentos baseados em aprendizado de máquina
O aprendizado de máquina é um método de aprendizado que treina um modelo a partir de dados determinados e prevê os resultados pelo modelo.Esse método foi estudado até agora e alcançou muitos resultados eficazes.
O método de análise de sentimentos baseado em aprendizado de máquina refere -se à extração de recursos através de uma grande quantidade de corpus rotulado ou não marcado, usando algoritmos estatísticos de aprendizado de máquina e, finalmente, a saída resulta em análise de sentimentos.
Os métodos de classificação de sentimentos baseados em aprendizado de máquina são divididos em três categorias principais:Métodos supervisionados, semi-supervisionados e não supervisionados.
Nos métodos supervisionados, diferentes categorias de sentimentos podem ser classificadas, dando uma amostra com polaridade emocional.Os métodos supervisionados dependem mais de amostras de dados e gastam mais tempo com rotulagem manual e processamento de amostras de dados.Os métodos supervisionados comuns são KNN, ingênuos Bayes e SVM.
Em métodos semi-supervisionados, os resultados da classificação do sentimento de texto podem ser efetivamente aprimorados pela extração de recursos do texto não marcado, e esse método pode efetivamente resolver o problema dos conjuntos de dados esparsos com a rotulagem.
Em métodos não supervisionados, o texto não marcado é classificado com base na semelhança entre os textos, e esse método é menos utilizado na análise de sentimentos.
Vantagens e desvantagens:
Os métodos tradicionais de classificação de sentimentos baseados em aprendizado de máquina se concentram principalmente na extração de recursos de sentimentos e na combinação de classificadores, e a combinação de diferentes classificadores tem um certo impacto nos resultados da análise de sentimentos.Esses métodos geralmente não podem fazer pleno uso das informações contextuais do texto e têm o problema de ignorar a semântica contextual ao analisar o conteúdo do texto, para que sua precisão de classificação seja afetada.
3. Introdução de métodos de análise de sentimentos baseados em aprendizado profundo
Os métodos de análise de sentimentos baseados no aprendizado profundo são realizados usando redes neurais, e os métodos típicos de aprendizado de rede neural são: Rede Neural Convolucional (CNN), Rede Neural Recorrente (RNN), Memória de Longo Prazo (LSTM) e assim por diante.
Ao subdividir os métodos de análise de sentimentos baseados em aprendizado profundo, eles podem ser divididos em: métodos de análise de sentimentos de rede neural única, métodos de análise de sentimentos de rede neural híbrida (combinada, fusão), análise de sentimentos de sentimento, introduzindo mecanismo de atenção e análise de sentimentos usando modelos pré-treinados.
1. Análise de sentimento de rede neural única:
Em 2003, Bengio et al.propuseram um modelo de linguagem de rede neural, que utiliza uma rede neural feedforward de três camadas para modelar o idioma.A rede neural consiste principalmente em uma camada de entrada, uma camada oculta e uma camada de saída.
Cada neurônio na camada de entrada da rede representa uma característica, o número de camadas ocultas e neurônios da camada oculta são definidos manualmente, e a camada de saída representa o número de rótulos categóricos, uma rede neural básica de três camadas é mostrada abaixo.
A essência do modelo de idioma é prever o conteúdo da próxima palavra com base nas informações contextuais sem depender do corpus rotulado manualmente, do qual se pode descobrir que a vantagem do modelo de linguagem é a capacidade de aprender rico conhecimento com ocorpus em larga escala.
Essa abordagem pode efetivamente resolver o problema de ignorar a semântica contextual nos métodos tradicionais baseados em análise de sentimentos.
2. Análise de sentimentos por redes neurais híbridas (combinadas, fundidas):
Além da pesquisa sobre abordagens de redes neurais únicas, vários estudiosos combinaram e melhoraram essas abordagens e as usaram na análise de sentimentos depois de considerar as vantagens de diferentes abordagens.
Comparado aos métodos de análise de sentimentos baseados em lexicons de sentimentos e aprendizado de máquina tradicional, a abordagem usando redes neurais tem vantagens significativas no aprendizado de recursos de texto, que podem aprender ativamente recursos e reter ativamente informações sobre palavras no texto para extrair melhor as informações semânticas dos correspondentespalavras para alcançar efetivamente a classificação de sentimentos do texto.
Como o conceito de aprendizado profundo foi proposto, muitos pesquisadores o exploraram continuamente e obtiveram muitos resultados, de modo que os métodos de classificação de sentimentos de texto baseados em aprendizado profundo estão se expandindo.
3. Análise de sentimentos com a introdução do mecanismo de atenção:
Com base em redes neurais, em 2006, Hinton et al.Pioneiro o conceito de aprendizado profundo para melhorar o desempenho da aprendizagem, aprendendo informações importantes nos dados por meio de modelos de rede profundos para refletir as características dos dados.
Os métodos profundos baseados em aprendizado usam vetores contínuos e de baixa dimensão para representar documentos e palavras e, portanto, podem resolver efetivamente o problema de dados escassos.Além disso, métodos profundos baseados em aprendizado são métodos de ponta a ponta que extraem automaticamente os recursos de texto e reduzem a complexidade dos recursos de construção de texto.
Os métodos de aprendizado profundo fizeram progresso significativo no campo do processamento de linguagem natural, como tradução de máquinas, classificação de texto e reconhecimento de entidades, além de resultados notáveis nos campos da fala e da imagem.A pesquisa sobre métodos de análise de sentimentos de texto pertence a um pequeno ramo da classificação de texto.
Ao adicionar mecanismo de atenção a métodos de aprendizado profundo para tarefas de análise de sentimentos, ele pode capturar melhor informações contextualmente relevantes, extrair informações semânticas e impedir a perda de informações importantes, que podem melhorar efetivamente a precisão da classificação do sentimento de texto.
O estágio atual da pesquisa é mais sobre ajuste fino e melhorar o modelo de pré-treinamento, a fim de melhorar os experimentos com mais eficácia.
4. Análise de sentimentos usando modelos pré-treinados:
Um modelo pré-treinado é um modelo que foi treinado com um conjunto de dados.Ao ajustar o modelo pré-treinado, melhores resultados de classificação de sentimentos podem ser alcançados; portanto, a maioria dos métodos mais recentes usa modelos pré-treinados, e os mais recentes modelos pré-treinados são: Elmo, Bert, XL-Net, Albert, etc..
Ao fazer pleno uso do corpus monolíngue em larga escala em comparação com os métodos tradicionais, o método de pré-treinamento usando modelos de linguagem pode modelar múltiplos significados de uma palavra, e o processo de pré-treinamento usando modelos de linguagem pode ser considerado como uma frase-Representação de palavras contextuais de nível.
Ao pré-treinar um corpus em larga escala usando um modelo unificado ou adicionar recursos a alguns modelos simples, bons resultados foram alcançados em muitas tarefas de PNL, indicando que essa abordagem é significativamente eficaz na aliviação do problema de confiança na estrutura do modelo.
Haverá mais pesquisas sobre tarefas de processamento de linguagem natural no futuro, especialmente na mineração de sentimentos de texto.A maioria das abordagens mais recentes para a análise de sentimentos baseia-se no ajuste fino dos modelos pré-treinados e alcançou bons resultados.
Portanto, pode-se prever que os métodos futuros de análise de sentimentos se concentrarão mais na pesquisa de métodos profundos baseados em aprendizado e na obtenção de melhores resultados de análise de sentimentos, ajustando os modelos de pré-treinamento.
Conclusão
Através da introdução dos artigos anteriores, podemos prever que o uso do aprendizado profundo para análise de sentimentos é uma tendência futura de pesquisa no campo do processamento de linguagem natural, onde a escala dos dados de texto está se expandindo.A partir da tendência de desenvolvimento de diferentes métodos, pesquisas futuras sobre análise de sentimentos de texto precisam se concentrar nos seguintes aspectos:
1. Ao comparar diferentes métodos de pesquisa, podemos descobrir que os métodos de pesquisa existentes para análise de sentimentos são baseados principalmente em um único domínio, como Twitter de mídia social, análises de hotéis, etc. em recomendação personalizada, como combinar o conteúdo de múltiplosDomínios, realizam classificação de sentimentos, alcançam melhor efeito de recomendação e alcançam a melhoria do desempenho da generalização do modelo, todos dignos de pesquisas e exploração futuras.
2. A maioria das pesquisas sobre análise de sentimentos é usada principalmente para problemas explícitos de classificação de sentimentos de texto, usando conjuntos de dados contendo palavras óbvias de sentimentos, enquanto a detecção e classificação de certas palavras implícitas não são eficazes.Nesse estágio, a pesquisa sobre análise implícita de sentimentos ainda está no estágio inicial e não é muito adequada.No futuro, uma melhor classificação de sentimentos pode ser alcançada pela construção de um léxico implícito de sentimentos ou usando melhores métodos de aprendizado profundo para extrair informações relacionadas semânticas de maneira mais profunda.
3. A pesquisa sobre análise de sentimentos de enredos complexos precisa ser melhorada.Quando frases on -line com tendência de sentimentos aparecem cada vez mais frequentemente, especialmente quando o texto contém palavras irônicas ou metafóricas, a detecção da polaridade do sentimento será difícil, o que também precisa de mais pesquisas.
4. A análise de sentimentos multimodais também é um ponto de pesquisa recente de pesquisa.Como extrair e fundir as informações de sentimentos em várias modalidades é a principal direção de pesquisa.Quando as expressões de sentimentos em várias modalidades são inconsistentes, como ponderar as informações de sentimento em diferentes modalidades também precisa ser considerado;e se as informações semânticas externas podem ser consideradas e se são úteis para a precisão da análise de sentimentos, também precisam fazer muita pesquisa.
5. Na subposta da análise de sentimentos, também pode-se descobrir que a maior parte da pesquisa se baseia em análises simples de sentimentos binários, e alcançar a multi-categorização e a análise de sentimentos mais refinados também é um tópico quente para pesquisas futuras.
6. O modelo de pré-treinamento é um tópico de pesquisa quente nesta fase.Ele pode resolver efetivamente os problemas dos métodos tradicionais, como a limitação de não ser capaz de paralelizar o cálculo, e também pode capturar efetivamente a inter-relação entre as palavras e obter melhores resultados em tarefas a jusante por ajuste fino.No entanto, também sofre do problema de um grande número de parâmetros do modelo e longo tempo de treinamento.Como alcançar bons resultados de classificação com um pequeno número de parâmetros do modelo e diminuir efetivamente o tempo de treinamento também seria uma direção que vale a pena estudar.