Métodos de análise de sentimentos de texto (2) - Métodos tradicionais de análise de sentimentos baseados em aprendizado de máquina
Introdução de métodos tradicionais de análise de sentimentos baseados em aprendizado de máquina
O aprendizado de máquina é um método de aprendizado que treina um modelo a partir de dados determinados e prevê os resultados pelo modelo.Esse método foi estudado até agora e alcançou muitos resultados eficazes.
O método de análise de sentimentos baseado em aprendizado de máquina refere -se à extração de recursos através de uma grande quantidade de corpus rotulado ou não marcado, usando algoritmos estatísticos de aprendizado de máquina e, finalmente, a saída resulta em análise de sentimentos.
Os métodos de classificação de sentimentos baseados em aprendizado de máquina são divididos em três categorias principais:Métodos supervisionados, semi-supervisionados e não supervisionados.
Nos métodos supervisionados, diferentes categorias de sentimentos podem ser classificadas, dando uma amostra com polaridade emocional.Os métodos supervisionados dependem mais de amostras de dados e gastam mais tempo com rotulagem manual e processamento de amostras de dados.Os métodos supervisionados comuns são KNN, ingênuos Bayes e SVM.
Em métodos semi-supervisionados, os resultados da classificação do sentimento de texto podem ser efetivamente aprimorados pela extração de recursos do texto não marcado, e esse método pode efetivamente resolver o problema dos conjuntos de dados esparsos com a rotulagem.
Em métodos não supervisionados, o texto não marcado é classificado com base na semelhança entre os textos, e esse método é menos utilizado na análise de sentimentos.
Vantagens e desvantagens:
Os métodos tradicionais de classificação de sentimentos baseados em aprendizado de máquina se concentram principalmente na extração de recursos de sentimentos e na combinação de classificadores, e a combinação de diferentes classificadores tem um certo impacto nos resultados da análise de sentimentos.Esses métodos geralmente não podem fazer pleno uso das informações contextuais do texto e têm o problema de ignorar a semântica contextual ao analisar o conteúdo do texto, para que sua precisão de classificação seja afetada.