NLP:定性"正"与"负"的句子

时间:2020-03-06 14:36:52  来源:igfitidea点击:

我需要帮助,以确定用于分析针对"正面"与"负面"的行业特定句子(即电影评论)的最佳方法。我以前见过像OpenNLP这样的库,但是它的级别太低,它只给我提供了基本的句子组成。我需要的是更高层次的结构:
希望与词表
希望可以对我的数据进行训练

谢谢!

解决方案

我们正在寻找的通常被称为情感分析。通常,情绪分析无法处理讽刺或者讽刺等微妙的微妙之处,但是如果我们向其中添加大量数据,它的效果会很好。

情感分析通常需要大量的预处理。至少是标记化,句子边界检测和词性标记。有时,语法分析可能很重要。正确地完成它是计算语言学研究的整个分支,除非我们花时间先研究该领域,否则我不建议我们提出自己的解决方案。

OpenNLP有一些工具可以帮助情绪分析,但是如果我们想要更严肃的东西,则应该研究LingPipe工具箱。它具有一些内置的SA功能和一个不错的教程。我们可以根据自己的数据训练它,但不要认为它是完全琐碎的:-)。

搜寻该词可能还会为我们提供一些可使用的资源。如果我们还有其他更具体的问题,请问,我正在密切关注nlp标签;-)

情感分析的某些方法使用在其他文本分类任务中流行的策略。最常见的是将电影评论转换为词向量,并将其作为训练数据输入到分类器算法中。最受欢迎的数据挖掘程序包可以在这里为我们提供帮助。我们可以查看有关情感分类的本教程,该教程说明了如何使用开源RapidMiner工具包进行实验。

顺便说一句,有一个很好的数据集可用于与电影评论检测相关的研究目的。它基于IMDB用户评论,我们可以检查有关该领域的许多相关研究工作以及他们如何使用数据集。

值得牢记的是,这些方法的有效性只能从统计角度进行判断,因此我们可以非常假设会出现分类错误和难以发现意见的情况。正如在该主题中已经注意到的那样,确实很难检测到讽刺和嘲讽之类的东西。