什么是用于释义的好的自然语言库?

时间:2020-03-05 18:42:39  来源:igfitidea点击:

我正在寻找一个现有的库来总结或者解释内容(我的目标是博客文章),对现有自然语言处理库有任何经验吗?

我可以使用多种语言,因此我对功能和准确性更感兴趣。

解决方案

回答

我们进入了非常遥远的AI类型领域。我主要使用Attempto受控英语(请参见:http://attempto.ifi.uzh.ch/site/)将文本转换为机器知识方面进行了大量工作(这是一种自然语言(英语),可以完全通过计算机将其处理成多种语言)不同的本体,例如OWLDL。

好像那样,我们还是会过度杀伤……

是否有理由不只是采用博客文章的前几句话,而是在摘要后加上省略号?

回答

感谢那些链接。看起来GROK已经死了,但出于我的目的它可能仍然可以工作。

另外2个链接:

  • http://classifier4j.sourceforge.net/
  • http://www.corporasoftware.com/products/summarize.aspx

尝试控制英语是一个有趣的概念:因为它是解决问题的完全相反的方式。对于我尝试做的事情,这不是很实际。

@mmattax至于建议多讲几句话的建议,我并不是要总结一下:否则,这将是一个不错的柔道解决方案。我实际上希望总结内容以用于其他评估目的。

回答

可能想尝试使用GATE或者开源,专有且昂贵的TextAnalyst COM API

回答

我认为他想通过自动解释系统监视的博客内容来生成博客文章。

如果我们可以合并2到10个相似但来自不同来源的博客文章,然后自动做一个释义的"真实"摘要(1个博客文章的大小),这将非常有趣。

这对于Homeworks也可能很棒。不幸的是,这并非易事。

我能看到的唯一方法是能够将每个句子分解为"含义",然后随机更改句子结构和保留该含义的某些单词。

这些句子的含义相同:

  • 我讨厌这个家伙,他太傻了。
  • 这个家伙很蠢,我讨厌他。
  • 我鄙视这个笨蛋。
  • 他傻了,我恨他。

编写将这些句子之一转换为其他句子的程序并不容易,而且这些句子很简单,博客中的真实句子要复杂得多。

回答

关于Grok有一些讨论。现在已将其作为OpenCCG支持,并将在OpenNLP中重新实现。

我们可以在http://openccg.sourceforge.net/找到OpenCCG。我还建议在此处提供Curran和Clark CCG解析器:http://svn.ask.it.usyd.edu.au/trac/candc/wiki

基本上,对于释义,我们需要做的是写一些东西,首先解析博客文章的句子,提取这些文章的语义,然后在词汇表的空间中搜索,以构成相同的语义意思,然后选择一个与当前句子不匹配的词。这将花费很长时间,并且可能没有任何意义。不要忘记,要做到这一点,我们将需要近乎完美的回指解析度以及获得话语级推论的能力。

如果我们只是想撰写没有机器可识别的重复内容的博客文章,则始终可以只使用主题和焦点转换以及WordNet同义词。肯定有一些网站以前是通过AdWords赚钱的。