是否有一种算法可以提取有意义的英文文本标签

时间:2020-03-05 18:54:44  来源:igfitidea点击:

我想从任何大小的英语文本中提取减少的"有意义"标签集合(最多10个)。

http://tagcrowd.com/非常有趣,但是该算法似乎非常基础(只是字数统计)

是否有其他现有算法可以做到这一点?

解决方案

回答

当减去人为因素(标记)时,剩下的就是频率。第二个最好的过滤器是"忽略常见英语单词",因为它处理排除而不是包含。我测试了几个站点,它非常准确。确实没有其他方法可以得出"含义",这就是为什么语义网最近得到如此多关注的原因。当然,这是一种隐含HTML含义的方法……当然,它也具有人为因素。

回答

也许"术语频率逆文档频率" TF-IDF会很有用...

回答

在文本分类中,此问题称为降维。关于这一主题的文献中有许多有用的算法。

回答

基本上,这是文本分类问题/文档分类问题。如果我们可以访问许多已标记的文档,则可以分析哪些(内容)单词触发了哪些标记,然后使用此信息标记新文档。

如果我们不想使用机器学习方法,但是仍然有文档集合,那么可以使用tf.idf之类的指标来过滤出有趣的单词。

更进一步,如果同义词的频率更高,则可以使用Wordnet查找同义词并将单词替换为同义词。

Manning&Schtze包含有关文本分类的更多介绍。

回答

有针对此的现有Web服务。两个三个示例:

  • 雅虎的术语提取API
  • 外用剂
  • OpenCalais

回答

我们要对文本进行语义分析。

词频分析是进行语义分析的最简单方法之一。不幸的是(显然)它是最不准确的一种。可以通过使用特殊词典(例如,用于同义词或者词的形式),带有常用词的"停止列表",其他文本(查找那些"常用"词并将其排除)来改进它。

至于其他算法,它们可以基于:

  • 语法分析(例如尝试查找句子中的主要主语和/或者动词)
  • 格式分析(分析标题,粗体文本,斜体……适用)
  • 参考分析(例如,如果文本在Internet中,则参考可以用几个词来描述它……被某些搜索引擎使用)

但是...我们应该理解,这些算法只是用于语义分析的启发式算法,而不是达到目标的严格算法。
自从第一台计算机问世以来,语义分析问题一直是人工智能/机器学习研究中的主要问题之一。