是否有一种算法可以提取有意义的英文文本标签
时间:2020-03-05 18:54:44 来源:igfitidea点击:
我想从任何大小的英语文本中提取减少的"有意义"标签集合(最多10个)。
http://tagcrowd.com/非常有趣,但是该算法似乎非常基础(只是字数统计)
是否有其他现有算法可以做到这一点?
解决方案
回答
当减去人为因素(标记)时,剩下的就是频率。第二个最好的过滤器是"忽略常见英语单词",因为它处理排除而不是包含。我测试了几个站点,它非常准确。确实没有其他方法可以得出"含义",这就是为什么语义网最近得到如此多关注的原因。当然,这是一种隐含HTML含义的方法……当然,它也具有人为因素。
回答
也许"术语频率逆文档频率" TF-IDF会很有用...
回答
在文本分类中,此问题称为降维。关于这一主题的文献中有许多有用的算法。
回答
基本上,这是文本分类问题/文档分类问题。如果我们可以访问许多已标记的文档,则可以分析哪些(内容)单词触发了哪些标记,然后使用此信息标记新文档。
如果我们不想使用机器学习方法,但是仍然有文档集合,那么可以使用tf.idf之类的指标来过滤出有趣的单词。
更进一步,如果同义词的频率更高,则可以使用Wordnet查找同义词并将单词替换为同义词。
Manning&Schtze包含有关文本分类的更多介绍。
回答
有针对此的现有Web服务。两个三个示例:
- 雅虎的术语提取API
- 外用剂
- OpenCalais
回答
我们要对文本进行语义分析。
词频分析是进行语义分析的最简单方法之一。不幸的是(显然)它是最不准确的一种。可以通过使用特殊词典(例如,用于同义词或者词的形式),带有常用词的"停止列表",其他文本(查找那些"常用"词并将其排除)来改进它。
至于其他算法,它们可以基于:
- 语法分析(例如尝试查找句子中的主要主语和/或者动词)
- 格式分析(分析标题,粗体文本,斜体……适用)
- 参考分析(例如,如果文本在Internet中,则参考可以用几个词来描述它……被某些搜索引擎使用)
但是...我们应该理解,这些算法只是用于语义分析的启发式算法,而不是达到目标的严格算法。
自从第一台计算机问世以来,语义分析问题一直是人工智能/机器学习研究中的主要问题之一。