对文本内容进行地理标记或者地理标记的方法
时间:2020-03-06 15:02:34 来源:igfitidea点击:
用城市/地区或者原产地自动标记文本的一些好的算法是什么?也就是说,如果博客是关于纽约的,我该如何以编程的方式告诉他们。是否有包装或者文件声称可以做到一定程度的确定性?
我看过一些基于tfidf的方法,专有名词的交集,但到目前为止,还没有任何成功的经验,我非常感谢想法!
给定一些主题列表,更笼统的问题是关于为主题分配文本。
简单/幼稚的方法比完整的贝叶斯方法更可取,但是我很开放。
解决方案
我们正在寻找命名实体识别系统,或者简称NER。有几个很好的工具包可以。特别是LingPipe有一个非常不错的教程。 CAGEclass似乎围绕NER定位在地理地名上,但是我还没有使用过它。
这是一个很好的博客条目,介绍了NER与地理位置名称之间的困难。
如果我们要使用Java,建议我们使用LingPipe NER类。 OpenNLP也有一些,但是前者有更好的文档。
如果我们正在寻找一些理论背景,Chavez等人。 (2005)构造了一个有趣的系统并记录了下来。
潜在语义映射似乎很适合。就像我们可能会发现的那样,这只是一种天真的算法。