NLP:建立(小型)语料库,或者"在哪里可以得到很多不太专业的英语文本文件?"
有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或者收藏?我一直在使用Gutenberg Project的书作为工作原型,并希望结合更多现代语言。这里的最新答案间接指向了Usenet电影评论的大量存档,这对我而言不是很好,而且非常好。对于此特定程序,技术Usenet档案或者程序邮件列表会倾斜结果,并且难以分析,但是任何类型的常规博客文本或者聊天记录,或者可能对他人有用的任何内容,都将非常有帮助。另外,非常感谢部分或者可下载的研究语料库,它们没有被过度标记,或者有些启发式的方法可以找到维基百科文章的适当子集,或者任何其他想法。
(顺便说一句,我是一个很好的公民,没有下载,使用故意慢的脚本,不需要托管这些材料的服务器,以防万一我们觉得道德上的危险使我指向巨大的事物。)
更新:用户S0rin指出,维基百科不要求任何爬网,而是提供了此导出工具。 Gutenberg项目在此处指定了一条策略,即底线,请尝试不进行爬网,但是如果我们需要执行以下操作:"将机器人配置为在两次请求之间至少等待2秒。"
更新2 wikpedia转储是必经之路,这要归功于回答者指出。我最终从这里使用了英文版本:http://download.wikimedia.org/enwiki/20090306/,以及一个西班牙垃圾场,大小约为一半。它们是需要清理的工作,但值得这样做,并且它们在链接中包含许多有用的数据。
解决方案
我们已经涵盖了显而易见的内容。我能想到的唯一其他领域也可以补充:
1)新闻文章/博客。
2)杂志在网上发布了许多免费的资料,我们可以从中找到不错的主题。
维基百科听起来就像是要走的路。有一个实验性的Wikipedia API可能有用,但是我不知道它是如何工作的。到目前为止,我仅使用自定义蜘蛛甚至" wget"抓取了Wikipedia。
然后,我们可以搜索RSS提要中提供其全文的页面。 RSS,因为没有HTML标记会妨碍我们。
废弃邮件列表和/或者Usenet有几个缺点:我们将获得AOLbonics和Techspeak,这将严重降低语料库。
古典语料库是宾州树库和英国国家语料库,但它们是有偿的。我们可以阅读Corpora列表档案,甚至可以询问他们。也许我们将使用Web作为语料库工具找到有用的数据。
我实际上正在建设一个小项目,该项目可以在任意网页上进行语言处理。它应该在接下来的几周内准备好使用,但是到目前为止,它并不是真正意义上的刮板。但是我可以为此编写一个模块,功能已经存在。
- 你可以使用他们的工具包蜘蛛自己的语料库
- 路透社语料库是免费的,但只能通过CD获得
我们总是可以拥有自己的东西,但要注意:HTML页面通常需要大量清理,因此请仅限于RSS源。
如果我们在商业上这样做,那么最不发达国家可能是一个可行的选择。
在查看维基百科数据时,我注意到他们已经对电视和电影脚本的主体进行了一些分析。我认为这可能是有趣的文本,但并不容易获得-事实证明它无处不在,并且结构合理且可预测,因此有可能对其进行清理。这个站点的标题为"在'网络上的一个位置上有一堆电影脚本和电影剧本'",对那些偶然遇到类似问题的人可能很有用。
如果我们愿意付款,则应查看语言数据协会(例如Penn Treebank)中可用的数据。
维基百科似乎是最好的方法。是的,我们必须解析输出。但是,由于维基百科的类别,我们可以轻松获得不同类型的文章和单词。例如通过解析所有科学类别,我们可以获得很多科学词汇。有关地点的详细信息将偏向地名等。