现场挖掘工具
时间:2020-03-06 15:03:49 来源:igfitidea点击:
这里提出的许多问题与我正在做的研究有关。这些问题和答案分散很广,在手动浏览时并不总是很容易找到,有时在不相关的主题中也会有见地的答案或者评论。
我想根据关键字集自动找到这些相关的问与答,然后将这些信息用作进一步深入研究的指示。
我可以使用哪些工具(最好是开源工具)来进行这种类型的站点挖掘?我不是网络专家,对我来说,尝试开发它们将花费很长时间,并且还会影响我本可以花在研发上的时间。
解决方案
在这种情况下,人机交互工具可能会很有用(无需开发成本,可能会有更一致的结果以及不断变化的需求)。
夫妻浮现在脑海:
- 机械特克。
- 时间Svr(价格较高)-实验/审查。
所有基于关键字的标签都附有RSS feed,因此,我将从订阅相关关键字并搜索数据开始。看起来是找到相关概念和其他相关关键字的最简单方法。
另一种选择是使用Yahoo!管道。 (演示)
我们可以结合使用提要URL,过滤器等以可视方式在线构建这样的系统。与编程相比,学习时间最少。 [编辑:时态]
从问题中尚不清楚我们是否是程序员,所以我不确定我们是在追求想要的应用程序或者服务方面的工具,还是可以简化站点挖掘的库。
如果是后者,并且我们使用红宝石,我可以彻底推荐WWW :: Mechanize。它提供了一个不错的API,用于编写脚本来搜索网页(按DOM或者按文本),跟踪链接以及填写表格。我已经多次使用它来组织分布在站点内多个网页上的信息。
我相信ruby版本是基于较早的perl库的,但是我不能担保我没有使用过的perl版本。