除了正则表达式,还有另一种方法来进行屏幕抓取吗?
时间:2020-03-05 18:58:12 来源:igfitidea点击:
我正在做一个个人的项目,只是为了好玩,正在使用屏幕抓取功能向我发送系统任务栏通知,以防添加,修改或者删除HTML表上的另一行。
在我想到之前已经做完了:好吧,让我们谈谈正则表达式之类的事情,仅此而已,但是作为一个好奇的人,我使我认为可能还有其他事物可能具有另一种范例,但使用起来很简单。
我了解DOM和X-Path以及所有xml'ish方法。我正在寻找开箱即用的东西,甚至可以在一组规则中定义的东西,以便我们可以创建一个插件系统来汇总各个站点。
解决方案
回答
请参阅HTML抓取的选项
回答
如果我们可以使用SgmlReader或者HtmlTidy之类的源将其转换为有效的XHTML / XML,则可以使用XSLT。只需为要抓取的每个站点创建一个XSL模板。
回答
这是一个主意:假设主要用例是每当HTML文件发生更改时都收到通知,为什么不使用标准的diff工具,然后应用规则来遍历更改的行?
另外,如果在这种情况下我们可以访问服务器和正在查看的文件,则可以使用CVS(或者类似工具)将所有内容置于源代码控制下,并仅注意提交。如果要将这种方法用于网络上的随机站点,只需编写一个脚本,该脚本会定期下载适当URL的html,然后将其提交给源代码管理并查看差异。
不是很实用,但是在盒子外面。