构建Web搜寻器-使用Webkit软件包

时间:2020-03-06 15:01:31  来源:igfitidea点击:

我正在尝试构建网络爬虫。
我需要两件事:
我期望的结果是一个DOM对象,其中已执行了按负载执行的JavaScript。
另外,我需要一个选项来按需执行其他JavaScript(在诸如onMouseOver,onMouseClick等事件上)。
首先,我找不到很好的文档来源。
我搜索了Webkit主页,但找不到有关该软件包用户的太多信息,也没有有用的代码示例。
另外,在一些论坛中,我看到了一些说明,它们不对爬虫使用Webkit界面,而是直接对DOM和Javascript内部包使用。

  • 将HTML转换为DOM对象。
  • 按需执行现有的JavaScript。

查看与WebKit干线一起打包的一些测试工具。大多数端口(据我所知)包括DumpRenderTree,它实例化WebKitView,然后在处理指定文件后吐出渲染树。从理论上讲,这是可能的WebKit最简单的示例之一。

我正在搜索文档和代码示例。
另外,有关正确用法的任何建议。
工作环境:

  • 操作系统:Windows
  • 郎:C ++

解决方案