刮擦多框架网站

时间:2020-03-06 14:33:28  来源:igfitidea点击:

我正在审核现有的Web应用程序,该应用程序大量使用了HTML框架。我想下载每个框架中的所有HTML,是否可以使用wget或者少量脚本来完成此操作?

解决方案

wget --recursive --domains=www.mysite.com http://www.mysite.com

这表明递归爬网也应遍历到框架和iframe中。请注意,仅将递归范围限制在网站上,因为我们可能不想爬网整个网站。

作为史蒂夫回答的补充:

跨度到任何主机-H

-H选项打开主机扩展,因此允许Wget的递归运行访问链接所引用的任何主机。除非应用足够的递归限制条件,否则这些外部主机通常将链接到更多主机,依此类推,直到Wget最终吸收的数据超出预期。

将范围限制为某些域-D

-D选项允许我们指定将要遵循的域,从而将递归限制为仅属于这些域的主机。显然,这仅与-H一起使用才有意义。

一个典型的示例是下载www.server.com的内容,但允许从images.server.com等进行下载:

wget -rH -Dserver.com http://www.server.com/

我们可以用逗号分隔多个地址,

例如-Ddomain1.com,domain2.com。

摘自:wget手册

wget具有-r选项以使其递归,请尝试wget -r -l1(以防字体难以读取:最后一部分是小写L,后跟数字1)
-l1部分告诉它递归到最大深度1. 尝试使用此数字来刮更多。