如何卷曲或者获取网页？-IGI

时间：2020-03-05 18:37:52 　来源:igfitidea点击:

我想做一个每晚的Cron作业，以获取我的stackoverflow页面并将其与前一天的页面进行比较，因此我可以看到我的问题，答案，排名等的变更摘要。

不幸的是，我无法获得正确的Cookie等来完成这项工作。有任何想法吗？

另外，在完成测试版后，无需登录即可访问我的状态页面吗？

解决方案

好主意：)

我想你已经用过wget的

--load-cookies (filename)

也许会有所帮助，但是使用Mechanize(在Perl或者python中)之类的东西来更全面地模仿浏览器以获得更好的蜘蛛可能会更容易。

状态页面现在无需登录即可使用(单击注销并尝试)。当禁用beta-cookie时，我们与状态页面之间将没有任何关系。

对于wget：

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

我也无法弄清楚如何使cookie正常工作，但是注销后我可以在浏览器中进入状态页面，因此我认为一旦stackoverflow公开，它就可以工作。

这是一个有趣的主意，但是我们也不会选择基础html代码的区别吗？我们是否有一种策略可以避免以html的差异而不是实际内容结尾？

这是可行的...

curl -s --cookie soba=. http://stackoverflow.com/users

从马克·哈里森

And here's what works...
  
  curl -s --cookie soba=. https://stackoverflow.com/users

对于wget：

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html