如何卷曲或者获取网页?

时间:2020-03-05 18:37:52  来源:igfitidea点击:

我想做一个每晚的Cron作业,以获取我的stackoverflow页面并将其与前一天的页面进行比较,因此我可以看到我的问题,答案,排名等的变更摘要。

不幸的是,我无法获得正确的Cookie等来完成这项工作。有任何想法吗?

另外,在完成测试版后,无需登录即可访问我的状态页面吗?

解决方案

回答

好主意 :)

我想你已经用过wget的

--load-cookies (filename)

也许会有所帮助,但是使用Mechanize(在Perl或者python中)之类的东西来更全面地模仿浏览器以获得更好的蜘蛛可能会更容易。

回答

状态页面现在无需登录即可使用(单击注销并尝试)。当禁用beta-cookie时,我们与状态页面之间将没有任何关系。

对于wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

回答

我也无法弄清楚如何使cookie正常工作,但是注销后我可以在浏览器中进入状态页面,因此我认为一旦stackoverflow公开,它就可以工作。

这是一个有趣的主意,但是我们也不会选择基础html代码的区别吗?我们是否有一种策略可以避免以html的差异而不是实际内容结尾?

回答

这是可行的...

curl -s --cookie soba=. http://stackoverflow.com/users

回答

从马克·哈里森

And here's what works...
  
  curl -s --cookie soba=. https://stackoverflow.com/users

对于wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html