如何卷曲或者获取网页?
时间:2020-03-05 18:37:52 来源:igfitidea点击:
我想做一个每晚的Cron作业,以获取我的stackoverflow页面并将其与前一天的页面进行比较,因此我可以看到我的问题,答案,排名等的变更摘要。
不幸的是,我无法获得正确的Cookie等来完成这项工作。有任何想法吗?
另外,在完成测试版后,无需登录即可访问我的状态页面吗?
解决方案
回答
好主意 :)
我想你已经用过wget的
--load-cookies (filename)
也许会有所帮助,但是使用Mechanize(在Perl或者python中)之类的东西来更全面地模仿浏览器以获得更好的蜘蛛可能会更容易。
回答
状态页面现在无需登录即可使用(单击注销并尝试)。当禁用beta-cookie时,我们与状态页面之间将没有任何关系。
对于wget:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
回答
我也无法弄清楚如何使cookie正常工作,但是注销后我可以在浏览器中进入状态页面,因此我认为一旦stackoverflow公开,它就可以工作。
这是一个有趣的主意,但是我们也不会选择基础html代码的区别吗?我们是否有一种策略可以避免以html的差异而不是实际内容结尾?
回答
这是可行的...
curl -s --cookie soba=. http://stackoverflow.com/users
回答
从马克·哈里森
And here's what works... curl -s --cookie soba=. https://stackoverflow.com/users
对于wget:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html