给定IMDB电影ID,我如何以编程方式获取其海报图像?
时间:2020-03-06 14:54:08 来源:igfitidea点击:
影片ID tt0438097可以在http://www.imdb.com/title/tt0438097/找到。
其海报图片的网址是什么?
解决方案
据我所知,URL是一个随机字符串。
它仍然可以很容易地检索到。它是锚点" poster"中的唯一" img"。
因此,如果我们正在阅读源代码,只需搜索<a name =" poster"
,它将是第一个src ="
之后的文本。
但是,我们将需要更新屏幕抓取代码,因为这可能会发生变化。
我们还应该知道这些图像是受版权保护的,因此请务必仅在合理的"合理使用"原则下使用该图像。
如我们所知,该图片的实际网址是
http://ia.media-imdb.com/images/M/MV5BMTI0MDcxMzE3OF5BMl5BanBnXkFtZTcwODc3OTYzMQ@@._V1.SX100_SY133.jpg
我们将很难确定它是如何生成的,并且它们似乎没有公开可用的API。
屏幕抓取可能是我们最好的选择。
图片似乎通常在class = photo的div内,并且标记的名称是poster。
图片本身就位于标记内。
这些海报图像似乎与标题页没有任何关联,因此我们必须先检索标题页,然后检索该页的img元素。好消息是,img标记被包装在一个名称为" poster"的标记中。我们没有说要使用哪种工具,但这基本上是屏幕抓取操作。
请注意,服务条款明确禁止抓屏。我们可以将IMDB数据库作为一组文本文件下载,但是据我了解,在这些文本文件中找不到IMDB电影ID。