给定IMDB电影ID,我如何以编程方式获取其海报图像?

时间:2020-03-06 14:54:08  来源:igfitidea点击:

影片ID tt0438097可以在http://www.imdb.com/title/tt0438097/找到。

其海报图片的网址是什么?

解决方案

据我所知,URL是一个随机字符串。

它仍然可以很容易地检索到。它是锚点" poster"中的唯一" img"。

因此,如果我们正在阅读源代码,只需搜索<a name =" poster",它将是第一个src ="之后的文本。

但是,我们将需要更新屏幕抓取代码,因为这可能会发生变化。

我们还应该知道这些图像是受版权保护的,因此请务必仅在合理的"合理使用"原则下使用该图像。

如我们所知,该图片的实际网址是

http://ia.media-imdb.com/images/M/MV5BMTI0MDcxMzE3OF5BMl5BanBnXkFtZTcwODc3OTYzMQ@@._V1.SX100_SY133.jpg

我们将很难确定它是如何生成的,并且它们似乎没有公开可用的API。

屏幕抓取可能是我们最好的选择。

图片似乎通常在class = photo的div内,并且标记的名称是poster。

图片本身就位于标记内。

这些海报图像似乎与标题页没有任何关联,因此我们必须先检索标题页,然后检索该页的img元素。好消息是,img标记被包装在一个名称为" poster"的标记中。我们没有说要使用哪种工具,但这基本上是屏幕抓取操作。

请注意,服务条款明确禁止抓屏。我们可以将IMDB数据库作为一组文本文件下载,但是据我了解,在这些文本文件中找不到IMDB电影ID。