PHP中的HTML抓取

时间:2020-03-05 18:44:53  来源:igfitidea点击:

我一直在使用正则表达式在PHP中进行一些html抓取。这是可行的,但结果是挑剔和脆弱的。有没有人使用过提供更强大解决方案的软件包?配置驱动的解决方案将是理想的选择,但我并不挑剔。

解决方案

回答

从页面抓取HTML之后,我将推荐PHP简单HTML DOM解析器。它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素。

回答

如果我们要抓取的页面是有效的X(HT)ML,则任何PHP的内置XML解析器都可以。

我在使用PHP库进行抓取方面还没有取得太大的成功。如果我们喜欢冒险,可以尝试使用simplehtmldom。我建议将Hpricot用于Ruby或者将Beautiful Soup用于Python,它们都是HTML的出色解析器。

回答

上面提到的Simple Html DOM解析器的效果也非常好。然后还有适用于PHP的整洁扩展程序,它也确实很好用。

回答

使用htmlSQL带来了一些乐趣,它并不是高端解决方案,但使用起来却非常简单。

回答

使用PHP进行HTML抓取,尽管我个人使用cURL + regexp,但我还是建议使用cURL + regexp或者cURL +一些DOM解析器。如果我们对regexp有深刻的了解,有时它实际上会更准确。

回答

我还建议使用"简单HTML DOM解析器"。这是一个不错的选择,特别是如果我们熟悉jQuery或者JavaScript选择器,那么我们会发现自己在家。

过去我甚至都写过博客。

回答

我必须在主机1和1上使用curl。

http://www.quickscrape.com/是我使用Simple DOM类想到的!