Python中的HTML解析器
时间:2020-03-05 18:55:37 来源:igfitidea点击:
通过使用Python文档,我找到了HTML解析器,但是我不知道要导入哪个库才能使用它,如何确定这一点(请记住,它在页面上没有说)。
解决方案
回答
尝试:
import HTMLParser
在Python 3.0中,HTMLParser模块已重命名为html.parser
你可以在这里检查一下
Python 3.0
import html.parser
Python 2.2及更高版本
import HTMLParser
回答
在(http://docs.python.org/2/library/htmlparser.html)的底部有一个示例的链接,它仅不适用于原始python或者python3. 正如上面所说的,它必须是python2.
回答
我们可能真的想要BeautifulSoup,请查看链接以获取示例。
但是无论如何
>>> import HTMLParser >>> h = HTMLParser.HTMLParser() >>> h.feed('<html></html>') >>> h.get_starttag_text() '<html>' >>> h.close()
回答
我建议改用Beautiful Soup模块,它具有良好的文档说明。
回答
对于现实世界中的HTML处理,我建议使用BeautifulSoup。它很棒,消除了很多痛苦。安装容易。
回答
我们还应该查看适用于Python的html5lib,因为它试图以与网络浏览器非常相似的方式解析HTML,尤其是在处理无效的HTML(当今Web的90%以上)时。
回答
如果我们想要速度,我不建议使用BeautifulSoup。 lxml的速度要快得多,而且如果默认解析器不起作用,我们可以使用lxml的BS soupparser。
回答
我们可能对lxml感兴趣。它是一个单独的程序包,具有C组件,但速度最快。它还具有非常好的API,可让我们轻松列出HTML文档中的链接,或者列出表单,清理HTML等。它还具有解析格式不正确的HTML(可配置)的功能。