Python中的HTML解析器

时间:2020-03-05 18:55:37  来源:igfitidea点击:

通过使用Python文档,我找到了HTML解析器,但是我不知道要导入哪个库才能使用它,如何确定这一点(请记住,它在页面上没有说)。

解决方案

回答

尝试:

import HTMLParser

在Python 3.0中,HTMLParser模块已重命名为html.parser
你可以在这里检查一下

Python 3.0

import html.parser

Python 2.2及更高版本

import HTMLParser

回答

在(http://docs.python.org/2/library/htmlparser.html)的底部有一个示例的链接,它仅不适用于原始python或者python3. 正如上面所说的,它必须是python2.

回答

我们可能真的想要BeautifulSoup,请查看链接以获取示例。

但是无论如何

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

回答

我建议改用Beautiful Soup模块,它具有良好的文档说明。

回答

对于现实世界中的HTML处理,我建议使用BeautifulSoup。它很棒,消除了很多痛苦。安装容易。

回答

我们还应该查看适用于Python的html5lib,因为它试图以与网络浏览器非常相似的方式解析HTML,尤其是在处理无效的HTML(当今Web的90%以上)时。

回答

如果我们想要速度,我不建议使用BeautifulSoup。 lxml的速度要快得多,而且如果默认解析器不起作用,我们可以使用lxml的BS soupparser。

回答

我们可能对lxml感兴趣。它是一个单独的程序包,具有C组件,但速度最快。它还具有非常好的API,可让我们轻松列出HTML文档中的链接,或者列出表单,清理HTML等。它还具有解析格式不正确的HTML(可配置)的功能。