Python中的HTML解析器-IGI

时间：2020-03-05 18:55:37 　来源:igfitidea点击:

通过使用Python文档，我找到了HTML解析器，但是我不知道要导入哪个库才能使用它，如何确定这一点(请记住，它在页面上没有说)。

解决方案

回答

尝试：

import HTMLParser

在Python 3.0中，HTMLParser模块已重命名为html.parser
你可以在这里检查一下

Python 3.0

import html.parser

Python 2.2及更高版本

import HTMLParser

回答

在(http://docs.python.org/2/library/htmlparser.html)的底部有一个示例的链接，它仅不适用于原始python或者python3. 正如上面所说的，它必须是python2.

回答

我们可能真的想要BeautifulSoup，请查看链接以获取示例。

但是无论如何

>>> import HTMLParser
>>> h = HTMLParser.HTMLParser()
>>> h.feed('<html></html>')
>>> h.get_starttag_text()
'<html>'
>>> h.close()

回答

我建议改用Beautiful Soup模块，它具有良好的文档说明。

回答

对于现实世界中的HTML处理，我建议使用BeautifulSoup。它很棒，消除了很多痛苦。安装容易。

回答

我们还应该查看适用于Python的html5lib，因为它试图以与网络浏览器非常相似的方式解析HTML，尤其是在处理无效的HTML(当今Web的90％以上)时。

回答

如果我们想要速度，我不建议使用BeautifulSoup。 lxml的速度要快得多，而且如果默认解析器不起作用，我们可以使用lxml的BS soupparser。

回答

我们可能对lxml感兴趣。它是一个单独的程序包，具有C组件，但速度最快。它还具有非常好的API，可让我们轻松列出HTML文档中的链接，或者列出表单，清理HTML等。它还具有解析格式不正确的HTML(可配置)的功能。

Python中的HTML解析器

解决方案

回答

回答

回答

回答

回答

回答

回答

回答

相关推荐

最近更新

标签

Python中的HTML解析器

解决方案

回答

回答

回答

回答

回答

回答

回答

回答

相关推荐

这种奇怪的C代码格式是什么？

如何在PHP应用程序中使用多线程

通过不同类型的指针删除缓冲区？

使用JBoss Richfaces从PDF提取文本

相关推荐

最近更新

标签