从一组HTML文件中提取表内容的最佳方法是什么？-IGI

时间：2020-03-05 18:54:59 　来源:igfitidea点击:

使用TIDY清理包含HTML文件的文件夹后，如何提取表内容以进行进一步处理？

解决方案

回答

过去，我将BeautifulSoup用于此类事情非常成功。

回答

在.NET中，我们可以使用HTMLAgilityPack。

有关更多信息，请参见有关StackOverflow的上一个问题。

回答

如果要从HTML标记中提取内容，则应使用某种类型的HTML解析器。为此，这里有很多东西，这里有两个可以满足需求：

http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/

回答

取决于我们要执行哪种处理。我们可以告诉Tidy生成XHTML，这是XML的一种，这意味着我们可以在结果上使用所有常用的XML工具，例如XSLT和XQuery。

如果要在Microsoft Excel中处理它们，则应该能够从HTML中切出表格并将其放入文件中，然后在Excel中打开该文件：它将很乐意将HTML表格转换为电子表格页面。然后，我们可以将其另存为CSV或者Excel工作簿等。(甚至可以在网络服务器上使用-返回HTML表，但将Content-Type标头设置为application / ms-vnd.excel：Excel将打开并导入表格，然后将其转到电子表格中。)

如果希望CSV馈入数据库，则可以像以前一样通过Excel进行操作，或者如果要自动化该过程，则可以编写一个程序，该程序使用我们选择的XML导航API来迭代表行和将它们另存为CSV。 Python的Elementtree和CSV模块将使此操作非常容易。

回答

在查看了建议之后，我最终使用了HtmlUnit。

使用HtmlUnit，我可以自定义Java代码以打开文件夹中的每个HTML文件，导航至TABLE标记，
查询每个列的内容并提取创建CSV文件所需的数据。

回答

遍历文本并使用正则表达式:)

http://www.knowledgehouse.sg

从一组HTML文件中提取表内容的最佳方法是什么？

解决方案

回答

回答

回答

回答

回答

回答

相关推荐

最近更新

标签

从一组HTML文件中提取表内容的最佳方法是什么？

解决方案

回答

回答

回答

回答

回答

回答

相关推荐

如何通过垃圾邮件过滤器？

aspx页面中的内联代码是一种好习惯吗？

我应该在业务层中使用EJB3还是Spring？

有关具有许多不同子类的类型切片的设计问题

相关推荐

最近更新

标签