从一组HTML文件中提取表内容的最佳方法是什么?
使用TIDY清理包含HTML文件的文件夹后,如何提取表内容以进行进一步处理?
解决方案
回答
过去,我将BeautifulSoup用于此类事情非常成功。
回答
在.NET中,我们可以使用HTMLAgilityPack。
有关更多信息,请参见有关StackOverflow的上一个问题。
回答
如果要从HTML标记中提取内容,则应使用某种类型的HTML解析器。为此,这里有很多东西,这里有两个可以满足需求:
http://jtidy.sourceforge.net/
http://htmlparser.sourceforge.net/
回答
取决于我们要执行哪种处理。我们可以告诉Tidy生成XHTML,这是XML的一种,这意味着我们可以在结果上使用所有常用的XML工具,例如XSLT和XQuery。
如果要在Microsoft Excel中处理它们,则应该能够从HTML中切出表格并将其放入文件中,然后在Excel中打开该文件:它将很乐意将HTML表格转换为电子表格页面。然后,我们可以将其另存为CSV或者Excel工作簿等。(甚至可以在网络服务器上使用-返回HTML表,但将Content-Type标头设置为application / ms-vnd.excel:Excel将打开并导入表格,然后将其转到电子表格中。)
如果希望CSV馈入数据库,则可以像以前一样通过Excel进行操作,或者如果要自动化该过程,则可以编写一个程序,该程序使用我们选择的XML导航API来迭代表行和将它们另存为CSV。 Python的Elementtree和CSV模块将使此操作非常容易。
回答
在查看了建议之后,我最终使用了HtmlUnit。
使用HtmlUnit,我可以自定义Java代码以打开文件夹中的每个HTML文件,导航至TABLE标记,
查询每个列的内容并提取创建CSV文件所需的数据。
回答
遍历文本并使用正则表达式:)
http://www.knowledgehouse.sg