不使用COM /自动化从Word文档中提取文本的最佳方法？-IGI

时间：2020-03-05 18:47:15 　来源:igfitidea点击:

有没有一种合理的方法可以从不依赖COM自动化的Word文件中提取纯文本？ (这是在非Windows平台上部署的Web应用程序的功能，在这种情况下是不可协商的。)

Antiword似乎是一个合理的选择，但似乎已被放弃。

Python解决方案将是理想的选择，但似乎尚不可用。

解决方案

回答

Open Office有一个API

回答

通过使用OpenOffice API，Python和Andrew Pitonyak出色的在线宏书，我设法做到了这一点。 7.16.4节是开始的地方。

使它完全不需要屏幕就可以工作的另一个技巧是使用Hidden属性：

RO = PropertyValue('ReadOnly', 0, True, 0)
Hidden = PropertyValue('Hidden', 0, True, 0)
xDoc = desktop.loadComponentFromURL( docpath,"_blank", 0, (RO, Hidden,) )

否则，打开文档时，文档会在屏幕上(可能在Web服务器控制台上)滑动。

回答

我为此使用catdoc或者反字词，无论给出的结果是最容易解析的。我已经将其嵌入到python函数中，因此在解析系统(以python编写)中易于使用。

import os

def doc_to_text_catdoc(filename):
    (fi, fo, fe) = os.popen3('catdoc -w "%s"' % filename)
    fi.close()
    retval = fo.read()
    erroroutput = fe.read()
    fo.close()
    fe.close()
    if not erroroutput:
        return retval
    else:
        raise OSError("Executing the command caused an error: %s" % erroroutput)

# similar doc_to_text_antiword()

-w切换到catdoc会关闭换行，BTW。

回答

对于docx文件，请查看位于以下位置的Python脚本docx2txt

http://cobweb.ecn.purdue.edu/~kak/distMisc/docx2txt

用于从docx文档中提取纯文本。

回答

(与从python中的MS Word文件中提取文本的答案相同)

使用我本周制作的原生Python docx模块。以下是从文档中提取所有文本的方法：

document = opendocx('Hello world.docx')

# This location is where most document content lives 
docbody = document.xpath('/w:document/w:body', namespaces=wordnamespaces)[0]

# Extract all text
print getdocumenttext(document)

请参阅Python DocX网站

100％Python，没有COM，没有.net，没有Java，没有使用正则表达式解析序列化的XML，没有废话。

不使用COM /自动化从Word文档中提取文本的最佳方法？

解决方案

回答

回答

回答

回答

回答

相关推荐

最近更新

标签

不使用COM /自动化从Word文档中提取文本的最佳方法？

解决方案

回答

回答

回答

回答

回答

相关推荐

.Net [Windows] TreeView TreeNode在拖放后不会保留颜色更改

IE6和缓存

我们更喜欢哪种方式在MVC中创建表单？

在.NET中将文本文件的内容读取为字符串的最佳方法是什么？

相关推荐

最近更新

标签