我需要用python编写代码以使用指纹技术比较两个文档的文本

时间:2020-03-06 14:20:32  来源:igfitidea点击:

我需要用python语言编写代码,以便使用指纹技术比较文档的文本。我不知道拍摄文件指纹或者生成文件指纹。我在问是否有人知道该方法或者具有用于生成以位形式存储的文档指纹的源代码。

解决方案

如果我们想要消息摘要(加密哈希),请使用hashlib库。这是一个示例(IPython会话):

In [1]: import hashlib

 In [2]: md = hashlib.sha256(open('/tmp/Calendar.xls', 'rb').read())

 In [3]: md.hexdigest()
 Out[3]: '8517f1eae176f1a20de78d879f81f23de503cfd6b8e4be1d798fb2342934b187'

我们可以尝试以下论文来开始使用指纹概念:

  • Winnowing:用于文档指纹识别的本地算法
  • 可扩展文档指纹