寻找共同的块

时间:2020-03-06 14:33:45  来源:igfitidea点击:

我有两个文件(f1和f2),其中包含一些文本(或者二进制数据)。
我如何快速找到常见的街区?

例如
f1:ABC DEF
f2:XXABC XEF

输出:

常见块:
长度4:f1 @ 0和f2 @ 2中的" ABC"
长度2:f1 @ 5和f2 @ 8中的" ​​EF"

解决方案

这是用于此目的的好工具。
http://sourceforge.net/projects/duplo/

Wikipedia具有一些伪代码,用于在两个数据序列之间找到最长的公共子字符串。就我们而言,我们只需从表中提取不是其他公共子字符串(即最大公共子字符串)前缀的所有公共子字符串。

开源PMD项目具有此页面上提到的剪切粘贴检测器模块:http://pmd.sourceforge.net/integrations.html。