寻找共同的块
时间:2020-03-06 14:33:45 来源:igfitidea点击:
我有两个文件(f1和f2),其中包含一些文本(或者二进制数据)。
我如何快速找到常见的街区?
例如
f1:ABC DEF
f2:XXABC XEF
输出:
常见块:
长度4:f1 @ 0和f2 @ 2中的" ABC"
长度2:f1 @ 5和f2 @ 8中的" EF"
解决方案
这是用于此目的的好工具。
http://sourceforge.net/projects/duplo/
Wikipedia具有一些伪代码,用于在两个数据序列之间找到最长的公共子字符串。就我们而言,我们只需从表中提取不是其他公共子字符串(即最大公共子字符串)前缀的所有公共子字符串。
开源PMD项目具有此页面上提到的剪切粘贴检测器模块:http://pmd.sourceforge.net/integrations.html。