通过哈希搜索?
时间:2020-03-05 18:49:43 来源:igfitidea点击:
我有个搜索引擎的想法,它可以像其他搜索引擎一样索引Web项目,但是只存储文件的标题,URL和内容的哈希。
这样,如果我们已经在网上找到了物品,却不知道它们来自何处,或者想知道所有物品出现的位置,那么将很容易在网上找到它们。
对于非文本项(例如图像,可执行文件和归档文件)更有用。
我想知道是否已经有类似的东西?
解决方案
回答
好吧,对于图像,有[http://tineye.com/][1],它可以将其合并,并为我们找到相似的图像。
[1]:http://tineye.com/锡眼
回答
这不是一个坏主意。有时我发现自己偶然发现了一些文件,试图弄清它是从哪里来的:)但是,我们将如何跟踪项目的来源?内容可以通过Web浏览器,下载管理器等各种方式获得,只需从网络共享中进行复制即可。
回答
查看有关位置敏感哈希的Wikipedia页面。麻省理工学院的研究也提供了一个很好的网页。
通常,有几种可用的方式:字符串的散列(例如simhash),集合或者0/1特征(例如最小散列)以及实向量。
到目前为止,数字散列的主要技巧基本上是减少尺寸。对于字符串,其想法是提出一种在进行次要编辑的情况下具有鲁棒性的表示形式。
尽管我猜想stackoverflow可能不是从事新生工作的正确地方,但我也在这一领域进行了一些研究。
回答
如果我正确理解建议,http://bitzi.com/已经做了一段时间。