信息指纹

来源:互联网 发布:淘宝图片库 编辑:程序博客网 时间:2024/06/02 17:45

信息指纹可以理解为 将一段信息(文字,图片,音频,视频等)随机地 映射到 一个多维二进制空间中的一个点(一个二进制数字)。随机函数做得好,不同信息对应的点不会重合,这些二进制的数字为原来信息所具有的独一无二的指纹。

 

用来提高存储空间,节约查找时间的。

信息指纹 有 网址的消重性,密码性。它具有不可逆性,即无法根据信息指纹推出原有信息。

 

映射函数为 伪随机数产生器。加密的伪随机数产生器(CSPRNG)。

 

信息指纹的用途:

判定集合相同:

1、两个集合一一做比较:O(N*N)

2、两个集合分别排序,顺序比较:O(NlogN)

3、第一个集合放在哈希表中,把第二集合的元素和哈希表中元素比较:O(N)外加O(N)的空间

4、计算两个集合的指纹:O(N)。计算集合元素的指纹,然后相加,(由于加法的交换律,保证指纹不因元素出现的次数而改变)

判定两个集合基本相同:

比如:找出两个网页中几个词构成 特征词集合(找出IDF最大的几个词),计算它们的信息指纹。

视频匹配:关键帧的提取 和 特征提取。

 

 

相似哈希(Simhash):一种特殊的信息指纹。

一个网页有若干词t1t2…tk,对应权重(TF-IDF)为w1w2…wk。

将第一个词t1的指纹定为8位(r1r2…rk),若rn为1,则权重为+w1;若rn为0,则权重为-w1.

其他词做同样操作,最后相加。得到8位指纹的8个权重值,当权重大于0,为1;当权重小于0,为0.

这样得到了一个8位二进制指纹。

若果两个网页的相似哈希相差小,则这两个网页的相似性高。

 

原创粉丝点击