（转）simhash算法原理及实现

simhash是google用来处理海量文本去重的算法。 google出品，你懂的。 simhash最牛逼的一点就是将一个文档，最后转换成一个64位的字节，暂且称之为特征字，然后判断重复只需要判断他们的特征字的距离是不是<n（根据经验这个n一般取值为3），就可以判断两个文档是否相似。

原理

simhash值的生成图解如下：

simhash原理图

大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛，简单实用。

算法过程大概如下：

将Doc进行关键词抽取(其中包括分词和计算权重)，抽取出n个(关键词，权重)对，即图中的(feature, weight)们。记为 feature_weight_pairs = [fw1, fw2 ... fwn]，其中 fwn = (feature_n, weight_n)。
hash_weight_pairs = [ (hash(feature), weight) for feature, weight in feature_weight_pairs ] 生成图中的(hash,weight)们, 此时假设hash生成的位数bits_count = 6（如图）;
然后对 hash_weight_pairs 进行位的纵向累加，如果该位是1，则+weight,如果是0，则-weight，最后生成bits_count个数字，如图所示是[13, 108, -22, -5, -32, 55], 这里产生的值和hash函数所用的算法相关。
[13,108,-22,-5,-32,55] -> 110001这个就很简单啦，正1负0。

到此，如何从一个doc到一个simhash值的过程已经讲明白了。但是还有一个重要的部分没讲，

simhash值的海明距离计算

二进制串A 和二进制串B 的海明距离就是 A xor B 后二进制中1的个数。

举例如下：

A = 100111;
B = 101010;
hamming_distance(A, B) = count_1(A xor B) = count_1(001101) = 3;

当我们算出所有doc的simhash值之后，需要计算doc A和doc B之间是否相似的条件是：

A和B的海明距离是否小于等于n，这个n值根据经验一般取值为3,

simhash本质上是局部敏感性的hash，和md5之类的不一样。正因为它的局部敏感性，所以我们可以使用海明距离来衡量simhash值的相似度。

高效计算二进制序列中1的个数

/* src/Simhasher.hpp */
bool isEqual(uint64_t lhs, uint64_t rhs, unsigned short n = 3)
{
    unsigned short cnt = 0;
    lhs ^= rhs;
    while(lhs && cnt <= n)
    {
        lhs &= lhs - 1;
        cnt++;
    }
    if(cnt <= n)
    {
        return true;
    }
    return false;
}

由上式这个函数来计算的话，时间复杂度是 O(n); 这里的n默认取值为3。由此可见还是蛮高效的。

simhash实现的工程项目

我自己写的simhash

主要是针对中文文档，也就是此项目进行simhash之前同时还进行了分词和关键词的抽取。

对比其他算法

百度的去重算法

百度的去重算法最简单，就是直接找出此文章的最长的n句话，做一遍hash签名。n一般取3。工程实现巨简单，据说准确率和召回率都能到达80%以上。

shingle算法

shingle原理略复杂，不细说。 shingle算法我认为过于学院派，对于工程实现不够友好，速度太慢，基本上无法处理海量数据。

其他算法

具体看微博上的讨论

（转）simhash算法原理及实现

原理

simhash值的生成图解如下：

simhash值的海明距离计算

高效计算二进制序列中1的个数

simhash实现的工程项目

对比其他算法

百度的去重算法

shingle算法

其他算法

参考

如何让手机打开网页显示跟电脑上一样如何让手机显示电脑版

windows下如何查看和修改MySQL的端口号

最新文章

Vantui dialog怎么弹出图片内容(vant uploader组件点击图片上传)

python数组和列表的区别(python list和numpy array)

Wex5购物app开发步骤(wex5购物app开发步骤)

《幻兽帕鲁》苹果 Mac 版跳票：“为了更好的体验”延期至明年 2 月 27 日

HKC 推出“G27H7 Pro”27 英寸显示器：4K 160Hz / 1080P 320Hz 双模，1899 元

Steam 国区 17 元，经典冒险游戏《超凡双生》迎 2.5 折史低优惠

中兴海外推出努比亚 V70 Design 手机：可选素皮后盖，搭展锐 T606 + 4G + 256G 售 5300 比索

荣耀 300 Ultra 手机外观曝光：曲面屏设计，镜头 Deco 印有红色标识

iQOO Neo10 Pro跑分出炉搭载天玑9400超320万分

消息称英伟达 RTX 5090 显卡 GPU 尺寸比 RTX 4090 的大 22%，仅次于 TU102

最新评论

标签

关注我们么么哒！

（转）simhash算法原理及实现

原理

simhash值的生成图解如下：

simhash值的海明距离计算

高效计算二进制序列中1的个数

simhash实现的工程项目

对比其他算法

百度的去重算法

shingle算法

其他算法

参考

如何让手机打开网页显示跟电脑上一样如何让手机显示电脑版

windows下如何查看和修改MySQL的端口号

最新文章

Vantui dialog怎么弹出图片内容(vant uploader组件点击图片上传)

最新评论

标签

关注我们 么么哒！

关注我们的公众号

关注我们么么哒！