cyrus reggie

# 算法

共 1 篇文章

2024

什么是 SimHash

一、什么是SimHash SimHash算法是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling》中提到的一种指纹生成算法,被应用在Google搜索引擎网页去重的工作之中。 对于文本去重这个问题,常见的解决办法有余弦算法、欧式距 …

编程, 算法
10 min