什么是 SimHash
一、什么是SimHash SimHash算法是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling》中提到的一种指纹生成算法,被应用在Google搜索引擎网页去重的工作之中。 对于文本去重这个问题,常见的解决办法有余弦算法、欧式距 …
共 31 篇文章
原文链接
浮点数的存储 IEEE745 国际标准: 任意一个二进制的浮点数可以表示为下面的形式: V = (-1)^s^ * M * 2^E^ (-1)^s^表示符号位,当S=0的时候V为正数,当S=1的时候V为负数 M表示有效数字,大于等于1,小于2; 1<= M <2 2^E^:E表示指数位 …
C/C++ 函数栈帧的创建和销毁 在学习最基础的C语言程序的语法与使用时,但你是否有疑问? 比如: 函数的作用域是怎么形成的呢? 局部变量是如何创建的? 为什么未初始化的局部变量的值是随机值或是乱码呢? 函数是如何传参的? 传参的顺序又是怎么样的呢? 形参和实参的关系是什么? 函数的调用是怎么实现的 …
结构体内存对齐 #include <stdio.h> struct S1{ char c1;//1 int i;//4 char c2;//1 }; struct S2{ char c1;//1 char c2;//1 int i;//4 }; int main(){ …
暴力算法 时间复杂度过大 #include <stdio.h> #include <malloc/_malloc.h> #include <string.h> #include <errno.h> // 最大公约数 // 最小公倍数 //计算最小公倍 …
codeif
mermaid可以在主流的markdown工具中使用 下面是几个常用的图示类型 1.思维导图 空格敏感 mindmap root((思维导图)) 节点一 记录1.1 ::icon(fa fa-book) 节点1.1 记录1.1.1 节点二 记录2.1 记录2.2 节点2.1 记录2.1.1 记 …