相似性度量
- minkowski距离
- Pearson系数
- Chi-square Test
- 余弦相思性
- Jaccard
minkowski距离
- minkowski的一般形式

- r=1, 街市距离(曼哈顿距离)
- r=2, 欧几里得距离
- r->max, 对象之间的最大距离
- 距离的属性:
- 非负性, d(x,y) >= 0
- 对称性,d(x,y) = d(y,x)
- 三角不等式, d(x,y) >= d(x,r)+d(r,y)
Person系数
- Person系数用来描述两个数值型(nummeric)变量之间的相关性

- corr(x,y)=0,不相关
- corr(x,y)>0,正相关,数值越大,正相关性越强
- corr(x,y)<0,负相关,同理。
Chi-square Test
- 描述名词性属性之间的相关性
- 相依表,属性xi和yi之间的相关性,计算过程需要查表

- 计算公式


- x^2的数值越大,表明x和y之间的相关性越强
余弦相似性
- 通常文档用向量表示,向量的每个属性表示一个特定的词的出现的频率(实际情况很复杂)。因为常用词有限,所以很多词汇的出现频率是0,所以该向量矩阵是稀疏矩阵。基于此,相似性度量不能依赖共享0的个数,因为任意两个文档之间都不会出现很多词,所以如果统计0-0匹配,那么相似性会很接近。所以忽略0-0匹配,
- cos(x,y)=xy/|x||y|
Jaccard
- 主要用来度量二元属性之间的相似性
- 简单匹配系数:SMC = (f11 + f00)/(f11+f10+f01+f00)
- Jaccard系数: Jaccard = f11/(f11+f10+f01)
- 广义Jaccard系数: EJ(x,y) = xy/(x^2 + y^2 - xy)