相似性度量

  • minkowski距离
  • Pearson系数
  • Chi-square Test
  • 余弦相思性
  • Jaccard

minkowski距离

  • minkowski的一般形式
  • dist
  • r=1, 街市距离(曼哈顿距离)
  • r=2, 欧几里得距离
  • r->max, 对象之间的最大距离
  • 距离的属性:
    • 非负性, d(x,y) >= 0
    • 对称性,d(x,y) = d(y,x)
    • 三角不等式, d(x,y) >= d(x,r)+d(r,y)

Person系数

  • Person系数用来描述两个数值型(nummeric)变量之间的相关性 Person
  • corr(x,y)=0,不相关
  • corr(x,y)>0,正相关,数值越大,正相关性越强
  • corr(x,y)<0,负相关,同理。

Chi-square Test

  • 描述名词性属性之间的相关性
  • 相依表,属性xi和yi之间的相关性,计算过程需要查表
  • ChiSquare
  • 计算公式
  • chi1
  • chi2
  • x^2的数值越大,表明x和y之间的相关性越强

余弦相似性

  • 通常文档用向量表示,向量的每个属性表示一个特定的词的出现的频率(实际情况很复杂)。因为常用词有限,所以很多词汇的出现频率是0,所以该向量矩阵是稀疏矩阵。基于此,相似性度量不能依赖共享0的个数,因为任意两个文档之间都不会出现很多词,所以如果统计0-0匹配,那么相似性会很接近。所以忽略0-0匹配,
  • cos(x,y)=xy/|x||y|

Jaccard

  • 主要用来度量二元属性之间的相似性
  • 简单匹配系数:SMC = (f11 + f00)/(f11+f10+f01+f00)
  • Jaccard系数: Jaccard = f11/(f11+f10+f01)
  • 广义Jaccard系数: EJ(x,y) = xy/(x^2 + y^2 - xy)

results matching ""

    No results matching ""