向量空间模型

向量空间模型广泛使用在文档相似度(算score等等),下面举例描述这个模型:

  • 假设有两个文档(可以把一个query想象成一个文档),分别为d1,d2
  • 假设w1,w2,w3,w4为term
  • 下图为词频(词频就是在单个文档中出现的次数),词频为ai,bi
-----------------------------------
      |  w1  |  w2  |  w3  |  w4  |
  d1  |  1   |      |  1   |      |
  d2  |  2   |  3   |  2   |  1   |
-----------------------------------
  • 比较夹角公式,越接近越相似,(还需要向量的模公式, x = √x^2)

vsm公式

sim(d1,d2) =(ai*bi) / √(∑ai^2 * ∑bi^2)
           = 1*2+0*3+1*2+0*1 / √((1^2+0^2+1^2+0^2)*(2^2+3^2+2^2+1^2))
           = 4 / √(36)
           = 4 / 6
           = 2 / 3
           = 0.66666...
  • 假设文章只有两维的话,那么空间图就可以画在一个平面直角坐标系当中,读者可以假想两篇只有两个词的文章画图进行理解。
  • 由公式可以看出计算量是很大的,要提高效率最好的方法就是减少term,俗称降纬
comments powered by Disqus
Table of Contents