傑卡德距離

傑卡德距離(Jaccard Distance) 是用來衡量兩個集合差異性的一種指標,它是傑卡德相似係數補集,被定義為1減去Jaccard相似係數。而傑卡德相似係數(Jaccard similarity coefficient),也稱傑卡德指數(Jaccard Index),是用來衡量兩個集合相似度的一種指標。

基本介紹

  • 中文名:傑卡德距離
  • 外文名:Jaccard Distance
  • 提出者: Paul Jaccard
  • 套用學科:統計學,機器學習,數據挖掘,信息信息檢索
  • 適用領域範圍:集合相似性度量,字元串相似性度量
定義,性質,套用,

定義

Jaccard相似指數用來度量兩個集合之間的相似性,它被定義為兩個集合交集的元素個數除以並集的元素個數。
Jaccard距離用來度量兩個集合之間的差異性,它是Jaccard的相似係數補集,被定義為1減去Jaccard相似係數。

性質

1) 若A、B兩個集合都為空,則
;
2)
;

套用

給定兩個n維二元向量A、B,A、B的每一維都只能是0或者1,利用Jaccard相似係數來計算二者的相似性:
1)
代表向量A與向量B都是0的維度個數;
2)
代表向量A是0而向量B是1的維度個數;
3)
代表向量A是1而向量B是0的維度個數;
4)
代表向量A和向量B都是1的維度個數。
n維向量的每一維都會落入這4類中的某一類,因此:
則Jaccard相似係數
Jaccard距離為

相關詞條

熱門詞條

聯絡我們