召回率

基本概念

對於數據測試結果有下面4種情況：

TP: 預測為正，實際為正

TN: 預測為負，實際為負

FP:預測為正，實際為負

FN: 預測為負，實際為正

T/F：表示預測結果是否正確

P/N：表示預測結果是正或負樣本

精確率、準確率：Accuracy=(TP+TN)/(TP+TN+FN+FP)

精準率、查準率： P = TP/ (TP+FP)

召回率、查全率： R = TP/ (TP+FN)

真正例率(同召回率、查全率)：TPR = TP/ (TP+FN)

假正例率：FPR =FP/ (FP+TN)

F1-score: 2*TP/(2*TP + FP + FN)

計算方法

召回率和精度示意圖

假定：從一個大規模數據集合中檢索文檔時，可把文檔分成四組：

- 系統檢索到的相關文檔（A）

- 系統檢索到的不相關文檔（B）

- 相關但是系統沒有檢索到的文檔（C）

- 不相關且沒有被系統檢索到的文檔（D）

則：

- 召回率R：用實際檢索到相關文檔數作為分子，所有相關文檔總數作為分母，即R = A / ( A + C )

- 精度P：用實際檢索到相關文檔數作為分子，所有檢索到的文檔總數作為分母，即P = A / ( A + B )

舉例來說：

一個資料庫有500個文檔，其中有50個文檔符合定義。系統檢索到75個文檔，但是實際只有45個符合定義。則：

召回率R=45/50=90%

精度P=45/75=60%

本例中，系統檢索是比較有效的，召回率為90%。但是結果有很大的噪音，有近一半的檢索結果是不相關。研究表明：在不犧牲精度的情況下，獲得一個高召回率是很困難的。

搜尋系統

對於一個檢索系統來講，召回率和精度不可能兩全其美：召回率高時，精度低，精度高時，召回率低。所以常用11種召回率下11種精度的平均值來衡量一個檢索系統的精度。我們也可以將這兩個度量值融合成一個度量值，如F度量(F-measure）。對於搜尋引擎系統來講，因為沒有一個搜尋引擎系統能夠蒐集到所有的WEB網頁，所以召回率很難計算。搜尋引擎系統都非常關心精度。

影響一個搜尋引擎系統的性能有很多因素，最主要的是信息檢索模型，包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制。

“召回率”與“準確率”雖然沒有必然的關係，然而在大規模數據集合中，這兩個指標卻是相互制約的。

由於“檢索策略”並不完善，希望更多相關的文檔被檢索到時，放寬“檢索策略”，往往也會伴隨出現一些不相關的結果，從而使準確率受到影響。

召回率

基本介紹

基本概念

計算方法

搜尋系統

常用名詞

熱門詞條