評分者信度

概念

評分者信度（scorer reliability）指的是多個評分者給同一批人的答卷評分的一致性程度。

必要性

1）重測信度、複本信度和分半信度的評估方式都適用於客觀測驗，即分數評定完全客觀化的測驗。然而，當測驗評分不是那么客觀時，還可以使用其它信度方式。例如，對於同一篇作文，不同的評定者傾向於給不同的分數，或者不同的面試官可能會在結構化面試中將同一個面試者評定為不同的分數等級。在這種情況下，可以通過運用皮爾遜積矩相關或等級相關來計算兩個評定者之間的相關而得到信度值。這種信度評估方式被稱為評定者信度或評分者信度(inter-rater reliability）。

2）在由客觀性試題組成的心理測驗中，答案具體而固定，無需考察評分者信度。但在投射測驗、道德判斷測驗、創造性思維測驗等測驗的評分中，答案並不固定，評分時必然摻雜有主觀判斷因素，因此，需要考察評分者一致性係數。

3）標準化測驗一般都有較為嚴格的評分程式。對於客觀性試題來說，評分所引起的誤差可以忽略不計，但對於一些主觀性題目來說，評分者之間的變異是產生誤差的重要原因之一。

1983年的一項研究顯示：從北京隨機抽取高中語文、政治、數學、物理各5份卷子複印以後到全國各省，請各地區閱卷組分別評分，其結果是不同地區、不同閱卷組、不同閱卷老師之間差異相當大，語文同一份試卷的最大差異竟達33分。

4）對一些無法完全客觀記分的測驗來說，評分者之間的變異也是誤差的重要來源。比如測量創造力的發散思維測驗以及測量人格的投射測驗，在評分時都摻有主觀判斷成分。對於這類測驗，除需要通常的信度估計外，還需要評分者信度的度量。

5）除非記錄錯誤，否則不同的評分者對某一個體在客觀性測驗上的計分應該是一致的。但是，對於短文或者口語測試，以及其它的評價性判斷（人格評分、投射測驗計分）而言，計分過程往往相當主觀。評價性計分包含了評分者的主觀判斷，不同的評分者在多大程度上能夠對不同的受測者和項目的反應結果在評分、或者其它數量指標上達成一致，知道這一點是非常重要的。

口語測試的信度一向不高，但如果使用一些特殊的表格來判斷口試成績，則可以提高口試的客觀性，相應地也就提高了測試的信度。雖然口試的信度相對於紙筆測驗通常要低一些，但只要在設計口試問題時多加小心，並使用多重評價或多重計分，就能提高口試得分的信度。某些研究生課程、本科生課程以及職業技校的課程中，實施口試時使用這些方法能使評分者信度係數達到0.60~0.70。其它有關提高口試成績評價信度的建議包括：鼓勵受測者延遲作答，讓受測者能夠在回答前思考一會兒；另外就是使用電子設備錄下受測者的反應，以便計分者可以再測試後進行重放和再評價。

評分者信度

基本介紹

概念

必要性

計算與考察方法

兩位評分者

多個評分者

補充

相關詞條

熱門詞條