測試效度

測試效度

測試效度(test validity)亦稱測試的有效性,指一套測試對應該測試的內容所測的程度。也就是說,一套測試是否達到了它預定的目的以及是否測量了它要測量的內容。例如:“Is photography an art or science?Discuss.”這種題目以攝影的知識為前提和主要內容,用來考語言能力,就不具有效性。又如用聽寫來測量學生的聽覺能力,其效度也是不理想的,因為書面記錄有聲語言不僅涉及學生的聽覺能力,而且還與他們的書寫速度、拼寫能力、語法知識、記憶能力和對全文的理解能力等有關。

基本介紹

  • 中文名:測試效度
  • 外文名:test validity
  • 亦稱:亦稱測試的有效性
  • 分類:表面效度,內容效度,編制效度等
分類,影響因素,測驗的因素,樣本團體性質,效標性質,

分類

測試的效度一般可分為以下幾類:
1)表面效度(face validity)
指測試應達到的卷面標準,即一套測試題從表面看來是否是合適的。例如,若一次閱讀理解力的測試包括許多受試者沒有學過的方言辭彙,則可認為這次測試缺乏表面效度。表面效度是測試出受試者正常水平的一種保證因素。
2)內容效度(content validity)
指一套測試題是否測試了應該測試的內容或者說所測試的內容是否反映了測試的要求,即測試的代表性和覆蓋面的程度。例如,如果某一套發音技能測試題僅僅考查發音所必須具備的某些技能,如只考單一音素的發音,而不考查重讀、語調或音素在詞語中的發音,那么,該測試的內容效度就很低。
3)編制效度(construct validity)
指一套測試題的諸項目對編制該測試所依據的理論的各個基本方面的反映程度。例如,以結構主義語言理論為基礎,認為系統的語言習慣是通過句型而獲得的,那么,強調辭彙和語法環境的測試題目就失去了編制效度。
4)經驗效度(empirical validity)
經驗效度是一種衡量測試有效性的量度,通過把一次測試與一個或多個標準尺度相對照而得出。經驗效度可分為兩種:一是共時效度(concurrent validity),即將一次測試的結果同另一次時間相近的有效測試的結果相比較,或同教師的鑑定相比較而得出的係數;二是預測效度(predictive validity),即將一次測試的結果同後來的語言能力相比較,或是同教師後來對學生的鑑定相比較而得出的係數。
測試效度
一般來說,對某次測試的效度進行檢驗時,除了要根據教學大綱的要求和觀念有效性的理論對試卷的內容進行考查以外,還須採用計算相關係數的定量方法,即計算出本次試卷與另一份已被確定能正確反映受試者水平的試卷之間的相關係數。係數高則有效性大。課堂測試的效度應在0.4-0.7之間,規模較大的測試其效度應在0.7以上。

影響因素

測量的效度就是指測量的有效性,即能測量到所要測量目標的程度。一般來說,效度的作用比信度的作用更為重要。如果一個測驗效度很低,無論它的信度有多高,這項測驗都沒有套用價值。較高的效度是一個良好的測驗最重要的特性,是必要條件,也是選擇和評鑑測驗的重要依據。但是很多方面都在影響測量的效度,下面主要從測驗本身、樣本團體、效標因素進行具體分析。

測驗的因素

由測驗本身帶來的影響因素有測驗題目的質量、測驗實施中的干擾、測驗的長度、被試的因素等。
測驗題目的質量
題目的指導語不明確、試題的表達不清晰、試題太難或太容易、題目中出現額外的線索、誘答設計不合理、題目過少、試題的安排和組織不恰當、試題不符合測驗目的等因素,都會影響測驗的效度,使效度降低。
實施測驗時的干擾因素
測驗的環境太差、被試不遵從指導語、記分錯誤,都會使測驗的效度降低。
測驗的長度
一般來說,增加測驗的長度通常可以提高測驗的信度,而效度係數能否達到最大值也受信度的影響,因此,增加測驗的題目往往也能提高測驗的效度。不過,效度增加的前提是這些增加的題目必須與測量的目標相關。
被試的影響因素
被試的反應定勢、測驗動機、情緒和身心狀態都會對測量效度的影響。

樣本團體性質

對效度的計算往往是通過對樣本團體的分數進行各種分析而得到的,所以樣本團體的性質也會對測驗的效度產生影響。這些影響體現在三個方面。
(1) 同一測驗對不同的團體所測量的功能可能是不同的;
(2) 對於同一個測驗,樣本團體的性質不同,效度也會有較大的差別;
(3) 樣本團體的異質性對效度也會有影響。

效標性質

在採用效標關聯效度時,效標的性質如何,會影響對測驗效度的評價。一般來說,如果其他條件相同,所測量的行為或心理特質與效標行為或特質越相似,效度係數就越高。另外,效標與測驗分數之間的關係是否線性也是一個很重要的影響因素。

熱門詞條

聯絡我們