IRT在測驗編製上的應用     國立臺灣師範大學教育心理與輔導學系助理教授 陳柏熹


  試題反應理論(Item Response Theory, IRT)是測驗領域中較新的技術,它已經被應用在教育、心理、醫療等相關領域中,如國民中學學生基本學力測驗、托福、GRE考試,以及國外的一些人格量表與醫學相關量表的編製。當代著名的電腦化適性測驗(CAT)也必須仰賴 IRT 的理論與技術才能運作。它到底有何優點會成為現代測驗發展的領導者呢?讓我們了解一下吧!

一、IRT 的基本概念

  IRT 是用來描述試題特性(難度、鑑別度、猜測度)與受測者的能力如何影響其答題反應的一種數學模式。最簡單的 IRT 模式如下(Rasch, 1960):

  其中 θj 為考生 j 的能力,bi 是試題 i 的難度,而 Pij 是受測者答對某個題目的機率。在 IRT 的模式中,受試者在某個題目上的答對機率,是同時受到受試者能力與試題難易度所影響。圖一是三個不同難度題目的答對機率曲線,從圖中可以看出答對機率是由受試者的能力與題目難度所共同決定的。



圖一 Rasch 模式中不同試題的答對機率曲線

  受試者在測驗上的整體表現就是答題反應的聯合機率,如下列公式所示﹕

  其中 Ui 表示受測者答對(U=1)或答錯(U=0)某個題目;Pi 如上述公式所示 ,而 Qi=1-Pi。舉例來說,如果有一位受試者分別做了 5 個題目,這 5 個題目的難度分別是 (-1.0, 0, 0.5, 1.0, 2.0),而受試者的作答結果是 [1,1,0,1,0];其中 1 代表答對,而 0 代表答錯。以本例來說,答題反應的聯合機率為:

  此時,我們可以找出最有可能產生這種反應的能力值。我們可以試著以 -3.0、-2.5、-2.0、2.5、3.0 等不同的程度值代入此概似函數(likelihood),看看何種程度值代入後會使此 L 函數值最大,則該值就是該受試者最有可能的能力值。

  藉由這個數學模式與聯合機率的概念,我們就能根據受試者在各個題目上的答題反應來估計受試者的能力,或是題目的難易度,並且讓接受不同題目的受試者其能力可以互相比較,也就是進行測驗等化。

二、IRT 的特色

  IRT 的特色大致可以從模式特性、試題參數特性、能力與分數量尺特性、測量精準度與應用等幾個層面來看:

(一)模式特性:
  IRT 的模式是針對單一試題的作答反應所提出的數學模式,在其模式中同時考量了受試者能力與試題特性對答對機率的影響,所以它是一種直接描述作答行為的模式,比傳統的測驗理論更為仔細且精確。

(二)試題參數特性:
  IRT 的題目參數(難易度、鑑別度、猜對率)不會受到受試者能力所影響,這主要是因為 IRT 在估計試題參數時,已經考量了受試者能力的影響力,因此,受試者是否具有代表性並不是很重要,只要受試者的人數夠多(以 Rasch 模式而言,受試者要有 200 人以上),能力值不是完全集中於某個值的話,就能夠估計出穩定的試題參數,也就是說,不論是誰來做這個題目,其試題難易度或鑑別度是固定不變的。反觀在傳統測驗理論中,試題參數則是完全決定於受試群體的能力。若受試群體的能力較高,則計算出來的試題難易度值(答對率)就變高,亦即題目變簡單;如果受試群體的能力較低,則計算出來的試題難易度值(答對率)就變低,亦即題目變難。同樣地,試題鑑別度也會明顯地受到受試群體的能力分散程度所影響。

(三)能力與分數量尺特性:
  IRT 對受試者的能力估計值也不會受到試題特性所影響,這同樣也是因為 IRT 在估計受試者能力時,已經考量了試題參數的影響,因此所估計出來的試題參數不會受到受試者能力所影響。此外, IRT 的能力是根據 IRT 模式與概似函數所估計出來的,有比較強的數學理論基礎。最特別的是,如果使用 IRT 中的 Rasch 模式(單參數模式),則所估計出來的受試者能力值具有等距量尺的特性,亦即其能力量尺可以作加減乘除的運算。反觀在傳統測驗理論中,受試者的能力值是直接加總測驗中各題目的得分所得。當測驗的題目較難,則受試者的得分通常會比較低;當測驗的題目較簡單,則受試者的得分通常會比較高,亦即受試者的能力高低完全決定於他所接受到的題目難易度,而這種直接將各題目的得分加總形成能力值的做法,也缺乏數學理論依據,否則只要某人答對相同的題目十次,能力豈不變成十倍。而且傳統測驗理論所得的分數也不具備等距量尺的特性,因此其分數嚴格說來並不適合進行四則運算。

(四)測量精準度:
  IRT 的測量精準度是以訊息量(information)的概念來表示。訊息量愈高,對受試者的測量就愈精準,測量誤差愈低。由於同樣的測驗對高能力者而言,題目可能過於簡單而測不出其能力;對低能力者而言,題目可能過難而也測不出其能力;只有對中等能力者而言,較能精確地測出其能力,而 IRT 的訊息量概念恰可以反映出測驗對不同能力者有不同的測量精準度。傳統測驗理論則假設測驗對不同受試者的測量標準誤都相同,這樣的假設與實際的測驗情況不相符,因為測驗題目的難易度對各種不同能力的受試者而言不見得都適合。

(五)應用:
  IRT 是促進現代測驗進步的重要關鍵,尤其是電腦化適性測驗。基於 IRT 的單向度假定與受試者能力估計的不變性,接受不同題目的受試者其能力就可以比較,因此就能讓受試者都接受適合於自己能力的題目,達到適性測驗的目的。除此之外, IRT的試題參數較不受樣本所影響,因此很適合用來發展題庫;而 IRT 的能力也較不受試題參數所影響,所以也很適合用來進行能力分數的等化。

三、IRT 的基本假設

  IRT 有兩項重要的基本假設,資料必須符合這些假設才能具備上述各項優秀的測量特性。此兩項重要的假設是單向度(unidimensionality)與局部獨立性(local independency)。

  單向度是指同一份測驗中的所有題目主要都是測量相同的某一項能力,或主要是受到單一特質所影響,其實這是大部分測驗的必備條件。例如,我們必須檢驗數學科測驗中的所有題目是否都是在測量數學能力,而不是測到了其他能力,這樣受試者的測驗分數才能代表他的數學程度。如果其中有些題目因為語彙表達太艱深或題意不清,使語文能力較差的受試者看不懂題目而答錯,就表示這份數學測驗不只測量到數學能力,還測量到語文能力,此時測驗分數就不能完全代表一個人的數學程度了。

  局部獨立性則是指相同能力水準的受試者,在各個題目上的答對機率是互相獨立的。有一些測驗會使用同一組閱讀材料或圖片,稱為題組(testlet)。例如:英語或國文能力測驗中的閱讀測驗,受試者必須讀完這些閱讀材料後再回答若干試題。如果這篇閱讀材料是某些受試者事前閱讀過或特別熟悉的,則他們就比較容易答對這幾題;而那些具有相同能力卻對這類題材比較不熟悉的人,就比較容易答錯這幾題。因此,必須要確定這些閱讀材料不是某些群體所特別熟悉的,否則就會違反局部獨立性假定。所幸現在已經發展出題組反應模式(Testlet Response Theory, TRT)可以解決這種問題(Wainer, Bradlow & Du, 2000)。

  整體而言,IRT 是屬於理論架構較嚴謹、應用層面較廣的測驗理論, IRT 所提出的諸多測量特性都較符合實際的測驗情況,但是由於其模式較複雜,不易讓人理解,計算過程也較繁瑣,因此尚未廣泛地被大眾所接受。不過隨著電腦科技的進步,進行 IRT 分析時所需要的計算已經都可以用電腦來執行,因此也已經漸漸被應用在一些著名的大型測驗中,例如國外的 TOEFL、GRE 測驗,以及國內的國中基本學力測驗等,相信未來 IRT 在測驗評量領域的普及率應該會愈來愈廣。