| IRT在測驗編製上的應用 國立臺灣師範大學教育心理與輔導學系助理教授 陳柏熹 |
|
一、IRT 的基本概念 IRT 是用來描述試題特性(難度、鑑別度、猜測度)與受測者的能力如何影響其答題反應的一種數學模式。最簡單的 IRT 模式如下(Rasch, 1960):
其中 θj 為考生 j 的能力,bi 是試題 i 的難度,而 Pij 是受測者答對某個題目的機率。在 IRT 的模式中,受試者在某個題目上的答對機率,是同時受到受試者能力與試題難易度所影響。圖一是三個不同難度題目的答對機率曲線,從圖中可以看出答對機率是由受試者的能力與題目難度所共同決定的。
受試者在測驗上的整體表現就是答題反應的聯合機率,如下列公式所示﹕
其中 Ui 表示受測者答對(U=1)或答錯(U=0)某個題目;Pi 如上述公式所示 ,而 Qi=1-Pi。舉例來說,如果有一位受試者分別做了 5 個題目,這 5 個題目的難度分別是 (-1.0, 0, 0.5, 1.0, 2.0),而受試者的作答結果是 [1,1,0,1,0];其中 1 代表答對,而 0 代表答錯。以本例來說,答題反應的聯合機率為:
此時,我們可以找出最有可能產生這種反應的能力值。我們可以試著以 -3.0、-2.5、-2.0、2.5、3.0 等不同的程度值代入此概似函數(likelihood),看看何種程度值代入後會使此 L 函數值最大,則該值就是該受試者最有可能的能力值。 藉由這個數學模式與聯合機率的概念,我們就能根據受試者在各個題目上的答題反應來估計受試者的能力,或是題目的難易度,並且讓接受不同題目的受試者其能力可以互相比較,也就是進行測驗等化。 二、IRT 的特色 IRT 的特色大致可以從模式特性、試題參數特性、能力與分數量尺特性、測量精準度與應用等幾個層面來看:
三、IRT 的基本假設 IRT 有兩項重要的基本假設,資料必須符合這些假設才能具備上述各項優秀的測量特性。此兩項重要的假設是單向度(unidimensionality)與局部獨立性(local independency)。 單向度是指同一份測驗中的所有題目主要都是測量相同的某一項能力,或主要是受到單一特質所影響,其實這是大部分測驗的必備條件。例如,我們必須檢驗數學科測驗中的所有題目是否都是在測量數學能力,而不是測到了其他能力,這樣受試者的測驗分數才能代表他的數學程度。如果其中有些題目因為語彙表達太艱深或題意不清,使語文能力較差的受試者看不懂題目而答錯,就表示這份數學測驗不只測量到數學能力,還測量到語文能力,此時測驗分數就不能完全代表一個人的數學程度了。 局部獨立性則是指相同能力水準的受試者,在各個題目上的答對機率是互相獨立的。有一些測驗會使用同一組閱讀材料或圖片,稱為題組(testlet)。例如:英語或國文能力測驗中的閱讀測驗,受試者必須讀完這些閱讀材料後再回答若干試題。如果這篇閱讀材料是某些受試者事前閱讀過或特別熟悉的,則他們就比較容易答對這幾題;而那些具有相同能力卻對這類題材比較不熟悉的人,就比較容易答錯這幾題。因此,必須要確定這些閱讀材料不是某些群體所特別熟悉的,否則就會違反局部獨立性假定。所幸現在已經發展出題組反應模式(Testlet Response Theory, TRT)可以解決這種問題(Wainer, Bradlow & Du, 2000)。 整體而言,IRT 是屬於理論架構較嚴謹、應用層面較廣的測驗理論, IRT 所提出的諸多測量特性都較符合實際的測驗情況,但是由於其模式較複雜,不易讓人理解,計算過程也較繁瑣,因此尚未廣泛地被大眾所接受。不過隨著電腦科技的進步,進行 IRT 分析時所需要的計算已經都可以用電腦來執行,因此也已經漸漸被應用在一些著名的大型測驗中,例如國外的 TOEFL、GRE 測驗,以及國內的國中基本學力測驗等,相信未來 IRT 在測驗評量領域的普及率應該會愈來愈廣。 |