| 國中基本學力測驗量尺分數的說明(下) 國立臺南師範學院測驗統計研究所助理教授 涂柏原 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
接下來,我們將介紹基本學力測驗的分數等化過程: (1)由於幾乎所有的國三學生都參加了第一次國中基本學力測驗,第一次測驗的結果非常適合用來建立量尺分數。因此,根據前面所提到的原始分數轉換成量尺分數的方法,我們先將原始分數與量尺分數對照表算出來。如此,我們可以得到每一位考生的原始分數與量尺分數等資料。因為要用IRT 的方法來進行等化,所以我們得進一步用IRT 的方法來估算每一位考生的能力參數,根據全部考生的資料,經過綜合整理之後,我們可以得到下表的第二、三及四欄的資料,也就是答對題數、能力值與量尺分數的對照表。 (2)根據參加第二次學力測驗的考生在第二次測驗上面的作答資料,用IRT 的方法來估計考生的能力值。如此,每一位考生的答對題數原始分數與其能力估計值都可以被收集到,而將這些資料與從第一個步驟所得到的資料合併,我們可以得到如下的對照表範例。 (3)第二次國中基本學力測驗不再建立新的量尺分數,而是使用我們在上一個步驟所得到的表,來將考生在第二次學力測驗所得到的原始分數,對應到在第一次學力測驗時所建立的量尺分數。舉例而言,如果某一考生在第二次基本學力測驗某學科的原始分數為58 分,從下表我們可以得知他所對應的量尺分數為51,相當於在第一次基本學力測驗該科的原始分數為62。換言之,對該科來說,在第一次基本學力測驗原始分數為62 分的考生,與在第二次基本學力測驗原始分數得到58 分的考生,有相同的量尺分數51 分。 某科量尺分數對照表範例:
IRT 最為有力的地方,是同一個考生若在同一個時段考兩次試,即使作答不同的試題,所估計出來的兩個能力參數的值,理論上是一樣大小的。如果考完第一次之後隔了一些時日再考第二次,以至於兩次考試之間有成長(或進步)的現象存在,那麼根據第二次測驗的結果所估計得到的能力參數值,將會大於第一次測驗後所估計得到的。因為IRT 具備這樣的特性,因此透過用IRT 方法所進行的等化之後,我們有信心考生在第二次測驗所得到的量尺分數絕對是合理、公平、公正的;而且從兩次測驗所得到的量尺分數之間也是可以相互比較的。 影響整個基本學力測驗等化程序的關鍵點,其實是在於各個題目的試題參數(item parameter)是否被精確地估計出來。因為這裡所說明的等化方法在某個程度之下,其原理與目前常見的電腦化適性測驗(computerized adaptive testing, CAT,如TOEFL、GRE 以及美國的護士執照考試等)原理是一樣的,是在試題參數已知的情形下估計考生的能力參數(ability parameter)(註:在IRT 中,每一個試題會有幾個試題參數來描述該題的特性,而也有一個能力參數來描述考生的能力)。目前國中基本學力測驗每一道試題皆經過至少240 至320 位不同地區的國三學生「預試」過,截至目前為止,參與過預試的國三學生已超過數萬人,涵蓋全國各縣市的國民中學。以此大規模的預試工作所得的答題反應資料,可以用IRT來估計出每一個題目的試題參數(難度、鑑別度y)等。經過實際驗證,九十年預試所得的題目難度與該年度第一次測驗三十萬人的資料,算出來的題目難度相當接近。即使如此,學力小組仍然依據從三十萬人的資料所得到的試題參數,來將題庫中每一個題目的試題參數加以校正。 根據國中基本學力測驗的精神,測驗試題的取向是能力導向,不偏重記憶,且兩次測驗的範圍差異不大,各科測驗的難度分配相近,在學生能力沒有突然進步的情況下,學生在兩次測驗上的分數應當並不會改變太多。不過如果學生真的有進步,在等化的過程中,一定會反映出來,第二次會得到較高的量尺分數。 柒、相關的議題 在九十一年第一次基本學力測驗的結果公布之後,引起比較多的關心或討論的,可能是社會科答錯一題而量尺分數仍然是60 分(滿分)這一件事。在探討這種情形是否合理之前,最好讓我們將視線移到本文的第貳節去(見飛揚第十七期第九頁)。我們曾經一起分享了古典測驗理論的一些看法,認為觀察到的原始分數是由真分數與誤差分數兩個部分所組成的(亦即,X=T+E)。我們也提到了在測驗理論中,學者傾向於認為外表所觀察到的分數未必是考生真正的能力反映,這個觀察到的分數一定受了某些因素的影響,以至於有「誤差分數」的存在;因此,我們所關心的就是考生的真分數。這也是這次社會科量尺分數所引起關切的重點。 就如同前面曾經提到的,在編製測驗題的過程中,想要得到兩個在統計特徵以及題目內容一模一樣、但題目不同的測驗題本,是一件非常不容易的事情。因此今年第一次基本學力測驗社會科的題目難易度與去年相較,似乎就比較難一點點。然而,就如同前一段所提到的,因為我們關心的是真實分數的部分,所以將原始分數轉換成量尺分數的用意之一,也是希望經過轉換後的量尺分數能夠代表考生的真實能力。若考生的能力真的不低,因為題目的難度稍微高了一點點,以至於考生無法達對全部題目的話,我們從答對題數的原始分數推估其真正能力時,理論上我們還是得給考生一個公平的待遇。這也是為什麼在ACT 等知名測驗在遇到類似情境時,同樣會給答錯一題的考生滿分的量尺分數。 另外,關於量尺分數還有一個重要的觀念值得我們放在心上:底下這個統計學上的範例修改自林清山的統計學教科書,在原來的例子中,最後加總的是用分數(z=(X- 採用原始分數與採用標準分數導致不同結果
若我們用各科原始分數的總分來看,甲生的分數(277)比乙生的分數(285)低了8分,所以若要用原始分數的總分來選才的話,似乎乙生是個合適的人選。然而,如果我們將各科的分數先行標準化(即換算成z 分數),然後轉換為標準分數(S=10×z+50),之後再將五個科目的標準分數加起來得到一個總分來比較的話,我們卻得到相反的結果,此時甲生的分數為277.3,而乙生的分數為263,如果要從中挑出一個人來,似乎甲生就變成了我們的選擇了。 這個例子不是用來說明哪一種方法比較好,因為如果用原始分數的總分,等於是給考生一個截長補短的機會,某一科的分數低了一點點,沒關係,可以用其他科目的分數來彌補。而用標準分數的話,則是要考生在每一個科目上都要與其他人比一比,必須每一個科目都要比其他人「好一點點」,總分的部分才可能出人頭地。這裡我們將「好一點點」四個字用引號括起來,是要強調並不是真的必須各科都很強才行,從上面的資料我們也可以看到其實甲生並不是每一科都非常好的。 上面例子中的原始分數與標準分數的對照,其實可以想像成基本學力測驗的原始分數與量尺分數。也可以幫助我們思考:「若一個考生每個科目都錯一題所得到的量尺分數總分,與一個四科全對但是某一科錯了五題的考生之量尺分數總分,可能會不同」的事實。基本上,基本學力測驗的量尺分數,就是將考生各科的分數先在各科之內與其他考生比較之後得到的;因此,當在各科之內比較之後,兩個人在各個科目上面的量尺分數都不相同,自然量尺分數總分就可能是不同的。筆者要再一次強調的是,這個例子只想指出一個事實─「量尺分數的建立是在各科之內產生的」,因此不能以全部各科答錯的總題數相同,就要求有相同的量尺分數總分,因為分數不是這樣得來的。 參考文獻
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||