國中基本學力測驗量尺分數的說明(下)  國立臺南師範學院測驗統計研究所助理教授 涂柏原

  接下來,我們將介紹基本學力測驗的分數等化過程:

(1)由於幾乎所有的國三學生都參加了第一次國中基本學力測驗,第一次測驗的結果非常適合用來建立量尺分數。因此,根據前面所提到的原始分數轉換成量尺分數的方法,我們先將原始分數與量尺分數對照表算出來。如此,我們可以得到每一位考生的原始分數與量尺分數等資料。因為要用IRT 的方法來進行等化,所以我們得進一步用IRT 的方法來估算每一位考生的能力參數,根據全部考生的資料,經過綜合整理之後,我們可以得到下表的第二、三及四欄的資料,也就是答對題數、能力值與量尺分數的對照表。

(2)根據參加第二次學力測驗的考生在第二次測驗上面的作答資料,用IRT 的方法來估計考生的能力值。如此,每一位考生的答對題數原始分數與其能力估計值都可以被收集到,而將這些資料與從第一個步驟所得到的資料合併,我們可以得到如下的對照表範例。

(3)第二次國中基本學力測驗不再建立新的量尺分數,而是使用我們在上一個步驟所得到的表,來將考生在第二次學力測驗所得到的原始分數,對應到在第一次學力測驗時所建立的量尺分數。舉例而言,如果某一考生在第二次基本學力測驗某學科的原始分數為58 分,從下表我們可以得知他所對應的量尺分數為51,相當於在第一次基本學力測驗該科的原始分數為62。換言之,對該科來說,在第一次基本學力測驗原始分數為62 分的考生,與在第二次基本學力測驗原始分數得到58 分的考生,有相同的量尺分數51 分。

某科量尺分數對照表範例:

第二次答對題數
能力值
第一次答對題數
量尺分數
63--→
4.93
66
60
4.40
59
62--→
4.10
58
.071
65
57
61--→
3.35
56
2.99
64
55
60--→
2.77
54
2.56
63
53
59--→
2.40
52
58--→
2.25
62
51

  IRT 最為有力的地方,是同一個考生若在同一個時段考兩次試,即使作答不同的試題,所估計出來的兩個能力參數的值,理論上是一樣大小的。如果考完第一次之後隔了一些時日再考第二次,以至於兩次考試之間有成長(或進步)的現象存在,那麼根據第二次測驗的結果所估計得到的能力參數值,將會大於第一次測驗後所估計得到的。因為IRT 具備這樣的特性,因此透過用IRT 方法所進行的等化之後,我們有信心考生在第二次測驗所得到的量尺分數絕對是合理、公平、公正的;而且從兩次測驗所得到的量尺分數之間也是可以相互比較的。

  影響整個基本學力測驗等化程序的關鍵點,其實是在於各個題目的試題參數(item parameter)是否被精確地估計出來。因為這裡所說明的等化方法在某個程度之下,其原理與目前常見的電腦化適性測驗(computerized adaptive testing, CAT,如TOEFL、GRE 以及美國的護士執照考試等)原理是一樣的,是在試題參數已知的情形下估計考生的能力參數(ability parameter)(註:在IRT 中,每一個試題會有幾個試題參數來描述該題的特性,而也有一個能力參數來描述考生的能力)。目前國中基本學力測驗每一道試題皆經過至少240 至320 位不同地區的國三學生「預試」過,截至目前為止,參與過預試的國三學生已超過數萬人,涵蓋全國各縣市的國民中學。以此大規模的預試工作所得的答題反應資料,可以用IRT來估計出每一個題目的試題參數(難度、鑑別度y)等。經過實際驗證,九十年預試所得的題目難度與該年度第一次測驗三十萬人的資料,算出來的題目難度相當接近。即使如此,學力小組仍然依據從三十萬人的資料所得到的試題參數,來將題庫中每一個題目的試題參數加以校正。

  根據國中基本學力測驗的精神,測驗試題的取向是能力導向,不偏重記憶,且兩次測驗的範圍差異不大,各科測驗的難度分配相近,在學生能力沒有突然進步的情況下,學生在兩次測驗上的分數應當並不會改變太多。不過如果學生真的有進步,在等化的過程中,一定會反映出來,第二次會得到較高的量尺分數。

柒、相關的議題

  在九十一年第一次基本學力測驗的結果公布之後,引起比較多的關心或討論的,可能是社會科答錯一題而量尺分數仍然是60 分(滿分)這一件事。在探討這種情形是否合理之前,最好讓我們將視線移到本文的第貳節去(見飛揚第十七期第九頁)。我們曾經一起分享了古典測驗理論的一些看法,認為觀察到的原始分數是由真分數與誤差分數兩個部分所組成的(亦即,X=T+E)。我們也提到了在測驗理論中,學者傾向於認為外表所觀察到的分數未必是考生真正的能力反映,這個觀察到的分數一定受了某些因素的影響,以至於有「誤差分數」的存在;因此,我們所關心的就是考生的真分數。這也是這次社會科量尺分數所引起關切的重點。

  就如同前面曾經提到的,在編製測驗題的過程中,想要得到兩個在統計特徵以及題目內容一模一樣、但題目不同的測驗題本,是一件非常不容易的事情。因此今年第一次基本學力測驗社會科的題目難易度與去年相較,似乎就比較難一點點。然而,就如同前一段所提到的,因為我們關心的是真實分數的部分,所以將原始分數轉換成量尺分數的用意之一,也是希望經過轉換後的量尺分數能夠代表考生的真實能力。若考生的能力真的不低,因為題目的難度稍微高了一點點,以至於考生無法達對全部題目的話,我們從答對題數的原始分數推估其真正能力時,理論上我們還是得給考生一個公平的待遇。這也是為什麼在ACT 等知名測驗在遇到類似情境時,同樣會給答錯一題的考生滿分的量尺分數。

  另外,關於量尺分數還有一個重要的觀念值得我們放在心上:底下這個統計學上的範例修改自林清山的統計學教科書,在原來的例子中,最後加總的是用分數(z=(X-)/SD),我們進一步用公式來將分數轉換一下:

採用原始分數與採用標準分數導致不同結果

原始分數( X )
標準分數( S=10 X z + 50 )
甲生
乙生
SD
甲生
乙生
-------------------------------------------------------------------------------------------------
-------------------------------------
國文
71
80
62
9
50.0
70.0
英文
34
24
38
7
44.3
30.0
數學
39
26
25
5
78.0
48.0
歷史
72
64
60
8
65.0
45.0
地理
61
91
71
10
40.0
70.0
-------------------------------------------------------------------------------------------------
-------------------------------------
總分
277
285
   
277.3
263.0

  若我們用各科原始分數的總分來看,甲生的分數(277)比乙生的分數(285)低了8分,所以若要用原始分數的總分來選才的話,似乎乙生是個合適的人選。然而,如果我們將各科的分數先行標準化(即換算成z 分數),然後轉換為標準分數(S=10×z+50),之後再將五個科目的標準分數加起來得到一個總分來比較的話,我們卻得到相反的結果,此時甲生的分數為277.3,而乙生的分數為263,如果要從中挑出一個人來,似乎甲生就變成了我們的選擇了。

  這個例子不是用來說明哪一種方法比較好,因為如果用原始分數的總分,等於是給考生一個截長補短的機會,某一科的分數低了一點點,沒關係,可以用其他科目的分數來彌補。而用標準分數的話,則是要考生在每一個科目上都要與其他人比一比,必須每一個科目都要比其他人「好一點點」,總分的部分才可能出人頭地。這裡我們將「好一點點」四個字用引號括起來,是要強調並不是真的必須各科都很強才行,從上面的資料我們也可以看到其實甲生並不是每一科都非常好的。

  上面例子中的原始分數與標準分數的對照,其實可以想像成基本學力測驗的原始分數與量尺分數。也可以幫助我們思考:「若一個考生每個科目都錯一題所得到的量尺分數總分,與一個四科全對但是某一科錯了五題的考生之量尺分數總分,可能會不同」的事實。基本上,基本學力測驗的量尺分數,就是將考生各科的分數先在各科之內與其他考生比較之後得到的;因此,當在各科之內比較之後,兩個人在各個科目上面的量尺分數都不相同,自然量尺分數總分就可能是不同的。筆者要再一次強調的是,這個例子只想指出一個事實─「量尺分數的建立是在各科之內產生的」,因此不能以全部各科答錯的總題數相同,就要求有相同的量尺分數總分,因為分數不是這樣得來的。

參考文獻

  • 林清山(2001),心理與教育統計學。東華書局。
  • 涂柏原,陳柏熹,章舜雯,林世華(2000)。基本學力分數的建立。國中基本學力測驗推動工作委員會。(未出版)
  • 涂柏原、章舜雯(2000)。國中學生基本學力測驗的分數及相關議題,教師天地,109 期,9- 17 頁,台北市教師研習中心。
  • 陳柏熹、涂柏原、章舜雯、林世華(2000)。國中基本學力測驗分數的意義與使用。未出版。
  • ACT. (1997). ACT assessment technical manual. Iowa City, IA: ACT, Inc.
  • Brennan, R. L., & Kolen, M. J. (1989). Scaling the ACT assessment and P-ACT+: Rationale and goals. In R. L. Brennan (Ed.), Methodology used in scaling the ACT Assessment and P-ACT+ (pp. 1-17). Iowa City, IA: ACT, Inc.
  • Kolen, M. J., & Hanson, B. A. (1989). Scaling the ACT Assessment. In R. L. Brennan (Ed.), Methodology used in scaling the ACT Assessment and P-ACT+ (pp. 35-55). Iowa City, IA: ACT, Inc.
  • Kolen, M. J., Hanson, B. A., & Brennan, R. L. (1992). Conditional standard errors of measurement for scale scores. Journal of Educational Measurement, 29, 285-307.