今年六月,在台北市教育網路中心「九十年度高中職、五專多元入學方案宣導手冊」上面,可以找到「答客問」的資料,筆者將其中與本文關聯性較高的兩個題目複製到底下。
問題五、國民中學學生基本學力測驗的題型是什麼?如何計分?
答:
(一)題型是四選一的單選測驗題,答錯不倒扣。 (二)本測驗的計分方式與過去聯考不同,是一種標準化測驗,因此各科的測驗結果是以「量尺分數」表示。量尺分數是透過統計方法,由原始分數轉換而來,其目的係為呈現每一位考生的每一考科,在所有考生中的高低位置,以劃分初步不同的能力級別。每科量尺分數為1-60分(即均分為六十個能力等級:分數越高,代表該科能力越好)。量尺總分為五科量尺分數相加之總和,最高分為300分。 |
問題七、國中基本學力測驗的分數有什麼用途?在分數使用上,有什麼特殊規定?
答:
(一)本測驗分數之用途:可提供多元入學方案中各入學方式採用。例如甄選入學、申請入學、登記分發入學等。有關各校多元入學辦法及分數使用的特殊規定(如單科加權計分),請見各招生區及各校申請入學、甄選入學、登記分發入學之簡章規定。(二)本測驗使用規定:參加兩次測驗者,必須選擇其中一次測驗分數「完整使用」,不得挑選不同次別測驗中之單科學科分數搭配使用。本測驗一年舉辦兩次,測驗分數限當年有效。 |
這兩個問題給了我們關於國中基本學力測驗(以下簡稱為基本學力測驗),一切我們所需要的資料。在第五個問題的答案中,我們看到了學力測驗的分數是採用與過去完全不同的量尺分數。量尺分數的產生是透過統計方法,由答對題數的原始分數轉換而來,其目的係為呈現每一位考生的每一考科,在所有考生中的高低位置,以劃分初步不同的能力級別。每科量尺分數為1-60分,從某個角度看,我們可以將此想像成為一個六十個能力等級的級分,分數越高,代表該科能力越好。五個考科的量尺分數相加之總和,最高分為300分,是為量尺分數總分。
在問題七的回答中,我們可以看到學力測驗分數的用途:可提供多元入學方案中各入學方式採用,例如甄選入學、申請入學、登記分發入學等。我們也看到了學力測驗比起過去聯考的最大優勢,亦即考生可以有二次的機會來參加學力測驗,然後選擇其中她(他)比較滿意的那一次測驗分數「完整使用」,作為入學之用。
雖然上述答客問的內容對一般的考生或家長來說已經足夠了,一些比較技術性的問題其實對考生或是家長來說,並不是非常重要。然而,為了能讓社會大眾對基本學力測驗的量尺分數有更清楚的了解,學力測驗小組特別準備了這一份文件。過去基本學力測驗小組曾經準備過一些關於基本學力測驗與量尺分數的文章,包括放在網頁上的與在「飛揚」上面的﹔這份文件基本上是將過去的文章綜合整理而得到的。
在測驗理論中,古典測驗理論(classical testing theory, CTT)認為原始分數(或稱為觀察分數)是由真分數(true
score)與誤差分數(error score)兩個部分所組成的。也就是說,若原始分數為X ,真分數為T,而誤差分數為E,則X=T+E。在過去國內的各項考試所報導的分數,無論其加權與否,都是原始分數X,。而從20世紀初期在美國開始發展的測驗理論中,傾向於認為外表所觀察到的分數未必是考生真正的能力所反映出來的,這個觀察到的分數一定受到了某些因素的影響,以至於有「誤差分數」的存在﹔因此,從古典測驗的萌芽起,測驗學者所關心的就是在真分數T。於是,學者們一直努力的重心之一是要找出一些方法,幫助人們能從考生的原始分數X推估考生真正的能力或是真分數T。
古典測驗理論認為誤差分數是我們所觀察到分數的一部分,因此原始分數不是考生的真正能力表現,所以才想盡辦法從觀察到的原始分數來推估考生的真正能力﹔也因為如此,一些思維方式就被帶進測驗實務中。比如,因為誤差的關係,同一份試卷若給同一個人作答數次的話,每一次的原始分數都不一定會相同(假定考生的得分不會因為練習而有所改變的話),因此允許考生有超過一次以上的施測機會,讓他或她從中選出比較能夠代表其真正能力的那一次的測驗分數,就成了一般大家所認可且比較公平的做法。為了有別於原始分數,以及能讓考生從不同次考試的得分能夠相互比較,量尺分數(scale
score)的概念與做法也就被發展出來。也就是說,考生所得到的原始分數被轉換到一個新的分數(也就是量尺分數),然後這個新的轉換後的量尺分數才被用來進行各種決定─如是否被錄取進入某校、是否為資優生等。
當然,因為每一個考生可能參加考試的次數都不只一次,此時還面臨到的問題是不同考試之分數間如何做公平性的比較。為了解決此問題,測驗學者就用「等化」(equating)這個統計技術來處理,使得不同次考試所得到的量尺分數,可以視為是從同一份考卷上得到的,因此可以一起使用或進行比較。
因為基本學力測驗從一開始發展時就希望能夠滿足考生能有多次考試,並從其中選擇較令他或她滿意的那一次分數,以作為升學的用途﹔因此,量尺分數的計算與等化也就變成了基本學力測驗的目標之一。考生在學力測驗各科的答對題數(也就是原始分數)將被轉換成1~60分的分數,這個分數即是量尺分數,我們可稱之為『基本學力分數』。而分數的轉換方式,則是依照專家學者針對基本學力測驗所進行之研究結果所建立的公式來進行的。
一般測驗機構所採用的量尺分數根據其產生的方式,大概可以分為兩種:(1)將原始分數常態轉換後所得(normalizing
raw scores)之量尺分數。例如美國教育測驗服務社(ETS)的GRE或TOEFL測驗分數,就是將原始分數常態化轉換後的量尺分數。智力測驗中的比西量表分數(Stanford-Binet
Intelligence Scale)及魏氏兒童智力量表分數(Wechsler Intelligence Scale for Children-Revised
Form; WISC-R)等也是一種將原始分數常態化轉換後的量尺分數。(2)均等測量標準誤(equalizing measurement
error variability)之量尺分數。這是E. L. Lindquist 在發展「愛荷華教育發展測驗」(Iowa Tests
of Educational Development, ITED)時所提出來建立量尺分數的方法,也是美國知名測驗機構ACT公司的ACT
Assessment Test (ACT, 1997) 所採用的量尺分數型態。基本上,這是在原始分數轉換成量尺分數的同時,利用數學的方法將每一個量尺分數點上的測量標準誤(或稱測量誤差)調整成相等或是非常接近(Kolen
& Hanson, 1989; Kolen, Hanson, & Brennan, 1992)。在測驗上通常見到的是,對於在兩個極端的考生(即能力較高或較低的考生)而言,測驗分數的誤差會比在一般中等能力考生的測驗分數的誤差還要大﹔換言之,當誤差較大時,測驗信度比較低,測量結果也比較不穩定、不可靠。當不同量尺分數有不同大小的測量誤差時,除了前述的問題外,還會增加解釋測驗分數時的複雜程度,原因是這時候還要準備一個列有各個量尺分數測量誤差的表格,而且不同考生分數之信賴區間的大小亦將有所不同(Kolen,
Hanson, & Brennan, 1992)。
如果採用均等測量標準誤的量尺分數,不同能力考生所得分數的精確程度將會類似,不至於有高能力或低能力的考生的測量誤差比能力中等的考生測量誤差來得大的情形。而因為在各分數點上的測量誤差均等或非常近似,也使得在測驗上常見的分數帶解釋方式的運用變得容易。因此,基本學力測驗採用這種均等測量標準誤的量尺分數。根據Truman
L. Kelley 的建議(引自Brennan & Kolen, 1989),建立量尺分數時應有「使考生分數之68%的信賴區間大約由量尺分數加減3分所形成」的這個特性,亦即測量標準誤為3分。也可以說,考生的真實量尺分數有68%的機率,會落在其實得量尺分數上下3分的範圍之(這個就是所謂的分數帶)。
我們保守的估計,基本學力測驗的信度係數至少應在0.85或以上,又假定測量標準誤差為3分,根據測量標準誤與信度關係的公式

帶入上述的值

結果,我們可以計算得到標準差(SD)為 7.75。以常態分配的概念來看,平均數上下四個標準差的範圍幾乎涵蓋所有考生的能力,那麼根據Truman
Kelley 的法則,量尺分數尺度上可以有62個分數點(7.75 x 8 = 62)。實際上是不必用到四個標準差,只要3點多個標準差即足以將所有的能力範圍(99.97%以上)包含在內﹔因此基本學力測驗的量尺分數就截頭去尾的將分數定為1~60,平均數為30。
雖然今年已是第二年採用基本學力測驗了,相信仍有許多人會問「為何不用1~100 分呢?」或者是「為何不用像SAT 或者是
GRE 的平均數為 500 而標準差 100 的量尺分數?」如果量尺分數是1~100 分的情形,那麼平均數為 50分,而平均數上下各4個標準差可涵蓋所有的分數點,於是我們可以得到標準差是12.5
﹔帶入上述的公式,可以得到測量標準誤為4.84。如此,考生的68%信賴區間(或分數帶)就變成其量尺分數加減 4.84分。同樣的,如果用SAT或GRE的量尺(亦即平均數為
500,標準差 100),測量標準誤則變成 38.73 ﹔也就是說,考生的量尺分數加減 38.73分就變成了該考生的分數帶或 68%
信賴區間。
由心理測驗所常使用的分數帶與統計學上「顯著差異」的觀念來看,在同樣大小的信度係數之下,我們可了解到當分數量尺放大時,測量標準誤也跟著變大,兩個考生分數之間的差異也要跟著變大才可能達到顯著的差異。也就是說,如果測驗的信度係數維持在0.85,兩個考生的分數若相差一個測量標準誤的大小,當用1~60分的量尺時,兩個考生的分數是相差3分,用1~100分的量尺時,兩個人的分數是相差5(或4.84)分,而用200~800(SAT及GRE只用平均數上下加減3個標準差)分的量尺時,則是相差39(或38.73)分。
從這裡我們可以看到一點,當分數的範圍(或全距)拉大時,標準差與測量標準誤也會跟著放大,即使可用的量尺分數點可能會增加,但實際上並沒有增加多少意義。比如說,以SAT的量尺分數為例,若甲生的得分為500分,其分數帶是461~539,如果乙生得到510分,我們不可過度強調乙比甲好,因為兩人分數的差距比一個標準誤都還要小。也因此,當ETS在建立SAT的量尺分數時,有許多分數點都沒有用到,TOEFL測驗的情形也相同,我們常聽到某些人TOEFL的分數是547、550或587等,但卻沒有聽說過548、551、或581等等的分數。以基本學力測驗的1~60分來說,若某科目的試題題數少於60的話,部分的分數點也可能不會被用到。
當測量誤差的概念納入考慮時,1~60分與1~100分或是SAT的量尺基本上所能提供的訊息基本上是相同的。不用1~100
分的另一個原因是現行的學校各項考試之計分均用滿分100分而60分及格的分數體系,如果基本學力分數也用1~100分的方式,很可能造成與現行的系統相混淆。
因篇幅關係,在下期將為您說明原始分數如何轉換成量尺分數、分數等化的過程及其他相關議題。
|