國中基本學力測驗量尺分數的說明(中)  國立臺南師範學院測驗統計研究所助理教授 涂柏原

伍、 原始分數如何轉換成量尺分數

  前面我們曾提到量尺分數的類型有ETS或ACT所使用的那兩種類型,然而實際上要建立量尺時,得考慮是要將觀察得到的原始分數加以轉換,或是以根據試題反應理論(item response theory, IRT)所估算出的能力參數的值來進行轉換。若要以後面的方式來進行,則我們必須以IRT的方法來進行整個試卷編製與計分的工作。如果要以原始分數來進行轉換,則可以使用IRT(請參閱Kolen, Zeng, & Hanson, 1996)或是用Lord(1965)所提出的強真分數模式(strong true score model)來達成目的。

  假定一個測驗有K個試題,如果答對的題目得到1分,答錯是0分的話,一個考生的原始分數(raw score)是這K個二元計分(dichotomously scored)試題得分的和。假定X代表原始分數,那麼在一個母群體X的值等於i(i=0﹐1﹐....,K )的機率函數是

Pr(X=i)=∫ Pr(X= i︱τ)g(τ)dτ, (1)

  其中τ是母群的答對率真分數(proportion-correct true score),其機率密度函數為g(τ),而Pr(X= i︱τ)則是以真分數為τ的考生所形成的原始分數之條件分配(conditional distribution)。這個機率函數也可以用下式表示

Pr(X=i)=∫ Pr(X= i︱θ)ψ(θ)dθ, (2)

  其中θ是母群的能力參數(ability parameter),其機率密度函數為ψ(θ),而 Pr(X= i︱θ)則是以能力為θ的考生所形成的原始分數之條件分配。

  如果我們選擇用公式(1)的話,那麼g(τ)與Pr(X= i︱τ)的分配可依照強真分數模式(strong true score model)來加以估計;如果我們選擇用公式(2)的話,ψ(θ)與Pr(X= i︱θ)的機率函數則可利用試題反應理論(IRT)的模式來加以估計。不可忘記的是,在這裡無論使用的方法為何,被轉換成為量尺分數的是原始分數。基本學力測驗的分數是利用強真分數模式的方法來將考生答題的原始分數轉換成1~60分的量尺分數,也就是採用公式(1)模式的做法。

  無論是用公式(1)或公式(2),我們想知道的是原始分數的分配機率模式,基本上這是未知的,雖然在考生考完之後我們便有實得分數的資料,但是我們仍相信這個觀察得到的分數分配可能只是其實際的分配的樣本或觀察值之一,雖然樣本的人數可能已經和母群體的人數相當。以公式(1)來說,根據統計的原理,我們可以從等號右邊的那兩個機率分配來著手:一個是答對率真分數(τ)的分配,而另一個是給定某一個τ的值時,原始分數的條件分配;前者是g(τ),後者為Pr(X= i︱τ)。根據過去數十年來的研究結果,測驗界的專家學者大多接受Keats與Lord (1962)及Lord (1965, 1969)所提出的強真分數模式(strong true score models);也就是母群的答對率真分數的分配g(τ)是服從四參數的beta分配,而以真分數為τ的考生所形成的原始分數之條件分配Pr(X= i︱τ),則為複合二項誤差模式(compound binomial error model)。因此強真分數模式就被許多學者稱為four-parameter beta compound binomial model,或是直接叫做beta-binomial model。

  要使用這個方法來將原始分數轉換成量尺分數,首先我們得估計beta-binomial模式中的參數。參數估計的方法,可依據Lord(1965)或Hanson (1991)所提供的方法,然而Lord與Hanson所用的方法可說是十分複雜,所以Carlin與Rubin(1991)提出了廣義的(extended)beta-binomial分配以簡化整個模式的估計。劉長萱(1999)在為大考中心作專題研究時,曾應用Carlin與Rubin的方法來進行參數的估計。

  為了解決條件測量標準誤不等的問題,Kolen(1988)提出一個建立分數量尺的方法,該方法能使條件的測量標準誤在整個分數量尺上幾乎是固定不變的。這個恆常固定的條件標準誤的特性,使得我們不管是在那個分數水準,都可以用單一的測量標準誤。Kolen(1988)所提出的方法是利用Freeman和Tukey (1950)所描述的正弦反函數轉換(arcsine transformation) 來穩定(stabilize)誤差變異數。這個轉換的型式是

               (3)

  其中sin-1是正弦反函數。這個轉換能將靠近中間的量尺加以壓縮(compressing),並將兩端的量尺拉長開來(stretching)。假設原始分數的分配已經用四參數beta-binomial模式估計而得到,為了要得到具有等測量標準誤這個特性的量尺分數,首先我們得先將原始分數用公式(3)加以轉換以得到c(i),(i=1﹐2, ....﹐K),然後將c(i)、Pr(X=i)、g(τ)及Pr(X=i|τ)之估計數代入公式來求量尺分數的平均數與變異數、量尺分數的條件平均數與變異數,然後再求得考生的平均量尺分數誤差變異數以及量尺分數的信度係數等。到這個步驟為止,所算出來的量尺分數以及其平均數或變異數等,並不在我們所想要的1~60分這個量尺上,因此我們可用下面的公式來轉換:

          (4)

  其中μs*及σs*分別是我們想要有的平均數(例如30)及測量標準誤(例如7.75)。以基本學力分數來說,s*即是我們最後想要得到的量尺分數。一些相關的細節請參閱Kolen、 Hanson與Brennan (1992)。

  由上面的說明,我們可以發現一個事實,那就是分數轉換公式的確定,必須等到考生作答的資料收集到手之後,這也說明了九十一年的基本學力測驗分數的轉換公式可能與九十年所用的會有些許的不同,這是因為考生的組成不同且試題難易度一樣,考生所得到的原始分數的分配未必一樣,因此最後所得到的轉換公式也許會不相同。

陸、 兩次分數的等化問題

  因為基本學力測驗的結果可用來「申請入學」或「甄選入學」用,可能全部的考生都會報名參加每個年度第一次的基本學力測驗;相對的,對已有理想的學校可就讀的考生來說,可能他們就不會再報名第二次的測驗,因此參加第二次測驗的人數會比參加第一次測驗的人數少,且少掉的可能是能力較高以及能力較低的人,因此第一次測驗的結果是非常適合用來建立分數轉換公式的。而參加第二次測驗的考生之結果,可以經過等化的程序轉換到與第一次有相同的量尺基礎後,再透過分數轉換公式將原始分數轉換成1~60的量尺分數。

  很可能的,同一個考生即使在參加兩次測驗時的情緒、體力或健康情形等都是一樣,也會在兩次的測驗中得到不同的分數。雖然我們不能不考慮到該考生因努力而進步,可能在第二次測驗上有較高的原始分數,但是另一種可能性是第二次測驗的題目較難,以至於同一個考生的原始分數會比第一次的低。因為這樣,我們需要進行「等化」(equating)的程序來使在兩次所得到的分數得以相互比較。

  許多人十分關心第一次測驗所得到的量尺分數與第二次的量尺分數如何轉換?而且也關心因為兩次參加測驗的人數不同,其轉換的基準是否公平?尤其是沒有參加第二次基本學力測驗的通常是那些程度比較好的,且可能已經有不錯的學校可以就讀的考生。因此他們擔心是不是參加第二次測驗的考生會因普遍考生的程度比較差,得到的原始分數比較低,以致於換算成量尺分數時會有一些優勢─「低原始分數對應到高的量尺分數」?

  在回答上述問題之前,可能得先了解一下什麼是「等化」(equating)?測驗學者主張要進行等化的原因在於在編製測驗題本時,即使負責的人非常小心、賣力,該注意到的都注意了,兩個所謂的「平行測驗」或「複本測驗」的題本之難易度也未必完全相同,只要曾出過考試題目的人都知道這個困難。因此,即使我們希望同一個年度兩次基本學力測驗題本的難易度要完全相同,事實上要做到是不太可能的,我們只能儘可能的做到。因此,為了使兩次國中基本學力測驗的分數能互相比較,不失去公平性,我們就得借助於一些統計的方法。

  透過等化,我們可以找出一個數學公式,只要將第二次測驗的分數代入公式,就可換算得到一個新的分數,而這個新的分數的立足點將與第一次的基本學力測驗的分數完全相同。換個角度看,第一次基本學力測驗分數與第二次的分數之間的關係,就很像溫度中的攝氏與華氏兩種不同單位一樣,但是透過公式轉換,他們就可以在相同的立足點上互相比較了。分數等化並不會改變學生的能力,如果學生在第二次測驗中能力真的進步了,其等化後的分數依然會反映出進步的趨勢。

  為了解決上面所提到的問題,也就是參加第二次學力測驗的人是否會因為原始分數轉換成量尺分數的公式,或是因為等化的程序的關係,而佔了優勢─「低原始分數,但得到較高的量尺分數」的問題,目前最為流行的測驗理論─試題反應理論(item response theory, IRT)可以幫助我們完成等化的工作,且不會使上面的問題產生。
  
  下一期我們將介紹基本學力測驗分數的等化過程。