臺灣師大心測中心對「國中基測量尺和等化程序」之說明暨相關疑義的回應  下載檔案

  臺灣師大心測中心自民國87年承接教育部委託「國民中學學生基本學力測驗」(以下簡稱國中基測)規畫和實施專案以來,即以兢兢業業的態度和專業的能力執行是項委託。自 90 年首次國中基測舉辦迄今已有7年頭,社會各界雖有批評和指正,然而對心測中心同仁的努力多給予肯定和支持,在此致上最誠摯的謝意。日前因中研院統計科學所林妙香研究員發表「國中基測量尺及等化程序缺失」一文,引發社會大眾對基測量尺分數諸多疑問和不安,對心測中心亦造成相當的困擾。今以此文說明「國中基測量尺及等化程序」等相關課題,以釐清社會大眾相關的疑問,並請繼續給予心測中心支持和鼓勵。

Q1. 國中基測為什麼不沿用聯考的計分方式,改用量尺分數計分?
A1. 為避免社會大眾長久來對聯考「一試定終身」的詬病,國中基測一年舉辦兩次。國外一年多試的入學測驗 (如SAT、ACT、GRE )均採用量尺分數,並透過測驗等化的程序,使考不同測驗版本之考生分數可以直接和公平的比較。國中基測採用量尺分數的理由,在於使兩次測驗分數可以直接和公平的比較,傳統聯考的計分方式,無法達到這個目的。

Q2. 國中基測各科量尺分數為什麼都設定在1-60分?
A2. 過去高中聯考國文科滿分是 200分,數學科是120分,英語科是100分,自然科和社會科都是140分,各科的相對重要程度不盡相同。又如大學聯考的指定科目考試,每科滿分都是 100 分,但難易度不同,例如甲科目平均數是30,乙科目平均數是55,張生在甲科目考了40分,乙科目考了50分,我們可以看出張生乙科目分數雖然比較高,可是他在甲科目的相對表現卻比乙科目好。為了使各科目的重要性一樣,且分數能真正反映考生的表現,心測中心把各科分數都設定為平均數為30且範圍在1-60分之間的量尺分數。美國的大學入學測驗SAT,把分數設定在 200 -800,另一大學入學測驗ACT,則設定在 1-36。心測中心因考量到各科題數不同,最少是數學科約30多題,最多是社會科約60多題,為避免題數少的數學科產生過多量尺分數空著的現象,也就是實際上並沒有人有該量尺分數,所以經專業判斷後,將基測各科量尺分數設定在1-60分。

Q3. 國中基測量尺分數是如何計算來的?
A3. 量尺分數是透過統計方法,由答對題數轉換而來,基測的量尺分數每科都設定在 1-60分,分數愈高,代表該科能力愈好。心測中心計算量尺分數的過程見圖一。由於基測試題難度設定在中等偏易的水準,沒有足夠的試題估計高能力考生群的能力值,因此高分一端考生的測量誤差比較大,原始分數轉換量尺分數過程中,全對和錯一題的考生的差異會出現誇大的現象,所以心測中心在計算考生量尺分數時,必須滿足「全對和錯一題者之分數差距是合理的」和「量尺分數涵蓋1-60分的範圍」兩個條件為標的。

圖一 心測中心計算量尺分數作業流程圖

  從圖一可看出,計分系統首先根據全體考生的表現建議一個量尺分數的標準差值,若實際計分結果無法滿足前述兩個條件,例如:全對者的量尺分數只能到59.37分,這時心測中心會判斷並調整標準差,此過程將循環到設定條件滿足為止。這時,所得到的是尚未整數化的量尺分數,接下來,把未整數化的分數轉成整數分數,如果分數介於1分到60分之間,就四捨五入取整數,當最高分超過60分,就裁截成60分;不足1分的,則設定成1分。到此,整個單科的計分流程完成,達到心測中心量尺計分所設定的標的。以91年國文科為例,50題全對的未整數化量尺分數為61.05,裁截成60分;錯1題的為55.36,則四捨五入成55分。再以91年社會科為例,63題全對的未整數化量尺分數為64.94,裁截成60分。

  心測中心在量尺分數計算過程當中就是利用調整標準差和裁截超過60分的機制,使考生最後量尺分數符合1-60的既定規格,且讓全對和只錯一題者的分數差距較合理。國外使用和心測中心相同之量尺分數轉換方法的測驗機構也是採用類似上述的程序,所以心測中心量尺分數計算過程是符合測驗學理的。調整標準差的作法,不會影響考生在該科的相對地位,並不影響考生權益,也未對任何個別考生的量尺分數做調整,因此絕對符合公平原則。

表一 五科各錯一題的扣分和總和

 

國文

英語

數學

社會

自然

總和

90

心測中心

6

6

6

3

4

25

林研究員

6

6

6

5

5

28

91

心測中心

5

0

4

0

3

12

林研究員

5

5

6

4

4

24

92

心測中心

5

5

5

4

3

22

林研究員

6

6

7

5

5

29

93

心測中心

5

6

6

5

4

26

林研究員

6

6

7

5

5

29

94

心測中心

5

6

6

5

4

26

林研究員

6

6

7

6

5

30

95

心測中心

4

6

4

4

4

22

林研究員

6

6

6

5

5

28

  值得一提的是,中研院林研究員的量尺分數計算方式,也是透過調整量尺分數標準差來達成「量尺分數涵蓋1-60分的範圍」的條件。如果用林研究員的計算方式,只錯一題者,可能扣更多的分數。表一是對五科皆錯一題者,用心測中心和林研究員之計算方式之扣分數的比較。林研究員的計算公式固然顧及到「理 ( 學理 ) 」和「法 ( 方法 ) 」,心測中心還考慮到「情 ( 社會大眾需求 )」。目前社會各界對錯一題扣分太多的現象,已有諸多詬病,若採用林研究員的建議,豈不招致更多的抱怨?

Q4. 心測中心透過何種等化的方式來使兩次基測量尺分數可以直接和公平的比較?
A4. 過去聯考在闈內命題和組卷,無法事先知道題目的實際難度,國中基測則不然。基測的試題都先經過預試和篩選,然後放入題庫,在闈內抽題和組卷。基測題庫中的每道試題都透過「試題反應理論」(Item Response Theory,簡稱IRT)的估計程序,將試題難度連結在同一把尺上,所以每道題目的難度值是已知的。著名的TOEFL、GRE等電腦化適性測驗也都是採用這種作法。在第一次基測,心測中心根據考生各科的答對題數計算其量尺分數,同時也利用各科所有試題的難度和考生的作答表現,去估計考生各科的IRT能力值,最後得到各科量尺分數和其對應的IRT能力值,如表二。第二次基測,不再根據答對題數計算其量尺分數,因為兩次考生群不完全相同,不過仍會利用各科所有試題的難度和考生的作答表現,去估計考生的IRT能力值。由於題目的難度已經事先被連結在同一把尺上,所以兩次測驗的IRT能力值是可以直接比較的,我們就是透過IRT能力值,把兩次的基測量尺分數等化。

表二  IRT能力值和量尺分數的對應

量尺分數

第一次
答對題數

IRT能力值

第二次
答對題數

60

48

5.24

 

 

5.13

48

56

47

4.01

 

 

3.89

47

53

46

3.26

 

52

 

3.15

46

50

45

2.81

 

49

 

2.69

45

48

44

2.47

 

47

 

2.36

44

46

43

2.20

 

45

 

2.09

43

..

..

..

..

..

..

..

..

  以表二的數據來說明,假如第一次基測,答對46題的考生其IRT能力值是3.26,對應的量尺分數是53,答對45題的考生IRT能力值是2.81,對應的量尺分數是50。第二次基測,答對46題的考生IRT能力值是3.15,利用插補法,算出其對應的量尺分數是52,答對45題的考生IRT能力值是2.69,對應的量尺分數還是49。

  至於其他等化方式,如「等百分等級等化法」並不適用於兩次基測的等化,因為它必須假設兩次測驗考生的能力分配相似。然而,每年參加第一次國中基測的考生約30萬,參加第二次國中基測者僅5至6成,且大多是對第一次測驗結果不盡滿意、尚未進入自己理想的學校,或想要更努力以獲取更高分數者,其能力分配與第一次的30萬人並不能完全等同,因此「等百分等級等化法」並不適用於目前多元入學方案兩階段入學的時程與國中基測兩次測驗的現況。

Q5. 同年度兩次國中基測皆參加的考生,分數有大幅變化嗎?
A5. 表三是歷年各科考生兩次基測量尺分數的平均差距,從表中數據方向看出,有進步的,也有退步的,雖然進步的情形是比較常出現,當中進步幅度比較明顯的是90年和93年,但可能有特殊的原因,見表下方之註解。圖二95年度考生兩次基測總分的差距圖,從圖二可以看出,考生分數也是有進步的、有退步的,且大多數考生兩次分數的差距並不大。總而言之,參加第二次基測的考生,其分數不一定進步,而是有人進步、有人退步,且分數變化的平均幅度不大。

表三  歷年兩次國中基測量尺分數的進步情況

年 度

國文

英語

數學

自然

社會

總分

90

2.52

0.97

2.16

1.96

1.07

8.69 1

91

0.43

0.46

1.49

-1.91

-0.49

-0.02

92

-0.23

0.33

1.13

-1.23

-1.50

-1.51

93

0.84

0.59

1.38

0.47

1.57

4.84 2

94

0.43

0.75

-1.51

0.60

1.09

1.35

95

0.08

1.37

0.45

-0.17

-0.12

1.61

註:1. 90年總分進步8.69分,可能因為該年度兩次國中基測施測間隔近3個月,考生經過努力學習,進步的效應較顯著所致。
   2. 93年總分進步4.84分,可能因為該年度是使用統編本教材最後一屆,第2次考生為避免重考須學習新版本等因素,努力而導致成績提升。

圖二  95年兩次國中基測總分差異分布圖

Q6. 沒參加第二次國中基測的考生,在「擇優分數」的政策下,會造成登記分發的名次大幅滑落嗎?
A6. 前面提過在第二次基測,有些考生進步,有些考生退步,在「擇優分數」的政策下,退步的考生可以選擇第一次的分數,所以沒有參加第二次的考生在「擇優分數」的政策下,登記分發的名次或多或少會受到影響,不過影響的幅度視考區報考第二次的人數比例和考生分數所在的區間,不一而足。根據心測中心的統計數據,以95年為例,平均滑落名次,少則8名、9名,絕大部分考區在400名以下,惟一超過1000名的是基北區,但遠遠低於林研究員推估的數據。名次滑落多少的重要性遠不如對分發結果的影響,林研究員的推估是假定考生完全是登記分發,沒有考慮到甄選和申請入學管道的名額,如果將甄選和申請入學管道的人數排除掉,並考慮到同分人數和同分數區段的學校數之選擇較多,相信名次滑落現象對大多數考生實際志願選擇的衝擊有限。從本年度 ( 96年 ) 報考二次基測之人數不如預期多的結果,可推知學校從過去經驗中也可以了解到名次滑落現象對大多數考生實際志願選擇的衝擊有限。

Q7. 同樣都是錯五題,為什麼基測五科各錯一題的量尺總分比單科錯五題量尺總分還要低?這樣合理嗎?
A7. 國中基測各科量尺分數是獨立計算的,各科量尺分數是根據考生答對題數計算來的,因各科題數不同,不同科目答對相同題數者得到的量尺分數不全然相同,由歷次基測的「答對題數與量尺分數對照表」也可以清楚看出來。考生成績單上除了報告各科量尺分數還報告量尺總分,量尺總分是五科量尺分數的總和,五科各錯一題的考生和四科全對但某科只錯五題的考生,其展現出的能力組型是不同的,所以量尺總分不同是相當合理的現象。就學理來說,各科分數反映出考生該科的能力,因此,分數使用方式應為各科獨立使用,因為量尺總分無法明確反映出來考生的各科表現狀況。由於多元入學中之登記分發管道,若考量以各科制訂「門檻」概念來進行分發,將使得作業流程變得相當複雜,造成執行困難;因此,基於現行實務運作需要,而採以量尺總分作為分發依據,為分發系統處理較具效率的方法,也是當前的權宜之計。未來若國中基測不是高中職入學的惟一依據,目前單用「量尺總分」分發的困境將可獲得解套。

Q8. 心測中心如外傳所言是不受監督、封閉不接受外界建議的單位嗎?
A8. 心測中心是國中基測的推動單位,接受「國民中學學生基本學力測驗指導委員會」的監督,國中基測所有政策和措施的建立和變更,都須經過指導委員會決議通過,絕非無人監督的單位。此外,心測中心在各科試題和測驗技術研發上都廣邀各界參與和諮詢,以諮詢委員為例,有來自中研院統計所、高雄師範大學、臺灣大學、中央大學、臺南大學、中正大學、清華大學…等的專家學者,至96年為止,計有超60個系所的學者專家曾受邀蒞臨心測中心指導。更值得一提的是,心測中心釋放國中基測資料供研究或教學單位申請使用,此舉為國內首創,成就不少碩、博學位論文、學術期刊論文和國科會專案研究,運用心測中心資料獲得的研究成果和建議,心測中心都相當重視並酌以參考,林妙香研究員有關國中基測之量尺和等化研究之資料,即是心測中心提供的。總之,絕非如外傳所言是不受監督、封閉不接受外界建議的。