|
九十六年十二月二十六日各大報及電子媒體均報導臺灣師大心測中心與交通大學資工系合作研發的「中文寫作自動化評分系統 ACES」(Automatic Chinese Essay Scoring),其中報導有所出入之處,已於上期《飛揚》說明,不再贅述。然而許多民眾仍然好奇:機器真的能改作文嗎?基於推廣科學新知的想法,我們將在近期《飛揚》分段轉載於二○○七年《東亞教育評鑑論壇》發表的《如何發展中文的寫作自動評分技術?以 ACES 為例》一文,並修改艱澀部分,讓一般民眾容易閱讀。
其實國外早於十年前就已將此技術實際應用、甚至成立商業軟體公司,因此這早已不是新鮮事。然而國內對此類資訊接觸有限,乍聽之下似乎感到不可思議、難以置信。因此本期將先介紹國外已經有的寫作自動化評分(AES)系統,其中部分已經應用在許多著名測驗的寫作項目評分,例如 GMAT 等。相信讀者在了解國外技術的發展後,會從「怎麼可能?」的質疑改問「怎麼做的?」讀者如果有興趣深入了解,可進一步閱讀文末的參考文獻。
目前已經有許多 AES 系統問世,但是大多以處理英文寫作為基礎。對於這些系統的介紹與評論大部分也都以英文寫作為基礎(Dikli, 2006; Shermis & Burstein, 2003; Valenti, Neri & Cucchiarelli, 2003)。本文將整理這些研究的評論與分析,介紹五種英文 AES 系統,並指出現有系統的限制。
一、PEG(Page,1994)
Project Essay Grader(PEG)是最早發展的 AES 系統。他的設計基於一個稱為 trins-proxes 假設:一篇文章的內在特質(intrinsic variable)可用它的近似項(approximation)進行量化測量。例如文章長度可以代表文章的流暢程度,介系詞與關係代名詞的數量可以代表句子結構的複雜程度,而字長的變異程度則顯示作者措辭的能力。雖然這些近似項與內在特質在直觀上關係不是很大,但統計上卻呈現有意義的高度相關。因此 PEG 利用三個步驟預測作文分數:第一,將一百至四百篇已由專家評分訓練文章的各種近似項的值計算出來。第二,將這些近似項的值和文章的專家分數使用複線性迴歸(multiple linear regression)模型求出代表近似項值與文章分數間的迴歸係數。第三,將測試文章近似項的值求出並代入迴歸函數,即可求出相對應的預測分數。
PEG 的實驗指出預測結果和專家分數間的相關係數達 0.87,這樣的結果與兩個真人評分者間的相關係數相差不遠,因此 PEG 宣稱具有實際應用價值。然而 PEG 的主要問題在於忽略了語意面向,使得系統容易被欺騙。例如錯用較不常用與較長的詞彙、文法有大量錯誤而拼字卻完全正確,都可能使得系統評定高分。另外,使用近似項的方式並無法提供有用的回饋資訊,因此限制了再分析學生的寫作能力問題,及進一步提供學生有用的回饋資訊等相關研究的發展。
二、IEA(Landauer, Laham & Foltz, 2000)
Intelligent Essay Assessor(IEA)是一個使用潛在語意分析(latent semantic analysis, LSA)技術的系統。這個方法使得文件在語意空間的位置可以更精確地以向量形式表達,增加文件語意相似度比對的正確性。IEA 宣稱其最主要的特色是使用真人專家評分時所使用的方法去評估作文。實驗結果顯示正確率達 0.85 至 0.91 之間。另外,這個方法對於抄襲作品具有其他 AES 系統沒有的偵測能力,這對高風險(high-stakes)測驗的大型測驗非常重要,因為抄襲將嚴重影響測驗的效度及使用的正確性。雖然 IEA 已經使用語意分析的方法,其正確率也相當高,然而 IEA 在閱卷者的評分面向仍有很大的限制。評分的組成不僅包含語意,作品的組織、句子結構也很重要。這些面向的缺乏使得 IEA 在評分完整性上受到很大的限制,因此能提供的教育回饋以及進一步應用也很有限。
三、e-rater
E-rater(Atali & Burstein, 2006 ; Burstein, Kukich, Wolff, Lu, Chodorow, Braden-Harder, & Harris, 1998)是發展托福考試的美國教育測驗服務社(ETS)所研發,採用 corpus-based 方法所設計的 AES 系統。這個方法以已評分作文樣本分析真人評分時判斷寫作品質的特徵。這些特徵以三個模組進行辨識:篇章(discourse)、語法(syntactic)和主題(domain)。篇章模組使用連接關係的概念框架去辨識組織結構,這些連接關係可能是線索字、片語或是語法結構。例如線索字「perhaps」代表可能要開始描述一段自身看法;片語「in summary」代表將接著一段結論。
E-rater 的語法模組主要是使用文法剖析工具 Microsoft Nature Language Processing(MsNLP)去建立句子的語法樹。透過語法樹,語法模組可以辨識句子的主詞、動詞及子句結構,例如不定詞子句、從屬子句等等。藉由這些辨識結果,e-rater 可以用語法的多樣性(variety)來判斷作文品質。
E-rater 的主題模組則是用來偵測語彙的使用。e-rater 認為一篇待評分作品的主題用字,可以在訓練語料中找到在用字及字彙多樣性上類似的已評分作品,待評分作品和類似的已評分作品在主題表述的程度上應該很接近,因此可以用已評分作品分數作為評估待評分作品在主題項目分數的依據。基於上述的假設,e-rater 使用向量空間模型及 cosine 相似度測量,比對待評分作品與訓練語料中所有文章的相似度,用來評估待評分作品。
E-rater 將上述所有特徵以第四個模組加以挑選組合及加權,並將相對應的預測結果儲存於資料庫中,當新的文章要評分時,便以第五個模組進行資料庫比對,找出最相似的特徵組合並給予預測分數。這種以作品各種特徵分別加以評估,再綜合各項特徵結果成為預測分數的依據,稱為特徵為本(feature-based)的方法。
和 PEG 及 IEA 相較,e-rater 的特徵種類較多,特徵種類也類似人工的評分特徵。其實際應用於大型測驗 GMAT 的結果,顯示正確率高達 0.87 至 0.94。然而,雖然其方法分為三個面向,但主要還是以文法特徵結構為主要依據,因此文法剖析的效能會左右評分的正確率。
四、BETSY(Runder& Liang, 2002)
Bayesian Essay Test Scoring sYstem (BETSY)也是一個以特徵為基礎的 AES 工具,但是對於整合特徵則是改以貝氏模型來強化評分的效能。貝氏模型被廣泛應用在解決許多人工智慧領域的問題,其中在處理文件分類問題有相當好的成果。寫作自動評分問題本質上也可視為文件分類問題的一種(如何將一篇作品正確分在所屬的分數類別),因此貝氏模型可以用來作為 AES 系統的評分模組。貝氏模型有許多不同的設計,BETSY 採用 Multivariate Bernoulli Model(MBM)和 Multinomial Model(MM)兩種模式。
透過這樣的機率模型,BETSY 可以整合各種特徵去預測分數。BETSY 宣稱採用了 PEG、IEA 和 e-rater 中表現最佳的幾種特徵,並以 stemming、stop words 和 feature selection 三個程序處理原始文件,使得特徵擷取更加準確,提高評分正確率。實驗結果顯示它的正確率超過 0.8。BETSY 的特色在於能整合多個面向的特徵,並以更高效能的貝氏分類器提高分數預測正確率,但是和 e-rater 一樣,BETSY 的主要問題是它仍然需要一個高效能的文法剖析工具,另外,它也需要大量的已評分作文去估計特徵在各分數的機率。
五、IntelliMetric(Elliot, 2001)
IntelliMetric 是 Vantage Learning 公司的 AES 商業產品,它的基本架構也是特徵為本的方法。他們宣稱使用了超過三百個語意相關、語法相關及篇章相關的特徵。這些特徵被歸類為五個類型:主題一貫性、文章組織、發展與闡述、句子結構和格式慣例。IntelliMetric 包含兩個分別稱為 CogniSearch 和 QuantumReasoning 的自然語言處理工具,而 CogniSearch 含有一個文法剖析器可分析句子結構。IntelliMetric 也使用訓練語料去架構一個非線性的評分模組。IntelliMetric 宣稱其評分正確率達 0.96,顯示這些模組似乎具有強大的效能,然而 Vantage Learning 並未對這些模組進一步發表技術細節。
參考文獻
Attali, Y. & Burstein, J. (2006). Automated scoring with e-raterV.2. The Journal of Technology, Learning and Assessment, 4(3).
Burstein, J., Kukich, K., Wolff, S., Lu, C., Chodorow M., Braden-Harder, L., & Harris, M. D. (1998). Automated scoring using a hybrid feature identification technique.
Paper presented at the 36th Annual Meeting of the Association of Computational Linguistics, Montreal, Canada.
Dikli, S. (2006). An overview of automated scoring of essays. The Journal of Technology, Learning, and Assessment, 5(1).
Elliot, S. M. (2001). IntelliMetric: From here to validity. Paper presented at the Annual Meeting of the American Educational Research Association, Seattle, WA.
Hearst, M. A. (2000). The debate on automated essay grading. IEEE Intelligent System, 15(5), 22-27.
Landauer, T. K., Laham, D. & Foltz, P. W. (2000). The intelligent essay assessor. IEEE Intelligent System, 15, 27-31.
Page, E. B. (1994). Computer grading of student prose, using modern concepts and software. Journal of Experimental Education, 67, 127-142.
Rudner, L. M. & Liang, T. (2002). Automated essay scoring using Bayes' theorem. The Journal of Technology, Learning, and Assessment, 1(2).
Shermis, M. D. & Burstein, J. C. (Eds.) (2003). Automated essay scoring: A cross disciplinary perspective. Mahwah, New Jersey: Lawrence Erlbaum Associates Inc.
Valenti, S., Neri, F. & Cucchiarelli, A. (2003). An overview of current research on automated essay grading. Journal of Information Technology Education, 2, 319-330. |