淺談資料探勘      資訊組


   隨著資訊科技日新月異,人類對電腦的依賴程度越來越高,無論決策制定或資料處理,都有賴電腦科技的協助。現在,電腦已不再侷限於儲存資料或是快速運算,而是發展出具備人工智慧(Artificial Intelligence,簡稱 AI)的功能,藉此協助人類作更精準的判斷與決策。而在資訊爆炸的時代裡,資料取得的數量相當龐大,若無適當的管理模式,將會造成資料氾濫,導致無法充分運用,而形成所謂的「資訊垃圾」,因此,要如何將過多的資料做最好的管理,以及從過多的資料中取得有用的資訊,便成為現在熱門的研究議題,也因此發展出資料探勘模式(Data Mining)的技術,來幫助人們歸納與分析資料。

  資料探勘是近年來被廣泛應用在各領域的技術,國內外許多的研究都存在著許許多多資料探勘成功的案例,例如:醫學界、壽險業、銀行業、通訊業等等,這些成功實例的主要訴求,是希望透過資料探勘,從大量的歷史資料中挖掘隱藏其中有價值的知識,較為可惜的是,過去資料探勘在教育界的應用少有相關研究。近年來教育改革政策不斷,如果能對成長量固定、且保存完整的教育相關資料有效發掘或運用策略,勢必能更有效地幫助決策者制定政策,並提昇教育品質。

  那麼何謂資料探勘呢?廣義地說,就是資料庫知識發掘(Knowledge Discovery in Databases,簡稱 KDD),也就是可以從一個大型資料庫所儲存的大量資料中萃取有用的知識,這個大型資料庫有可能是線上作業的資料庫,也有可能是資料倉儲(Data Warehouse)。資料庫知識發掘的流程,可以包含以下五個階段:

一、資料的選取:
   了解應用領域以及使用者的需求,並且應用相關的先前知識,由資料庫選取出與探勘目標相關的資料,以建立目標的資料集。

二、資料的預先處理:
   包含去除資料雜質、處理缺漏資料、定義資料型態以及資料綱要等,甚至釐清整個資料所代表的含意。

三、資料轉換:
   在將資料淨化之後,再把資料範圍縮小與資料投射,包含取決於知識發現的目標與任務,找出有用的代表資料,並利用多維度法與資料轉換法來減少變數,或找出恆常不變的資料代表。

四、資料探勘:
   將資料轉換之後,依據問題種類來進行資料探勘。

五、說明與評估:
   根據資料探勘後所得到的模型,來決定結果的呈現方式,以及解釋與評估結果。

   另外,資料探勘流程又可區分為各種探勘方式,而無論採用哪種探勘方式,其整體架構包含五大項,分別為:一、使用者溝通介面,二、資料庫,三、應用領域知識 ,四、探勘出之知識,五、資料探勘方式。以下針對這五項資料探勘的相關問題,做概略性的描述。

一、使用者溝通介面:
  使用者常常無法了解自己能從資料庫中獲取何種資料,除了不知道資料庫的設計方式之外,通常也不具備撰寫程式語言的基本能力,因此,要明白如何建立與使用者之間的溝通模式,以及如何解決使用者可能遇到的問題,此部分是程式設計者所應該注重的事項。

二、資料庫:
   主要包含兩大類問題:第一類為資料庫的設計與管理問題,包含原始資料的正確與否,以及因時間持續變化而造成資料過時的現象。第二類則是資料庫的格式不同,而造成資料探勘的困難。

三、應用領域知識:
   若能在資料探勘的過程中,加入更多的領域知識,應比涵蓋較少的領域知識更能探勘出具有意義的結果,因此,要如何利用更多的領域知識來有效輔助資料探勘的進行,或者用於判斷及解讀使探勘工程更具智慧性,便成為相當重要的議題。

四、探勘出之知識:
   需重視探勘出來的知識應以何種形式表達、如何讓使用者最容易接受,並進一步使用探勘出來的資訊。

五、資料探勘方式:
   資料探勘可依處理方式不同而分為類神經、統計、相關數學模式,以及歸納學習等方式,其中各有優缺點,使用者依需求採取適合的資料探勘方式,以提高執行的效率。

  當我們了解知識發掘的流程以及資料探勘的基本架構之後,再觀察近幾年的一些相關研究報告,資料探勘在教育領域的研究雖然不多,但逐漸受到重視,其中像藉由資料探勘工作來幫助了解學生的學習狀況、選課型態、甄選學生時的決策支援,與課程安排輔助等等,都有成功的實施成果。目前國民中學學生基本學力測驗推動工作委員會正著手整理國中基測累積數年的相關資料,並建立測驗資料庫來歸納整理以及保存資料,另外,也將引用資料探勘的技術,從考生的各項報考資料中發掘有用的資訊,進而使主管機關能更快速有效地取得最有用的決策資訊。