當前位置:文思屋>學習教育>畢業論文>

分類器組合增量整合的遠端教育論文

文思屋 人氣:2.53W

1引言

分類器組合增量整合的遠端教育論文

基於上述分析,為了更好地在遠端教育系統中對學生的表現進行預測,本文提出使用投票方法結合樸素貝葉斯的增量版本、1-NN和WINNOW演算法。實驗結果表明,本文提出的演算法應用於預測學生表現方面非常有用,能夠識別出學生的不良表現,還能使老師在較早階段採取預防措施。甚至在學年一開始,為了對有危險的群體提供額外的幫助,更加準確地診斷出學生表現的能力會隨著學期中加入新的課程資料而提升,為老師提供了更加有效的結果。

2背景

本章給出為預測學生表現進行的教育資料探勘、線上學習演算法和增量整合分類器的一些基本理論。

2.1教育資料探勘

分類、分簇、視覺化、關聯規則和統計挖掘通常基於學生們的使用資料發掘新的、有趣且有用的知識,主要應用於電子學習問題或物件可處理與評估學生的學習表現、基於學生的學習表現提供適應性課程和學習建議、處理與評估學習材料和基於網頁的教育課程、提供教師和學生的電子學習課程反饋、監督非典型學生的學習表現。分類(電子學習中最有用的教育資料探勘任務之一)可用作不同的教育目標,例如:將提示驅動或錯誤驅動的那些學生分組,找出這些學生通常有的錯誤觀念;使用智慧教學系統時預測/分類學生等。還有,使用不同資料探勘方法預測學生學習成績(分出低、中、高等級)、使用來自Moodle日誌的神經網路模型。

2.2線上學習演算法和增量整合分類

線上學習任務是為了從標記的隨時間分佈的訓練資料中獲得一組概念描述,這類學習對許多應用都是重要的,如電腦保安、智慧使用者接入和市場購物籃分析,客戶的喜好會隨著新產品而變化,服務變得可用。應對概念漂移演算法必須快速並精確地收斂到新的目標概念,而且在時間和空間上都有效。在不斷變化的環境中增量學習系統理想的特徵有:無明顯關於系統環境變化的資訊進入系統時監測環境變化的能力。從變化環境中迅速恢復的能力和調整假設滿足新環境的能力。舊環境重複出現時在環境中利用先驗經驗的能力。線上學習演算法處理每個訓練例項一次,不需要儲存和預處理,維護當前的影響目前所有訓練例項的假說,這類演算法對大型資料集也是有用的,對大資料使用要求多次遍歷的批演算法代價非常昂貴。批神經網路學習演算法會多次遍歷資料集,但線上學習的神經網路僅需遍歷一次資料,然而,僅遍歷一次資料可能會有一些相關損失。所有這些演算法都有一個已知的缺點,一次進行幾個例子的學習非常困難,為了解決這個問題,一些技術依賴於視窗技術,它包括儲存的最後n個例子,當新例子加進來時才執行一次學習任務。加權多數演算法(WM)是許多線上演算法的基礎,WM維護專家集的權重向量,通過專家之間的加權多數投票預測輸出。投票感知在訓練期間能儲存更多的資訊,然後使用這個精細的資訊在測試集上產生更好的預測。為了計算一個預測,演算法計算了每個預測向量的二進位制預測,通過加權多數投票合併所有這些預測,使用的權重是上述的倖存次數,這產生了直觀的感受,“優秀”的預測向量倖存時間長,在多數投票中有較大的權重。合併分類器的概念是改進分類器效能的一個新方向,然而,線上設定中不是很明白如何直接應用整合方法。一個解決辦法是依靠使用者指定每個基本學習者輸入流中例子的數目,但該方法假設已知很多關於資料流結構的情況。也存在重新加權分類器的線上升級演算法,但是這些演算法假設分類器數目是固定的,此外,當基本模型由少量例子訓練時線上升級最初可能會有很大的損失,演算法可能再也無法恢復。

3演算法

提出眾所周知分類器優化集的選擇是多分類器系統的一個重要部分,通常把分類器輸出的獨立性當作獲得更好的多分類器系統的優勢。分類器合併項中,投票方法要求分類器無任何先決條件。當使用投票方法合併多個分類器時,如果大多數專家同意他們的觀點就會做出正確的決策,基於對這一點的信任,本文期待能獲得更好的結果。目前,有三種整合學習演算法備受關注:WINNOW演算法的核心類似於感知。如果∑ixiwi>θ,它分類一個新的例項x到類2,否則分類至類1。然而,如果預測的類是正確的,WIN-NOW如下更新它的權重,如果預測的值是y′=0,且實際值為y=1,則權重太小;因此,對於每個xi=1,權重wi=wiβ這類的特徵,其中,推廣引數β大於1。如果y′=1且y=0,則權重太大;因此,對於每個特徵xi=1,會通過設定權重wi=wiβ中0<β<1來降低對應的權重,稱為降級引數。WIN-NOW是指數更新演算法的一個例項,相關特徵的權重呈指數增長,但是不相關特徵的權重呈指數縮小,基於這個原因,WINNOW能迅速適應目標函式中的變化(概念漂移)。1-最近鄰(1NN)是基於這樣的原則:一般會存在與資料集內例項很靠近的例項,且這些例項有類似的屬性。如果把例項打上類標籤,則未分類例項的標籤值可以通過觀察它的最近鄰居類而確定。這個空間內例項的絕對位置不如例項之間相對位置那麼重要,使用距離度量標準確定相對距離,理想的距離度量標準一定是兩個相似類的例項之間的最小距離,而不同類的例項之間的最大距離。樸素貝葉斯分類器是最簡單的貝葉斯網路形式,因為它認定了每個特徵與其他特徵都是獨立的假設,給定類特徵的狀態。獨立性的假設顯然幾乎總是錯誤的,然而,簡單的樸素貝葉斯方法仍然很有競爭力,儘管它提供了對真實基礎概率很差的估計。樸素貝葉斯演算法用於“批模式”,意味著演算法見到它的訓練例項之後還不能執行它絕大部分計算,而是在所有訓練例項上累積特定資訊,然後在整個群裡或者例項的“批”上執行最終的計算,然而,需要注意的是,演算法中沒有固定任何東西去阻止使用它進行增量式的.學習。例如,考慮增量式樸素貝葉斯演算法可以執行,假設它只遍歷一次訓練資料。第1步,初始化所有的計數和總和為0,然後貫穿訓練例項,一次一個,對於每個訓練例項,給定特徵向量x和它的標籤值,演算法貫穿特徵向量並遞增合適的計數;第2步,用每個計數值除以同一類訓練例項的數目轉化這些計數和總數為概率;最後,計算之前的概率p(k),當作類k所有訓練例項的分數。本文提出的整合演算法以建立三個演算法(NB、WINNOW、1-NN)的集為起點,當新的例項到達時,演算法經過它,並接收每個專家的預測。線上設定中,演算法連續修改它使用的假說,重複接收模式,基於專家的預測多數投票預測它的分類,找出正確的分類,可能因此更新它的假說。本文提出的整合方法的整體框圖如圖1所示,其中,hi是每個分類器產生的假說,x是分類的例項,y*是提出的線上整合方法的預測。模型的數目或執行時間引數由使用者調整,這也是演算法的一個易用性指標,對於非專業性資料探勘,本文提出的整合方法無使用者調整引數,將更吸引人。本文使用這三個具體的演算法是因為它們很容易適應線上環境,不僅同一個WRI的新標記可利用,而且下一個WRI的標記也變得可用。對這三個演算法使用簡單的多數投票方法是因為它在線上環境中使用簡單。增量訓練學習者成為新例項的打包升級實現是可用的,但是沒有新特徵變得可用。本文提出的整合方法能輕鬆的實現每臺機器並行使用學習演算法。並行和分散式計算對機器學習(ML)執行者來說很重要,ML系統並行或是分佈執行的優點有:

1)提高速度;

2)增加可使用的應用範圍(例如它可以處理更多資料)。

4實驗

4.1資料集

本文以希臘遠端教育大學“資訊”課程提供的訓練集HOU為研究目標,HOU的基本教育單元是模組,一個學生每年可以註冊高達三個模組,“資訊”課程由12個模組組成,可得到學士學位。HOU的INF10模組中,每學年學生必須上交四份書面作業,參加與老師面對面的四個可選會議,11個月後應考最終的測試。希臘的大學成績系統是10分制系統,學生分數大於等於5,則通過課程或模組,而小於5則意味著掛科。共有1347個例項(學生的記錄)註冊INF10,如表1所示。從兩個不同資源中收集資料,HOU的學生註冊和老師的記錄,幾乎收集到了所有學生的有關資料。“類屬性”(因變數)表示導致期末考試測試結果的兩個值,“失敗”表示學生表現差,“差表現”表示學年內暫停學業的學生(由於個人或專業原因或沒能力上交兩份書面作業)及不參加期末考試或參加了期末考試但分數低於5分的學生,“通過”表示完成了INF10模組,在期末考試中得到的分數超過5分。

4.2實驗結果及分析

第一階段(訓練階段)使用2006~2007學年收集的資料訓練每個演算法,將訓練階段劃分成四個連續步驟,第1步包括來自第一份書面作業和得到的類中的資料,第2步包括第1步使用的資料和第二份書面作業的資料,第3步包括第2步使用的資料和第三份書面作業的資料,第4步包括第3步使用的資料和第4份書面作業的資料。隨後,收集新學年(2007~2008)的一組資料,這組資料用於測量預測值精度(測試階段),測試階段也分成四個步驟,第1步,為了預測類,使用第一份書面作業。剩餘的步驟以上述相同的方式使用新學年的資料。實驗一:將本文提出的演算法與每個線上學習演算法(樸素貝葉斯、1-NN、WINNOW)進行比較。本文通過調整任一演算法的特定資料集來最小化任一專家系統偏見的影響,儘可能使用學習引數的預設值,這樣可能導致較低的估計誤差率,但可能會影響所有學習演算法的偏置,表中的WRI-1標記的行表示預測精度。從表可以明顯看出,依照p<0.05的t-測試,本文提出的整合演算法的分類精度優於其它各個分類器。總的來說,本文提出的整合演算法在四個測試步驟的四個輸出上明顯比WINNOW演算法更精確,此外,本文提出的演算法在四個測試步驟的兩個輸出上明顯比1-NN演算法更精確,而且,本文提出的演算法在四個測試步驟的一個輸出上明顯比NB演算法更精確。實驗二:將本文提出的整合方法與每一批先進的機器學習技術的代表性演算法進行了比較。批演算法是用於測量學習演算法精度的上層演算法,大部分批演算法的增量版本都不是無損的,無損線上學習演算法就是當給定同一個訓練集時,這個演算法會返回一個假說,與它對應的批演算法返回的相同。C4.5演算法是一個決策樹代表性演算法,RBF演算法是一個眾所周知的估計神經網路權重值的學習演算法,是神經網路的代表性演算法,本研究中,3-NN演算法結合了強魯棒性噪聲,RIPPER是規則的代表性學習者,最後,序貫最小優化演算法(SMO)是SVMs的代表性演算法,表中WRI-2、WRI-3、WRI-4標記的行表示每個演算法的預測精度。表明顯地表示出本文提出的整合方法在四個測試步驟的一個輸出上明顯比RBF、BP和SMO演算法更精確,此外,本文提出的演算法在四個測試步驟的兩個輸出上明顯比3NN演算法更精確,本文提出的演算法在四個測試步驟的一個輸出上明顯比RIPPER和C4.5演算法更精確,最後,本文提出的演算法在四個測試步驟的四個輸出上也明顯比投票感知方法更精確。實驗三:將本文提出的方法與幾個眾所周知的整合分類器進行了比較,必須提到的是其他整合方法只能用於批模式,本文使用批整合作為測量整合方法精確度的上層演算法。第三個實驗用於比較:

1)Adaboost決策樹樁演算法和10次迭代演算法,

2)有10顆樹的隨機森林整合演算法,

3)投票感知器演算法,

4)帶C4.5的旋轉森林演算法和10次迭代演算法。表4明顯地表示出本文提出的整合方法在四個測試步驟的一個輸出上明顯比其他測試的批整合方法更精確。從表可以看出,正如之前提到的,本文提出的整合方法的主要優點是它能很容易地適用於線上環境,不僅相同WRI的新標記變得可用,而且下一個WRI的標記也可用,如果本文已經使用了另一個測試學習者和整合方法,那麼當下一個WRI的標記變成可用時,應該從零開始重新訓練分類器。實驗四:將本文的資料集中所有演算法都用於批學習者,表5給出了訓練時間。從表5可以明顯看出,增量更新將比在目前所見的所有資料上返回一個批演算法快得多,它甚至可能是僅有的辦法,如果不能儲存目前所見的所有資料或者如果實時時間內需要執行線上預測和更新,至少它是非常迅速的。最大限度減小所需的訓練時間是學者們非常感興趣的事,正如前面提到的,資料分析主要的研究領域是可用於數以百計訓練例項問題的精確度技術的探索。

5結語

本文提出了一種使用投票方法結合三個線上分類器的整合演算法:樸素貝葉斯、1-NN和WIN-NOW演算法,通過非常精確的預測,老師有能力知道哪些學生能完成模組或課程,這個預測初始精度為73%,基於學生的人數統計資料,在期末考試前達到82%。資料集來自模組“資訊介紹”,但結論是可推廣的,目前引起了學者們對HOU大部分模組廣泛的研究興趣。實驗結果表明,相比幾種較為先進的分類器,本文提出的分類整合演算法能夠更加準確地預測學生的表現。