【2015年第4期】大数据引领教育未来:从成绩预测谈起
大數據引領教育未來:從成績預測談起
呂紅胤,連德富,聶敏,夏虎,周濤
電子科技大學
doi: 10.11959/j.issn.2096-0271.2015045
Big Data Drives a New Epoch of Education: A Case Study of Academic Performance Prediction
Lv Hongyin, Lian Defu, Nie Min, Xia Hu, Zhou Tao
University of Electronic Science and Technology of China
近年來,大數據已經在教育領域的管理與引導等諸多方面被廣泛運用。例如,智能教學系統(ITS)[1]基于與學生間交互的日志數據進行個性化知識診斷,分析學生的知識掌握情況,發現學生的薄弱點,從而自適應地幫扶學生更好地獲取知識和技能[2,3]。卡耐基公司(Carnegie Learning)的“認知導引”系統便是一個典型的ITS[4],它根據學生對先前問題的回答情況制定后續的提問內容。這樣,就可以找出學生的問題并深入了解它們。經過嚴格測試,發現使用該系統的學生要比接受傳統教學的學生節約12%的學習時間。國外的edX、Coursera、Udacity和國內的學堂在線等多家大規模在線課堂平臺,圍繞在線教育中高輟學率的嚴峻問題,基于學生人口統計學數據和學生注冊課程、觀看視頻、完成課后作業、參與論壇討論等行為數據,旨在發現影響學生輟學的重要因素,從而制定相應的干預策略引導學生,降低在線教育的輟學率[5]。保羅·艾倫實驗室致力于自動化答題的研究:從題目中抽取知識和前提條件,基于在訓練集上構建的知識圖譜,利用多種統計推斷和邏輯推理的方法來選擇或者生成可能準確的答案[8,9]。針對該任務,該實驗室在2015年10月發起了一項名為“你的模型比8年級學生更聰明嗎”的大數據競賽。更重要的是,包括中、美、日在內的國家均已設立了答題機器人的國家級重大項目,計劃讓機器人在不久的將來參加高考,在3~5年內考上“一本”。而且,目前該項目已經取得可喜進展。
除此以外,傳統中小學教育和高等教育中積累的人口統計學信息、過往考試成績、缺曠課、問卷調查等數據也曾被用于分析與學生綜合績點、能否順利畢業等因變量之間的關系,并且構建相關的預測模型[10]。基于預測模型,教育管理者便可以優先找出未來可能需要重點關注的學生。然而,這些數據要么可能只是來源于小部分學生的問卷調查,要么數據的字段數太少。更重要的是這些數據缺乏實時性,無法進行實時預測,從而可能無法達到預期的干預結果。為此,本文基于學生在校園內學習、生活時產生的實時行為數據,結合問卷調查、人口統計學等相關的數據來進行成績預測等相關的大數據研究。
成績預測在教育管理中起到重要的作用。當前,掛科現象在大學生中非常普遍,甚至有人認為不掛科的大學生活是不完整的。然而,掛科可能會造成學生無法按時畢業或者無法找到心儀工作的后果。因而如果能提前發現學生的學習異常,通過引導和干預就有可能阻止這些不幸事情的發生。學習異常的發生可能源自于學習態度或者學習目標的轉變,而這種轉變是可以在學生的日常生活中表現出來的。大學校園本身就是一個小型的社會系統,其內部服務體系幾乎可以滿足學生絕大多數的需求。而校園服務的實現,如食堂吃飯、超市購物、圖書館借書、出入宿舍、教學樓打水等,大多數是通過校園“一卡通”來完成的。因而學生在校園中的食堂、超市、教學樓、宿舍樓、圖書館之間的日常生活軌跡就通過“一卡通”以數字化的形式記錄下來。然而,大家并不知道行為和成績之間的關系,也不知道行為變化和成績變化之間的關系。
針對這種需求,基于這些“一卡通”記錄下來的行為信息,特別設計了學生畫像系統。該系統量化了心理學中影響學生成績最重要的兩個指標:努力程度和生活規律性,作為系統中的畫像因子。努力程度包括去教學樓、圖書館消費的次數,對應到學生上自習或者上課的次數,反映了學生花在學習上的時間多少。而生活規律性包括出入宿舍的規律性、吃飯特別是吃早飯的時間規律性、洗澡洗衣服的時間規律性、購物的規律性等,與學生的自我控制與自我約束能力密切相關。通過分析這些畫像因子和成績之間的關系,發現努力程度和生活規律性與成績呈顯著正相關性。特別地,針對某個年級的4年數據使用相關性計算,發現去圖書館的次數和成績的序相關性達到0.3(p<0.01),而洗澡規律性和成績的序相關性稍弱,為0.17(p<0.01)。圖1展示了目前研究的所有努力程度和行為規律性的指標與成績的相關性。更進一步地,分析行為變化和成績變化之間的關系,發現努力程度和生活規律性的增加也會導致學習成績的提升。因而,對于學習越努力、生活越規律的學生,他們的學習成績越好。同時,基于學生在同一地點共現的次數,構建學生在校園內的社交關系網絡,并分析每個學生的學習成績和朋友間的學習成績之間的關系。筆者發現,每個學生的成績和朋友的平均成績呈正相關的關系。這不僅驗證了社會學中的成績上的同質性,還能幫助構建準確率更高的成績預測系統。
圖1 ?行為規律性和努力程度與成績的序相關性
針對努力程度、生活規律性和社交關系網絡以及過往的學習成績,設計了多任務遷移學習算法來進行未來成績的預測。該算法不僅通過多任務特性考慮了特征相關性存在學院之間的差異性,而且還通過遷移學習特點考慮了不同學期之間相關性的變化。同時,為了更好地保護學生隱私,將成績變換成排名,并進行歸一化,利用排序學習算法來進行學習。當學生的數據缺乏或者缺失時,該算法利用朋友的加權預測成績作為學生的預測結果輸出。在測試時,給定前5個學期的數據作為訓練集,預測第6個學期的成績排名,以預測排名和實際排名的序相關性作為預測算法性能評價的指標。最終預測算法的序相關性高達0.9,這讓算法在實際中被廣泛運用成為可能。而且,基于“一卡通”對于記錄行為的實時性設計的成績預測模型,可以幫助教育管理者及時發現學生的學習和生活異常情況,從而能對學生進行及時的干預和引導,從而實現從傳統教育中的后置性應急到前置性預警引導的轉變,實現從離線靜態分析到自適應性地動態分析的轉變。
除了發現這些行為數據在預測成績方面起到的重要作用以外,筆者還發現了它們在貧困生檢測、畢業去向預測、館藏圖書推薦等方面的價值。不同家庭經濟條件的學生在消費行為方面可能呈現較大差異,因而消費行為數據對于貧困生檢測存在一定的作用。學生畢業時的去向由很多原因決定,不僅取決于學生的成績,還包括實習和科研等課外活動的經歷、生活作息的規律性、家庭的經濟狀況等。而行為數據的存在給館藏圖書推薦帶來較大變化,不僅可以區分男女生在借書上的差異性,也可以區分成績不同的學生在圖書借閱上的偏好;反過來,通過學生借閱的圖書信息,也能輔助確定學生的成績信息。通過這些研究發現,當前的大學校園內,已經積存了很多對學校教育管理具有重要戰略價值的數據。雖然對這些數據的價值已做了初步探討,但是仍然還有待進一步的探索與發現。
參考文獻
[1] Anderson J R, Boyle C F, Reiser B J. Intelligent tutoring systems. Science, 1985, 228(4698): 456~462
[2] Romero C, Ventura S. Educational data mining: a review of the state of the art. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2010, 40(6): 601~618
[3] Lindsey R V, Khajah M, Mozer M C. Automatic discovery of cognitive skills to improve the prediction of student learning. Advances in Neural Information Processing Systems, 2014:1386~1394
[4] Ritter S, Anderson J R, Koedinger K R, et al. Cognitive tutor: applied research in mathematics education. Psychonomic Bulletin & Review, 2007,14(2): 249~255
[5] Qiu J Z, Tang J, Liu T X, et al. Modeling and predicting learning behavior in MOOCs. Proceedings of the 9th ACM International Conference on Web Search and Data Mining (WSDM'16), San Francisco, USA, 2016 Accepted
[6] Ramesh A, Goldwasser D, Huang B, et al.Learning latent engagement patterns of students in online courses. Proceedings of the 28th AAAI Conference on Artificial Intelligence, Quebec City, Canada, 2014
[7] Anderson A, Huttenlocher D, Kleinberg J, et al.Engaging with massive online courses. Proceedings of the 23rd International Conference on World Wide Web, Seoul, Korea, 2014: 687~698
[8] Seo M, Hajishirzi H, Farhadi A, et al. Solving geometry problems: combining text and diagram interpretation. Proceedings of EMNLP, Lisbon, Portugal, 2015
[9] Hosseini M J, Hajishirzi H, Etzioni O, et al. Learning to solve arithmetic word problems with verb categorization. Proceedings of EMNLP, Doha, Qatar, 2014
[10] Tamhane A, Ikbal S, Sengupta B, et al.Predicting student risks through longitudinal analysis. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA, 2014: 1544~1552
呂紅胤,女,電子科技大學副研究員,主要研究方向為教育大數據理論與實踐研究、社會圈層研究。
連德富,男,電子科技大學講師、教育大數據研究所副所長,主要研究方向為機器學習、時空數據挖掘、推薦系統、教育數據挖掘。在ACM Trans.、KDD、Ubicomp、ICDM、WWW等國際頂級期刊和會議上發表論文10余篇。
聶敏,男,電子科技大學教育大數據研究所博士生,主要研究方向為大規模分布式計算、教育數據挖掘。現任成都尋道科技有限公司總經理,致力于教育大數據平臺級產品研發,有多年大數據相關技術經驗。
夏虎,男,電子科技大學副研究員、教育大數據研究所所長,主要研究方向為數據挖掘、社會網絡、文本挖掘。
周濤,男,電子科技大學教授,主要研究方向為統計物理與復雜性科學,發表SCI論文200余篇,引用12 000余次,H指數為53。
總結
以上是生活随笔為你收集整理的【2015年第4期】大数据引领教育未来:从成绩预测谈起的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者:李海林,博士,华侨大学信息管理系副
- 下一篇: 比较两个二维数组是否相等