大數(shù)據(jù)是近年來快速發(fā)展的技術(shù)領(lǐng)域。關(guān)于大數(shù)據(jù)的研究與應(yīng)用與日俱增,并不斷深入影響社會(huì)生活。購(gòu)物推薦、路況分析乃至高考預(yù)測(cè)等與大眾密切相關(guān)的應(yīng)用,充分展現(xiàn)了大數(shù)據(jù)的力量。2016年3月,AlphaGo與李世石的人機(jī)大戰(zhàn),讓人們從更深層次上認(rèn)識(shí)了大數(shù)據(jù)驅(qū)動(dòng)下的人工智能對(duì)人類社會(huì)的深層影響。根據(jù)大數(shù)據(jù)版圖(Big Data Landscape)3.0版本的描繪,大數(shù)據(jù)相關(guān)基礎(chǔ)設(shè)施、分析工具和應(yīng)用系統(tǒng)都在快速發(fā)展中[1]。這個(gè)逐年擴(kuò)展的圖景表明了大數(shù)據(jù)的疆域正在不斷延展,領(lǐng)域應(yīng)用不斷深化,影響力與日俱增。
在教育領(lǐng)域中,大數(shù)據(jù)已經(jīng)在多方面引起了研究者和實(shí)踐者的關(guān)注。無論是從研究范式、技術(shù)應(yīng)用,還是實(shí)踐案例都在快速發(fā)展之中。教育大數(shù)據(jù)正在成為教育領(lǐng)域不可忽視的新型驅(qū)動(dòng)力,在教育教學(xué)研究與實(shí)踐中發(fā)揮著越來越重要的作用。
作為一個(gè)新興領(lǐng)域,大數(shù)據(jù)技術(shù)仍在快速迭代之中,新方法、新工具和新模式不斷涌現(xiàn)。在教育大數(shù)據(jù)這個(gè)細(xì)分領(lǐng)域之中,在契合大數(shù)據(jù)發(fā)展整體趨勢(shì)的同時(shí),具有自身的鮮明特性。在教育大數(shù)據(jù)日趨矚目的今天,在研究大數(shù)據(jù)技術(shù)的基礎(chǔ)上,分析教育大數(shù)據(jù)的定義內(nèi)涵、實(shí)踐范例、發(fā)展趨勢(shì)與面臨挑戰(zhàn),有助于我們把握教育大數(shù)據(jù)的整體圖景,因應(yīng)技術(shù)發(fā)展,推動(dòng)教育的系統(tǒng)化變革。
一、大數(shù)據(jù)技術(shù)的發(fā)展趨勢(shì)
大數(shù)據(jù)技術(shù)的緣起,可以回溯到2004年谷歌公司提出的MapReduce模型[2]。在十幾年時(shí)間里,大數(shù)據(jù)技術(shù)從概念走向應(yīng)用,形成了以Hadoop為代表的一整套技術(shù)。時(shí)至今日,大數(shù)據(jù)技術(shù)仍在快速發(fā)展之中,無論是基礎(chǔ)框架、分析技術(shù),還是應(yīng)用系統(tǒng)都在不斷演變和完善。據(jù)統(tǒng)計(jì),2015年美國(guó)大數(shù)據(jù)初創(chuàng)企業(yè)獲得的融資額達(dá)到了66.4億美元,占整個(gè)技術(shù)領(lǐng)域總?cè)谫Y額的11%。這代表著大數(shù)據(jù)領(lǐng)域具有蓬勃的活力并受到市場(chǎng)的肯定。大數(shù)據(jù)技術(shù)的發(fā)展方向是技術(shù)發(fā)展與應(yīng)用需求相互推進(jìn)的結(jié)果,對(duì)大數(shù)據(jù)技術(shù)趨勢(shì)的分析,有助于從更本質(zhì)的層面理解這個(gè)領(lǐng)域的現(xiàn)狀。
(一)基礎(chǔ)架構(gòu)
歷經(jīng)多年發(fā)展,大數(shù)據(jù)基礎(chǔ)設(shè)施正在向著快速、便捷與整合的方向發(fā)展。Hadoop框架是大數(shù)據(jù)分析的重要基礎(chǔ)框架。但它存在著計(jì)算速度慢、運(yùn)維復(fù)雜等問題。基于Hadoop衍生出了如Spark、Pig等框架,正在不斷提升計(jì)算性能和優(yōu)化處理流程。與Hadoop相比,Spark的抽象層次更高,計(jì)算速度更快,編程更加簡(jiǎn)便。更重要的是,Spark提供了統(tǒng)一的數(shù)據(jù)平臺(tái),通過不同的模塊支持了不同類型的數(shù)據(jù)應(yīng)用。通過Spark Core支持批處理,通過Spark SQL支持?jǐn)?shù)據(jù)交互,通過Spark Streaming支持流式存儲(chǔ),通過MLlib支持機(jī)器學(xué)習(xí),通過GrphaX支持圖計(jì)算[3]。
在大數(shù)據(jù)基礎(chǔ)設(shè)施中,各種新技術(shù)不斷產(chǎn)生,數(shù)據(jù)湖(Data Lake)和霧計(jì)算(Fog Computing)分別從數(shù)據(jù)的集中與分布的不同角度給出了解決方案。數(shù)據(jù)湖是大型的基于對(duì)象的存儲(chǔ)庫(kù),數(shù)據(jù)以其原始格式存儲(chǔ)。不需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,就可以進(jìn)行全面的監(jiān)控和分析,并建立數(shù)據(jù)模型。與一般意義的數(shù)據(jù)匯聚不同,數(shù)據(jù)湖不需要改變?cè)紨?shù)據(jù)的結(jié)構(gòu),而是支持分析原始數(shù)據(jù)。這個(gè)方式消除了數(shù)據(jù)抽取、轉(zhuǎn)換和加載ETL的成本。為了達(dá)到不改變數(shù)據(jù)結(jié)構(gòu)直接存儲(chǔ)和技術(shù)的目標(biāo),數(shù)據(jù)湖對(duì)元數(shù)據(jù)有很高的要求。目前,數(shù)據(jù)湖技術(shù)仍在起步階段,還存在原始數(shù)據(jù)差別大、類型復(fù)雜、分析應(yīng)用困難等問題。但它有助于企業(yè)完成更長(zhǎng)遠(yuǎn)的數(shù)據(jù)規(guī)劃,建立數(shù)據(jù)治理結(jié)構(gòu),并預(yù)先解決安全問題[4]。數(shù)據(jù)湖與一般大數(shù)據(jù)匯集方式的對(duì)比,如表1所示。
與數(shù)據(jù)湖側(cè)重?cái)?shù)據(jù)的聚集不同,霧計(jì)算則提出了一種分布式解決方案。霧計(jì)算這一名詞最早來自網(wǎng)絡(luò)安全領(lǐng)域,后來由思科(Cisco)公司借用,并賦予了分布式計(jì)算的含義。思科將霧解釋為“更貼近地面的云”,霧計(jì)算是云計(jì)算的延伸。與云計(jì)算不同,霧計(jì)算并非由性能強(qiáng)大的服務(wù)器組成,而是由性能較弱、更為分散的各類計(jì)算模塊和智能網(wǎng)絡(luò)設(shè)置組成,這些低延遲且有能力進(jìn)行位置感知的模塊可以融入各類基礎(chǔ)設(shè)施,乃至生活用品[5]。
可以預(yù)見,隨著物聯(lián)網(wǎng)的不斷發(fā)展,來自各類終端的數(shù)據(jù)量會(huì)激增。面對(duì)這一情況,云計(jì)算的瓶頸可能會(huì)凸顯。在霧計(jì)算中,數(shù)據(jù)、分析和應(yīng)用都集中在網(wǎng)絡(luò)的終端節(jié)點(diǎn),只在需要的時(shí)候匯集到云中。云計(jì)算與霧計(jì)算的對(duì)比,如表2所示。
霧計(jì)算將計(jì)算能力延伸到了網(wǎng)絡(luò)的邊緣的各類智能設(shè)備。在這種模式下,智能設(shè)備的管理與交互就變得非常重要。比如,比特幣的底層技術(shù)“區(qū)塊鏈”(Block Chain)形成了行動(dòng)登記、權(quán)屬確認(rèn)和智能管理模式。這為通過網(wǎng)絡(luò)實(shí)現(xiàn)各種智能終端和設(shè)備實(shí)現(xiàn)自我管理和智能交互,提供了新的技術(shù)支持[6]。
數(shù)據(jù)湖和霧計(jì)算著眼于大數(shù)據(jù)的源頭和終端,從分布和集中兩個(gè)角度提供了解決方案。誠(chéng)然,這些方案需要通過實(shí)踐進(jìn)行檢驗(yàn)。但總體而言,數(shù)據(jù)湖和霧計(jì)算代表著大數(shù)據(jù)分析基礎(chǔ)設(shè)施的發(fā)展趨勢(shì),即采用更靈活的方式獲取和處理終端數(shù)據(jù),合理分布計(jì)算負(fù)載,對(duì)核心數(shù)據(jù)進(jìn)行廣泛匯集,通過定制標(biāo)準(zhǔn)實(shí)現(xiàn)數(shù)據(jù)治理。
(二)分析技術(shù)
分析技術(shù)是基于大數(shù)據(jù)進(jìn)行模型構(gòu)建,并進(jìn)行評(píng)價(jià)、推薦和預(yù)測(cè)等具體應(yīng)用的基礎(chǔ)。大數(shù)據(jù)分析技術(shù)在近年得到快速發(fā)展,智能化、實(shí)時(shí)化和易用性成為了分析技術(shù)的發(fā)展特征。
1.智能化
在分析技術(shù)方面,大數(shù)據(jù)與機(jī)器學(xué)習(xí)相結(jié)合形成的新型人工智能,已經(jīng)成為近年最引人矚目的趨勢(shì)。大數(shù)據(jù)與機(jī)器學(xué)習(xí)正讓數(shù)據(jù)分析在統(tǒng)計(jì)分析的基礎(chǔ)上,更快速地實(shí)現(xiàn)智能關(guān)系發(fā)現(xiàn)和預(yù)測(cè),如圖1所示。AlphaGo就是這一趨勢(shì)的典型應(yīng)用范例。在海量數(shù)據(jù)的基礎(chǔ)上,以深度學(xué)習(xí)為代表的創(chuàng)新算法,通過大規(guī)模并行計(jì)算,不斷迭代演化,最終形成了能夠戰(zhàn)勝人類的數(shù)據(jù)智能。
圖1 數(shù)據(jù)與算法迭代演化形成數(shù)據(jù)智能
大數(shù)據(jù)與機(jī)器學(xué)習(xí)整合所實(shí)現(xiàn)的人工智能,其意義不限于特定的領(lǐng)域應(yīng)用,而是實(shí)現(xiàn)了一般性人工智能技術(shù)的突破。這一突破將在醫(yī)療、交通、金融和教育等為代表的各個(gè)應(yīng)用領(lǐng)域產(chǎn)生重大影響。從更為廣闊的角度,以智慧城市為代表的智能化系統(tǒng)解決方案,預(yù)示著智能化大數(shù)據(jù)技術(shù)綜合應(yīng)用的未來前景。由各類設(shè)備和傳感器獲得的數(shù)據(jù),可以成為智能化分析的數(shù)據(jù)來源?;诖髷?shù)據(jù)的機(jī)器學(xué)習(xí)在完成海量數(shù)據(jù)匯集與分析的同時(shí),不斷演化、提高自身智能水平。數(shù)據(jù)分析結(jié)果驅(qū)動(dòng)智慧城市各個(gè)組成部分的智能化活動(dòng),基于數(shù)據(jù)智能的新型技術(shù)架構(gòu),為未來城市的智慧生活奠定了基礎(chǔ)。
2.實(shí)時(shí)化
實(shí)時(shí)分析是大數(shù)據(jù)技術(shù)的另一個(gè)發(fā)展方向。隨著大數(shù)據(jù)技術(shù)的深入發(fā)展,各類應(yīng)用對(duì)于數(shù)據(jù)的實(shí)時(shí)分析和處理的要求不斷提高。與針對(duì)歷史數(shù)據(jù)的聚合和分析不同,實(shí)時(shí)數(shù)據(jù)分析具有更強(qiáng)的時(shí)效性,也對(duì)數(shù)據(jù)存儲(chǔ)、計(jì)算和呈現(xiàn)提出了更高要求。Hadoop中的批處理框架在對(duì)實(shí)效性要求較高的分析,例如,實(shí)時(shí)用戶行為分析、用戶分類和推薦等應(yīng)用場(chǎng)景中的局限日益凸顯。Spark Streaming、Samza、Storm等流式實(shí)時(shí)計(jì)算框架應(yīng)運(yùn)而生。以Spark Streaming為代表的實(shí)時(shí)分析框架具有優(yōu)秀的調(diào)度機(jī)制,快速的分布式計(jì)算能力,在數(shù)據(jù)的匯聚和批處理之間通過關(guān)鍵參數(shù)建立平衡,提升了數(shù)據(jù)吞吐量和性能,對(duì)實(shí)時(shí)計(jì)算提供了有效支持[7]。實(shí)時(shí)性預(yù)示著大數(shù)據(jù)將更深度地融入人們的工作和生活之中,在交通、翻譯等需要及時(shí)響應(yīng)的領(lǐng)域中,大數(shù)據(jù)會(huì)體現(xiàn)出更強(qiáng)大的作用。
3.易用性
近年來,隨著技術(shù)的不斷成熟,大數(shù)據(jù)應(yīng)用的門檻不斷降低。Google、微軟等巨頭不斷推出大數(shù)據(jù)技術(shù)平臺(tái)。我國(guó)互聯(lián)網(wǎng)三巨頭百度、阿里和騰訊分別推出了百度開放云、阿里數(shù)加和騰訊大數(shù)據(jù)平臺(tái),在應(yīng)用技術(shù)方面提供了全面的支持。從數(shù)據(jù)匯集、模型構(gòu)建到可視化應(yīng)用方面都提供了高質(zhì)量的解決方案。并且,這些分析框架中存在很多優(yōu)秀的開源項(xiàng)目,如,Caffe、Torch等[8]。Google為Tensor Flow的開源分析工具提供了一個(gè)重要選擇,Tensor Flow的開發(fā)者來自Google Brain團(tuán)隊(duì),它整合了Google在搜索引擎、電子郵件和翻譯、圖像識(shí)別等方面的分析成果。并且應(yīng)用了數(shù)據(jù)圖技術(shù)(Data Flow Graphic)將模型構(gòu)建過程和產(chǎn)品開發(fā)緊密結(jié)合,在完成建模實(shí)驗(yàn)之后就可以直接將代碼應(yīng)用到產(chǎn)品中。易用性為大數(shù)據(jù)在垂直領(lǐng)域的應(yīng)用鋪平了道路。
(三)領(lǐng)域應(yīng)用
在基礎(chǔ)框架和應(yīng)用技術(shù)的支持之下,大數(shù)據(jù)在各個(gè)領(lǐng)域中的應(yīng)用也在不斷快速地深入發(fā)展,展現(xiàn)出了領(lǐng)域應(yīng)用深化與融合、可視化應(yīng)用廣泛和產(chǎn)業(yè)生態(tài)鏈萌發(fā)的特征。
1.領(lǐng)域深化與融合
大數(shù)據(jù)在方法論層面上影響著多個(gè)領(lǐng)域的研究與實(shí)踐[9-11],作為新的研究范式影響著眾多學(xué)科。在各個(gè)領(lǐng)域應(yīng)用中,大數(shù)據(jù)作為基礎(chǔ)方法與工具有著一定的普適性,也具有鮮明的領(lǐng)域特征與領(lǐng)域差異。數(shù)據(jù)不同于金融、交通、零售等領(lǐng)域有著較為明確的量化指標(biāo)作為機(jī)器學(xué)習(xí)的依據(jù)。在教育等社會(huì)科學(xué)相關(guān)領(lǐng)域中,大數(shù)據(jù)分析模型建立過程中形成的類量化指標(biāo)往往很難獲得。這就使得教育領(lǐng)域的模型構(gòu)建具有了一定的獨(dú)特性。同時(shí),教育教學(xué)自身的周期性和復(fù)雜性,也為模型構(gòu)建提出了新的挑戰(zhàn)。
隨著大數(shù)據(jù)的發(fā)展,領(lǐng)域應(yīng)用將逐步深入。在各個(gè)領(lǐng)域中需要借助領(lǐng)域知識(shí),針對(duì)領(lǐng)域問題進(jìn)行深層次研究與實(shí)踐。在此過程中,以數(shù)據(jù)為橋梁,各個(gè)領(lǐng)域的融合將成為可能。例如,始于氣象系統(tǒng)的DMSP/OLS夜間燈光數(shù)據(jù),已經(jīng)在遙感測(cè)繪、城市規(guī)劃、人口估計(jì)、國(guó)民經(jīng)濟(jì)測(cè)算、能源消耗以及生態(tài)環(huán)境影響評(píng)估方面取得了令人矚目的成果[12]。基于大數(shù)據(jù),各個(gè)領(lǐng)域自身發(fā)生深刻變化的同時(shí),領(lǐng)域之間的比較出現(xiàn)加速融合的趨勢(shì)。大數(shù)據(jù)技術(shù)在領(lǐng)域內(nèi)的深入發(fā)展,和領(lǐng)域間的融合發(fā)展將日趨重要。
2.可視化應(yīng)用
可視化是大數(shù)據(jù)應(yīng)用的呈現(xiàn)層面,直接面向終端用戶,并通過各類應(yīng)用場(chǎng)景服務(wù)各類人群。數(shù)據(jù)可視化可以通過多種方式實(shí)現(xiàn),從較為底層的R語言Ggplot擴(kuò)展包、D3函數(shù)庫(kù),到SPSS Modeler、Tableau等數(shù)據(jù)分析和可視化工具。數(shù)據(jù)可視化的方法和工具種類繁多,近年來,可視化工具的應(yīng)用門檻不斷降低。SAP、Tableau等重量級(jí)數(shù)據(jù)分析企業(yè)都推出了移動(dòng)端數(shù)據(jù)可視化工具。以SAP的Roambi為例,只需要導(dǎo)入數(shù)據(jù)集,選擇模板,Roambi就能夠馬上完成精美的可視化圖表并支持互動(dòng)[13]。Tableau不僅推出了Tableau Mobile支持移動(dòng)端數(shù)據(jù)分析,還通過Tableau Public和Desktop等工具,構(gòu)建了包含桌面分析、在線發(fā)布和移動(dòng)應(yīng)用的整體可視化方案[14]。
在各類工具支持下,數(shù)據(jù)可視化的應(yīng)用門檻大大降低,為更加廣泛的應(yīng)用奠定了基礎(chǔ)。數(shù)據(jù)可視化作為大數(shù)據(jù)技術(shù)的表現(xiàn)層,是數(shù)據(jù)分析與洞察的“最后一英里”。隨著這個(gè)環(huán)節(jié)的不斷優(yōu)化與人性化,數(shù)據(jù)分析的廣泛應(yīng)用指日可待。
3.生態(tài)鏈萌發(fā)
2015年8月,國(guó)務(wù)院發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,將大數(shù)據(jù)定位于推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動(dòng)力,重塑國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì)的新機(jī)遇以及提升政府治理能力的新途徑[15]?!洞龠M(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》成為了大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的政策依據(jù),必將對(duì)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展起到催化作用。大數(shù)據(jù)產(chǎn)業(yè)的資金投入、基礎(chǔ)設(shè)施、數(shù)據(jù)標(biāo)準(zhǔn)、應(yīng)用平臺(tái)、區(qū)域?qū)嵺`必將呈現(xiàn)加速發(fā)展趨勢(shì)。同時(shí),正如前文所述,大型互聯(lián)網(wǎng)企業(yè)如百度、阿里和騰訊等,已經(jīng)在大數(shù)據(jù)領(lǐng)域發(fā)力,并開始構(gòu)建基礎(chǔ)設(shè)施、制定標(biāo)準(zhǔn)、推廣應(yīng)用,在各個(gè)應(yīng)用領(lǐng)域的大數(shù)據(jù)實(shí)踐也在快速開展。
可見,在政策重點(diǎn)支持、工具平臺(tái)日漸成熟、領(lǐng)域應(yīng)用不斷深入的合力之下,大數(shù)據(jù)產(chǎn)業(yè)鏈正逐步形成,生態(tài)體系正在孕育之中。生態(tài)鏈將催生一系列數(shù)據(jù)標(biāo)準(zhǔn),形成多種整合型技術(shù)路線,打通原始數(shù)據(jù)到終端應(yīng)用,將大數(shù)據(jù)應(yīng)用推向新的層次。
二、教育大數(shù)據(jù)的含義
教育大數(shù)據(jù)的含義,需要從數(shù)據(jù)和技術(shù)兩個(gè)層面進(jìn)行解析。在引用較多的大數(shù)據(jù)定義中,維基百科定義[16]和麥肯錫(McKinsey)定義[17]都強(qiáng)調(diào)了大數(shù)據(jù)的量,無法用常見數(shù)據(jù)工具處理;而高德納(Gartner)定義則著眼于數(shù)據(jù)的特性與價(jià)值[18]。為了解析教育大數(shù)據(jù)的真正意義,需要對(duì)教育大數(shù)據(jù)的構(gòu)成和特性進(jìn)行分析。
在教育大數(shù)據(jù)的構(gòu)成方面,在線學(xué)習(xí)的數(shù)據(jù)首當(dāng)其沖??梢哉f教育大數(shù)據(jù)的廣受關(guān)注,與在線教與學(xué)的盛行有著密不可分的關(guān)系。在舍恩伯格的《與大數(shù)據(jù)同行——學(xué)習(xí)和教育的未來》一書中,第一個(gè)大數(shù)據(jù)教育應(yīng)用案例就來自在線學(xué)習(xí)。隨著在線教學(xué)的日益普及,在教與學(xué)過程中,由學(xué)習(xí)管理系統(tǒng)和各類移動(dòng)設(shè)備所記錄下來的各類海量數(shù)據(jù),成為分析教學(xué)過程的重要來源。這些數(shù)據(jù)包括記錄學(xué)習(xí)過程的行為數(shù)據(jù),記錄學(xué)習(xí)結(jié)果的評(píng)價(jià)數(shù)據(jù),以及學(xué)習(xí)形成的社會(huì)網(wǎng)絡(luò)關(guān)系數(shù)據(jù)等。由這些數(shù)據(jù)拓展開來,教育大數(shù)據(jù)還包含著各類學(xué)生個(gè)人信息數(shù)據(jù)、教學(xué)管理數(shù)據(jù)等。可見,教育大數(shù)據(jù)來自于教育教學(xué)的主體和過程。
依照不同層級(jí)的主體和教育教學(xué)活動(dòng)的各項(xiàng)內(nèi)容,教育大數(shù)據(jù)可以分為四個(gè)層次和六大類型。四個(gè)層次包括個(gè)體、學(xué)校、區(qū)域和國(guó)家;六大類型包括基礎(chǔ)數(shù)據(jù)、教學(xué)數(shù)據(jù)、科研數(shù)據(jù)、管理數(shù)據(jù)、服務(wù)數(shù)據(jù)和輿情數(shù)據(jù)。其中,基礎(chǔ)數(shù)據(jù)包括以人口學(xué)為代表的學(xué)習(xí)者基本信息數(shù)據(jù);教學(xué)數(shù)據(jù)包括教學(xué)過程中涉及的過程、內(nèi)容和結(jié)果數(shù)據(jù);科研數(shù)據(jù)包括各類教育教學(xué)實(shí)驗(yàn)與科研項(xiàng)目當(dāng)中所獲得的數(shù)據(jù);管理數(shù)據(jù)包括各類教育管理系統(tǒng)當(dāng)中所記錄下來的數(shù)據(jù),如,學(xué)生的學(xué)籍?dāng)?shù)據(jù)、檔案數(shù)據(jù)和各類統(tǒng)計(jì)數(shù)據(jù)等等;服務(wù)數(shù)據(jù)包括各類與教育教學(xué)相關(guān)的服務(wù)系統(tǒng)當(dāng)中記錄的數(shù)據(jù),如,各類師生生活服務(wù)、圖書檔案服務(wù)等等;輿情數(shù)據(jù)包括各類公開媒體中與教育相關(guān)的數(shù)據(jù),如,各類教育新聞數(shù)據(jù)、微博等社會(huì)網(wǎng)絡(luò)系統(tǒng)中教育相關(guān)數(shù)據(jù)等。
從特征的角度看,大數(shù)據(jù)的特點(diǎn)往往被概括為4V,包括海量規(guī)模(Volume)、快速流轉(zhuǎn)(Velocity)、多樣構(gòu)成(Variety)和巨大價(jià)值(Value)。教育大數(shù)據(jù)的特征與4V既有重合又有不同:首先,從規(guī)模上看,教育大數(shù)據(jù)的體量尚未達(dá)到零售業(yè)、電信業(yè)等領(lǐng)域的規(guī)模,但已經(jīng)超出了傳統(tǒng)數(shù)據(jù)工具的處理能力。其次,從流動(dòng)速度的角度,教育大數(shù)據(jù)流轉(zhuǎn)速度相對(duì)較慢,并不像交易數(shù)據(jù)、搜索數(shù)據(jù)或通訊數(shù)據(jù)具有快速流轉(zhuǎn)的特性。相應(yīng)地,教育教學(xué)的周期性決定了教育大數(shù)據(jù)具有典型的周期性。進(jìn)而從數(shù)據(jù)構(gòu)成方面看,教育大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù),特別是音視頻數(shù)據(jù)占很大比重。這些數(shù)據(jù)來自課堂錄像、教學(xué)資源等,不同于傳統(tǒng)數(shù)據(jù)庫(kù)記錄的數(shù)據(jù),具有一定的分析復(fù)雜性。同時(shí)與電商等領(lǐng)域中步驟清晰、結(jié)果明確、周期較短的交易活動(dòng)不同,教育教學(xué)活動(dòng)具有更高的過程復(fù)雜性。通過教育大數(shù)據(jù)分析發(fā)現(xiàn)規(guī)律也就更為困難??梢娊逃髷?shù)據(jù)的特征可以概括為強(qiáng)周期性、高復(fù)雜性和巨大價(jià)值。
綜上所述,我們可以把教育大數(shù)據(jù)定義為:服務(wù)教育主體和教育過程,具有強(qiáng)周期性和巨大教育價(jià)值的高復(fù)雜性數(shù)據(jù)集合,具體如圖2所示。
圖2 教育大數(shù)據(jù)的構(gòu)成
三、教育大數(shù)據(jù)的應(yīng)用
對(duì)于教育大數(shù)據(jù)的應(yīng)用,研究者從不同的角度提出了各自的思考。祝智庭教授從研究范式的角度,提出了大數(shù)據(jù)對(duì)教育技術(shù)研究方法的啟示,并著重強(qiáng)調(diào)了數(shù)據(jù)支持下的自適應(yīng)學(xué)習(xí)。鄭燕林和柳海民認(rèn)為,教育大數(shù)據(jù)的應(yīng)用主要是對(duì)教育評(píng)價(jià)和教育教學(xué)決策的支持[19]。胡弼成和王祖霖將大數(shù)據(jù)應(yīng)用總結(jié)為通過評(píng)價(jià)和預(yù)測(cè)促進(jìn)教學(xué)有效性,基于變化的教育形式和復(fù)雜關(guān)系推動(dòng)教育決策的科學(xué)性,完整、全面、動(dòng)態(tài)的質(zhì)量監(jiān)控體系[20]。楊現(xiàn)民等研究者認(rèn)為,教育大數(shù)據(jù)應(yīng)用可以分為政策科學(xué)化、區(qū)域教育均衡、學(xué)校教育質(zhì)量提升、課程體系與教學(xué)效果最優(yōu)化、個(gè)體的個(gè)性化發(fā)展等層面[21]。
大數(shù)據(jù)對(duì)教育領(lǐng)域的沖擊是全面性的。它能夠改變個(gè)體學(xué)習(xí)者的學(xué)習(xí)狀況、對(duì)教育規(guī)律的認(rèn)識(shí)深度、教育政策的制定方式,乃至整個(gè)教育系統(tǒng)的結(jié)構(gòu)。從需求的角度,教育大數(shù)據(jù)的應(yīng)用可以概括為五個(gè)層次,即學(xué)習(xí)、教學(xué)、研究、管理與政策。學(xué)習(xí)層與教學(xué)層需求著眼于適應(yīng)性學(xué)習(xí);研究層需求著眼于發(fā)現(xiàn)教育教學(xué)規(guī)律;管理層需求著眼于精細(xì)管理和科學(xué)決策;政策層需求來自獲得機(jī)制設(shè)計(jì)依據(jù),如圖3所示。
圖3 教育大數(shù)據(jù)的應(yīng)用
針對(duì)不同層次的需求,教育大數(shù)據(jù)應(yīng)用形成了各種產(chǎn)品和服務(wù)。從適應(yīng)性教學(xué)到動(dòng)態(tài)跟蹤測(cè)評(píng),從管理模型構(gòu)建到數(shù)據(jù)共享門戶,各種類型的應(yīng)用勾勒出了大數(shù)據(jù)影響教育領(lǐng)域的整體圖景。
我們不妨通過國(guó)際范圍內(nèi)典型的技術(shù)、產(chǎn)品和服務(wù),從適應(yīng)性教學(xué)、教育規(guī)律發(fā)現(xiàn)和精準(zhǔn)管理支持三個(gè)方面,對(duì)有較大影響的教育大數(shù)據(jù)國(guó)際應(yīng)用進(jìn)行分析,以期對(duì)我國(guó)教育大數(shù)據(jù)發(fā)展應(yīng)用提供借鑒。
(一)適應(yīng)性教學(xué)支持
適應(yīng)性教與學(xué)是教學(xué)的最優(yōu)化狀態(tài)。適應(yīng)性教學(xué)中的內(nèi)容、方法和過程都可以根據(jù)學(xué)習(xí)者的狀況來進(jìn)行定制,讓每個(gè)學(xué)習(xí)者都有可能獲得適合自己的最大程度的發(fā)展。適應(yīng)性教學(xué)的實(shí)現(xiàn),需要基于學(xué)習(xí)者的個(gè)體特征和學(xué)習(xí)狀況的全面分析。大數(shù)據(jù)為追蹤和整合這些數(shù)據(jù),并對(duì)學(xué)生進(jìn)行個(gè)性化支持提供了可能,如圖4所示。
圖4 適應(yīng)性教學(xué)的構(gòu)成
最為常見的適應(yīng)性教學(xué)系統(tǒng)來自在線學(xué)習(xí)領(lǐng)域。在各種學(xué)習(xí)管理系統(tǒng)和在線學(xué)習(xí)平臺(tái)中,學(xué)習(xí)者的學(xué)習(xí)過程能夠得到完整記錄。學(xué)習(xí)過程的記錄結(jié)合人口學(xué)和學(xué)習(xí)風(fēng)格等學(xué)習(xí)者特征數(shù)據(jù),可以清晰地表征學(xué)習(xí)者的學(xué)習(xí)路徑和學(xué)習(xí)者特征,在有效記錄學(xué)習(xí)過程、綜合評(píng)價(jià)學(xué)習(xí)狀況的基礎(chǔ)上,進(jìn)行診斷和推薦,開展有針對(duì)性的教學(xué)。
適應(yīng)性學(xué)習(xí)支持幾乎已經(jīng)成了在線學(xué)習(xí)的“標(biāo)配”,在每一個(gè)商業(yè)在線學(xué)習(xí)平臺(tái)中,都有不同程度的適應(yīng)性。內(nèi)容推薦是適應(yīng)性的一種主要形式。然而,真正有效的適應(yīng)性教學(xué)系統(tǒng)需要整合三個(gè)系統(tǒng),即知識(shí)系統(tǒng)、行為系統(tǒng)和特征系統(tǒng)。通過知識(shí)系統(tǒng)來描繪知識(shí)體系;通過行為系統(tǒng)來記錄學(xué)習(xí)、練習(xí)和反饋過程;通過特征系統(tǒng)去分析學(xué)生的個(gè)體特征和學(xué)習(xí)特質(zhì)。
當(dāng)前,最具代表意義的適應(yīng)性學(xué)習(xí)系統(tǒng)當(dāng)屬Knewton和可汗學(xué)院(Kehan Academy)。此類適應(yīng)性學(xué)習(xí)系統(tǒng)重點(diǎn)支持了學(xué)生的學(xué)。學(xué)習(xí)系統(tǒng)試圖扮演教師的角色,對(duì)學(xué)生的學(xué)習(xí)進(jìn)行自動(dòng)化記錄、診斷和干預(yù)。適應(yīng)性學(xué)習(xí)的另一個(gè)層面是對(duì)教師教的支持。應(yīng)當(dāng)看到,目前的學(xué)習(xí)系統(tǒng)還存在諸多局限,在MOOCs發(fā)展的初期,教師是否會(huì)被在線課堂所替代曾經(jīng)成為一個(gè)引人矚目的話題。然而,教師作為教育過程中的關(guān)鍵角色,不可能在短時(shí)間消失,而是會(huì)借助技術(shù)實(shí)現(xiàn)專業(yè)水平提升和角色轉(zhuǎn)變。大數(shù)據(jù)將成為教師教學(xué)的強(qiáng)大助手,幫助教師更好地發(fā)揮自身作用,更好地促進(jìn)學(xué)生的學(xué)習(xí)。
在大數(shù)據(jù)技術(shù)支持下,教師可以根據(jù)自身的需求對(duì)學(xué)生的學(xué)習(xí)進(jìn)行監(jiān)測(cè),并通過自己設(shè)定的標(biāo)準(zhǔn),對(duì)學(xué)生進(jìn)行自動(dòng)化或半自動(dòng)化的評(píng)價(jià)。在數(shù)據(jù)的支持下,教師可以結(jié)合自身的教學(xué)經(jīng)驗(yàn)對(duì)學(xué)生進(jìn)行診斷和干預(yù)。在教師的訓(xùn)練下,大數(shù)據(jù)工具將對(duì)教師的教提供更有力的支持。大數(shù)據(jù)工具將成為教師最好的幫手,而不是競(jìng)爭(zhēng)者。
以Masteryconnect為例,Masteryconnect對(duì)教師的教提供了全面的數(shù)據(jù)化支持,它從教師的日常工作出發(fā),提供了數(shù)據(jù)采集、分析、呈現(xiàn)和基于數(shù)據(jù)的協(xié)作支持。教師可以在其支持下采集各種教學(xué)數(shù)據(jù),包括課堂觀察數(shù)據(jù)、答題卡數(shù)據(jù)、量表數(shù)據(jù)和在線測(cè)試數(shù)據(jù)。在采集數(shù)據(jù)之后,Masteryconnect可以進(jìn)行自動(dòng)化分析和可視化呈現(xiàn)。分析的結(jié)果可以通過該系統(tǒng)分享給其他教師,教師可以在數(shù)據(jù)的基礎(chǔ)上進(jìn)行交流和協(xié)作。Masteryconnect為各種形成性評(píng)價(jià)提供了全面的支持,教師可以自行建立教學(xué)內(nèi)容的結(jié)構(gòu),并為各個(gè)模塊和知識(shí)點(diǎn)設(shè)計(jì)問卷、練習(xí)、試卷等各種測(cè)評(píng)方式。測(cè)評(píng)可以發(fā)布到PC和移動(dòng)設(shè)備,學(xué)生可以選擇自己喜歡的方式完成測(cè)評(píng)。同時(shí),測(cè)評(píng)結(jié)果可以形成定制報(bào)告,并發(fā)送給家長(zhǎng)[22]。
對(duì)教與學(xué)的支持是大數(shù)據(jù)在適應(yīng)性學(xué)習(xí)中應(yīng)用的兩個(gè)側(cè)面。基于數(shù)據(jù),學(xué)生的學(xué)習(xí)狀態(tài)得以完整記錄,學(xué)習(xí)系統(tǒng)可以推送定制化內(nèi)容,教師可以開展更具針對(duì)性的教學(xué)??梢姡瑪?shù)據(jù)正在改變著線上和線下的教學(xué)過程。
(二)教育規(guī)律發(fā)現(xiàn)
教育研究是一項(xiàng)復(fù)雜的系統(tǒng)性研究。長(zhǎng)期以來,小樣本量、個(gè)案研究對(duì)教育規(guī)律探索起到了重要作用。而教育大數(shù)據(jù)的引入,大大拓展了教育規(guī)律探索的視角。圖靈獎(jiǎng)得主吉姆·格雷在《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》一書中,提出了一種新型研究范式,即數(shù)據(jù)密集型研究,這將成為大數(shù)據(jù)時(shí)代教育研究的利器之一。
換言之,在大數(shù)據(jù)的驅(qū)動(dòng)下,教育研究將出現(xiàn)不同的態(tài)勢(shì),通過挖掘、分析教育大數(shù)據(jù),研究者可以量化學(xué)習(xí)過程,表征學(xué)習(xí)狀態(tài),發(fā)現(xiàn)影響因素,找到干預(yù)策略,從更深的層次揭示教育規(guī)律。誠(chéng)然,規(guī)律發(fā)現(xiàn)并非易事。但可以肯定的是,在多來源、大體量數(shù)據(jù)的基礎(chǔ)上,通過技術(shù)手段進(jìn)行數(shù)據(jù)匯集和共享,組織研究者進(jìn)行群體協(xié)作,開展大量能夠進(jìn)行標(biāo)準(zhǔn)化,具有對(duì)比意義的研究,最終更易發(fā)現(xiàn)真實(shí)的教育規(guī)律,如圖5所示。
這里可以通過對(duì)美國(guó)的三個(gè)大數(shù)據(jù)教育應(yīng)用的案例,即“預(yù)測(cè)分析報(bào)告項(xiàng)目(Predictive Analytics Reporting,PAR)、數(shù)據(jù)商店(Data Shop)和Data.gov”的介紹與分析,充分了解大數(shù)據(jù)標(biāo)準(zhǔn)化研究和數(shù)據(jù)門戶對(duì)教育規(guī)律探索的意義。
美國(guó)的預(yù)測(cè)分析報(bào)告項(xiàng)目(PAR)對(duì)高校學(xué)生的學(xué)習(xí)狀況進(jìn)行了全面分析,在學(xué)生輟學(xué)等重要風(fēng)險(xiǎn)的預(yù)測(cè)方面進(jìn)行了探索。從2011年開始,該項(xiàng)目與美國(guó)的高校合作,建立了標(biāo)準(zhǔn)化數(shù)據(jù)收集框架,通過對(duì)學(xué)生學(xué)習(xí)數(shù)據(jù)的收集和分析,發(fā)現(xiàn)影響因子并構(gòu)建預(yù)測(cè)模型。該項(xiàng)目分析的原始數(shù)據(jù)包括學(xué)生人口學(xué)數(shù)據(jù)、教學(xué)管理數(shù)據(jù)、學(xué)習(xí)過程數(shù)據(jù)、成績(jī)數(shù)據(jù)和學(xué)生財(cái)務(wù)信息數(shù)據(jù)等。通過分析,該項(xiàng)目建立了通用分析標(biāo)準(zhǔn)和風(fēng)險(xiǎn)預(yù)測(cè)模型,并為各個(gè)學(xué)校提供了定制化風(fēng)險(xiǎn)因素模型。迄今,PAR已經(jīng)服務(wù)351家院校,分析了超過2000萬條課程數(shù)據(jù)。PAR也為學(xué)校分析學(xué)生學(xué)業(yè)表現(xiàn)提供了綜合視角,為防止學(xué)生輟學(xué)提供了有效手段[23]。
教育大數(shù)據(jù)研究需要大量匯集數(shù)據(jù),數(shù)據(jù)匯集需要大量研究者的群策群力,也需要行之有效的組織機(jī)制。匹茲堡大學(xué)學(xué)習(xí)科學(xué)中心(Pittsburgh Science of Learning Center)的數(shù)據(jù)商店(Data Shop),是美國(guó)自然科學(xué)基金支持建立的學(xué)習(xí)科學(xué)數(shù)據(jù)庫(kù)。經(jīng)過十多年的建設(shè),已經(jīng)成為全球最大的學(xué)習(xí)數(shù)據(jù)分享社區(qū)[24]。數(shù)據(jù)商店具有數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析兩大類功能:一方面,它為全球?qū)W習(xí)科學(xué)研究者提供安全的數(shù)據(jù)存儲(chǔ)與共享工具;另一方面,它提供了數(shù)據(jù)分析工具和調(diào)用接口,便于分析應(yīng)用。數(shù)據(jù)商店中的數(shù)據(jù),分為公開數(shù)據(jù)和私有數(shù)據(jù),研究者可以根據(jù)需要選擇自己的數(shù)據(jù)是否要公開。數(shù)據(jù)商店中的數(shù)據(jù),包括教學(xué)軟件應(yīng)用數(shù)據(jù)、在線課程數(shù)據(jù)、智能教學(xué)系統(tǒng)(Intelligent Tutoring Systems)、虛擬實(shí)驗(yàn)室數(shù)據(jù)、協(xié)作學(xué)習(xí)系統(tǒng)數(shù)據(jù)等。在數(shù)據(jù)匯集和分享功能的基礎(chǔ)上,數(shù)據(jù)商店提供了豐富的數(shù)據(jù)分析功能,支持探索性統(tǒng)計(jì)分析和數(shù)據(jù)挖掘,提供Web Service支持遠(yuǎn)程調(diào)用,以及R語言、Excel等工具的接口。
美國(guó)教育部在教育研究與實(shí)踐數(shù)據(jù)匯集方面開展了大量工作,匯集了大量數(shù)據(jù)。截至2016年5月,在其數(shù)據(jù)門戶Data.gov中,匯聚的數(shù)據(jù)包含了325個(gè)大型數(shù)據(jù)集。數(shù)據(jù)包含范圍很廣,涉及人口統(tǒng)計(jì)、學(xué)習(xí)成績(jī)、貸款情況、校園安全等情況。Data.gov針對(duì)各類數(shù)據(jù)提供了多種數(shù)據(jù)格式,同時(shí),提供了在線數(shù)據(jù)分析功能,它可以實(shí)現(xiàn)靈活便捷的在線數(shù)據(jù)可視化。同時(shí),Data.gov還為每個(gè)數(shù)據(jù)集提供了API,便于外部調(diào)用與分析。
由此可見,大數(shù)據(jù)分析對(duì)于教育研究及規(guī)律的發(fā)現(xiàn)意義重大。上述三個(gè)案例——預(yù)測(cè)分析報(bào)告項(xiàng)目、數(shù)據(jù)商店和Data.gov,對(duì)于我們利用大數(shù)據(jù)研究教育現(xiàn)象、發(fā)現(xiàn)與探索教育規(guī)律,有著重要的借鑒意義。因?yàn)橐?guī)律的發(fā)現(xiàn),需要針對(duì)特定研究主題進(jìn)行長(zhǎng)期研究,需要大量標(biāo)準(zhǔn)化數(shù)據(jù)支持,需要對(duì)基于數(shù)據(jù)的研究與協(xié)作作廣泛支持。對(duì)于重要的教育研究主題,設(shè)定數(shù)據(jù)標(biāo)準(zhǔn),進(jìn)行長(zhǎng)期縱向跟蹤和廣泛橫向比較研究,是探索教育規(guī)律的有效途徑。同時(shí),還需要建立更加通暢的數(shù)據(jù)分享渠道,通過開放,最大化實(shí)現(xiàn)數(shù)據(jù)的應(yīng)用價(jià)值,以便為研究提供更加廣泛的支持。
(三)精準(zhǔn)管理支持
在學(xué)校和教育機(jī)構(gòu)中,管理者時(shí)常面對(duì)無法及時(shí)掌握教學(xué)與管理綜合狀況的困境。這也導(dǎo)致了教育管理常常是粗放的、由直覺驅(qū)動(dòng)的現(xiàn)狀。數(shù)據(jù)對(duì)于學(xué)校和教育機(jī)構(gòu)的精準(zhǔn)管理和科學(xué)決策,可以起到重要的支持、調(diào)節(jié)作用?;跀?shù)據(jù)的管理,需要通過匯集各類管理與教學(xué)數(shù)據(jù),構(gòu)建多維模型。以Learnsprout、Calarity、Altschool等為代表的數(shù)據(jù)化管理應(yīng)用,體現(xiàn)了數(shù)據(jù)建模對(duì)于精準(zhǔn)管理的重要支撐作用,如圖6所示。
圖6 數(shù)據(jù)支持下管理模型構(gòu)建
Learnsprout能夠整合學(xué)生信息系統(tǒng)和學(xué)習(xí)管理系統(tǒng)的數(shù)據(jù),對(duì)學(xué)生日常表現(xiàn)進(jìn)行監(jiān)測(cè),通過構(gòu)建模型對(duì)學(xué)生綜合狀況進(jìn)行分析,并對(duì)管理和教學(xué)提出建議。例如,Learnsprout能夠?qū)Ω咧袑W(xué)生進(jìn)入大學(xué)的準(zhǔn)備情況等進(jìn)行評(píng)價(jià),對(duì)存在問題的學(xué)生進(jìn)行早期預(yù)警,提出教學(xué)干預(yù)建議,并評(píng)估干預(yù)效果。Learnsprout不僅提供了自動(dòng)化分析,還建立了有教育專家和數(shù)據(jù)專家構(gòu)成的團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行深入挖掘,并形成分析報(bào)告。Learnsprout已經(jīng)在美國(guó)42個(gè)州、200多個(gè)學(xué)區(qū)的2500多所學(xué)校中得以廣泛應(yīng)用。該公司于2016年1月被蘋果公司收購(gòu),這也從一個(gè)側(cè)面說明了市場(chǎng)對(duì)其應(yīng)用效果的認(rèn)可。
Calarity是通過構(gòu)建模型提供管理支持的另一個(gè)典型案例。Calarity旨在評(píng)估學(xué)校應(yīng)用信息化技術(shù)促進(jìn)教學(xué)的狀況,并提出改進(jìn)建議。它針對(duì)學(xué)校師生的技術(shù)應(yīng)用情況,采集了280個(gè)數(shù)據(jù)點(diǎn),建立82個(gè)變量,形成21個(gè)指標(biāo),進(jìn)而聚合成了4個(gè)維度,分別為課堂學(xué)習(xí)、技術(shù)應(yīng)用、信息化技能和信息化環(huán)境[25]。在模型化數(shù)據(jù)分析的基礎(chǔ)上,Calarity對(duì)存在的問題進(jìn)行了分析和診斷,并提出了解決方案建議。
Altschool是學(xué)校層次上進(jìn)行整體性數(shù)據(jù)采集、分析與應(yīng)用的代表。這所由前谷歌工程師Max Ventilla創(chuàng)辦的學(xué)校,將教育教學(xué)和工程化思維密切結(jié)合,將提供個(gè)性化的教育作為辦學(xué)宗旨。在教育教學(xué)過程中采用全方位數(shù)據(jù)采集和分析,成為了這所學(xué)校提供適應(yīng)性教與學(xué)的重要依據(jù)和支撐。Altschool構(gòu)建了獨(dú)特的信息化基礎(chǔ)設(shè)施進(jìn)行數(shù)據(jù)采集,它為教室設(shè)計(jì)的Alt Video系統(tǒng),通過各種傳感器、攝像頭和麥克風(fēng)采集學(xué)生行為數(shù)據(jù),這些數(shù)據(jù)每天都將被分析,用來改進(jìn)教學(xué)過程和教學(xué)系統(tǒng)。Altschool還開發(fā)了Stream等教學(xué)系統(tǒng)和移動(dòng)應(yīng)用,在支持教學(xué)過程的同時(shí),其基于數(shù)據(jù)開展教學(xué)研究,并通過研究結(jié)果支持教學(xué)和管理。不同于傳統(tǒng)教育研究,Altschool的研究周期非常短,教學(xué)設(shè)計(jì)更新以周為單位,教學(xué)管理調(diào)整速度極快??焖俚墓こ袒季S、系統(tǒng)化信息技術(shù)環(huán)境支持、完整的數(shù)據(jù)采集與分析,構(gòu)成了Altschool在精準(zhǔn)教學(xué)管理方面的整體解決方案。
可見,通過系統(tǒng)化數(shù)據(jù)采集,采用科學(xué)方法建立的數(shù)據(jù)模型,可以幫助教育管理者對(duì)學(xué)校和機(jī)構(gòu)的管理狀況進(jìn)行持續(xù)動(dòng)態(tài)監(jiān)控和綜合性評(píng)價(jià)。在數(shù)據(jù)支持下,管理者能夠更容易地發(fā)現(xiàn)管理和教學(xué)問題,設(shè)計(jì)可能的解決方案,并追蹤問題解決的成效。
四、教育大數(shù)據(jù)所面臨的挑戰(zhàn)
教育大數(shù)據(jù)領(lǐng)域方興未艾,既具有巨大的發(fā)展?jié)摿?,又面臨著諸多的挑戰(zhàn)。我們認(rèn)為,這些挑戰(zhàn)包括數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)采集、模型構(gòu)建、產(chǎn)品服務(wù)和開放共享和隱私保護(hù)等方面,具體如圖7所示。
圖7 教育大數(shù)據(jù)應(yīng)用所面對(duì)的挑戰(zhàn)
(一)數(shù)據(jù)標(biāo)準(zhǔn)有待完善
大數(shù)據(jù)分析需要多來源、多類型數(shù)據(jù)的匯集,數(shù)據(jù)匯集需要建立統(tǒng)一標(biāo)準(zhǔn)與規(guī)范。教育部于2012年發(fā)布了《教育管理信息教育管理基礎(chǔ)代碼》等七個(gè)教育信息化行業(yè)標(biāo)準(zhǔn),對(duì)教育管理、行政管理、教育統(tǒng)計(jì)、中小學(xué)、中職學(xué)校和高等學(xué)校管理的信息進(jìn)行了規(guī)范。這一規(guī)范,雖然對(duì)統(tǒng)一教育管理信息有著重要意義。然而,教學(xué)環(huán)境、教學(xué)過程相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)尚存大量空白。同時(shí),近年來在線教育蓬勃發(fā)展,其數(shù)據(jù)標(biāo)準(zhǔn)也尚未建立。上述標(biāo)準(zhǔn)的缺失,成為了教育大數(shù)據(jù)有效應(yīng)用的瓶頸。
(二)數(shù)據(jù)采集覆蓋面窄
“十二五”期間,我國(guó)教育管理公共服務(wù)平臺(tái)基本建成,教育管理數(shù)據(jù)的收集具備了較好的條件。但其他教育教學(xué)數(shù)據(jù),特別是教學(xué)過程數(shù)據(jù)的采集,尚存在較大不足。現(xiàn)有在線學(xué)習(xí)平臺(tái)在設(shè)計(jì)上,往往并未考慮數(shù)據(jù)分析的需要,對(duì)教與學(xué)過程的記錄不夠完整,對(duì)數(shù)據(jù)的分析應(yīng)用造成了困難。近年來,各高校和部分中小學(xué)開始進(jìn)行智慧校園建設(shè),傳感器、Wifi網(wǎng)絡(luò)、移動(dòng)設(shè)備等技術(shù)手段,為更全面的數(shù)據(jù)采集提供了一些條件。但在現(xiàn)有智慧校園建設(shè)中,對(duì)數(shù)據(jù)應(yīng)用尚缺乏整體設(shè)計(jì),對(duì)數(shù)據(jù)采集的支持還遠(yuǎn)遠(yuǎn)不夠。
(三)模型構(gòu)建專業(yè)性不足
數(shù)據(jù)模型是對(duì)教學(xué)與管理進(jìn)行有效監(jiān)測(cè)、評(píng)價(jià)、診斷和預(yù)測(cè)的核心支持。從教學(xué)的適應(yīng)性到管理決策支持,都需要通過科學(xué)的模型來支撐。但在現(xiàn)階段模型構(gòu)建過程中,教育大數(shù)據(jù)模型構(gòu)建的專業(yè)化水平明顯不足。一方面,教育研究成果沒有得到很好地應(yīng)用,教育領(lǐng)域?qū)<抑R(shí)應(yīng)用明顯不足;另一方面,前沿?cái)?shù)據(jù)分析方法與技術(shù)的應(yīng)用不足,未能有效借助通用大數(shù)據(jù)技術(shù)的力量。
(四)產(chǎn)品服務(wù)單一
在我國(guó)教育領(lǐng)域中,以網(wǎng)龍、科大訊飛、猿題庫(kù)、優(yōu)答、一起作業(yè)、學(xué)堂在線為代表的企業(yè),都開始對(duì)教育數(shù)據(jù)的分析與應(yīng)用展開探索。但總體而言,目前,我國(guó)教育大數(shù)據(jù)相關(guān)應(yīng)用主要聚焦于適應(yīng)性教學(xué),題庫(kù)類產(chǎn)品居多,缺乏管理類的應(yīng)用,對(duì)于教學(xué)決策的支持不足。同時(shí),教育數(shù)據(jù)分析應(yīng)用在功能上較為單一,所采用的分析方法也有一定局限,統(tǒng)計(jì)分析仍占有很大的比重,缺乏高水平產(chǎn)品與服務(wù)。
(五)開放共享尚未形成
教育大數(shù)據(jù)的重要價(jià)值,首先來自于其數(shù)據(jù)的大規(guī)模和全面性,規(guī)模的形成需要廣泛的數(shù)據(jù)共享與開放。當(dāng)前,行之有效的數(shù)據(jù)共享開放和應(yīng)用規(guī)則尚未建立,所以,還需要建立有效的資源共享機(jī)制,通過多種途徑匯聚教學(xué),研究和管理數(shù)據(jù),擴(kuò)大數(shù)據(jù)的規(guī)模,才能形成教育大數(shù)據(jù)的獨(dú)特優(yōu)勢(shì)。
(六)隱私保護(hù)有待完善
教育大數(shù)據(jù)涉及龐大規(guī)模的受教育者與教育者群體。對(duì)于這些人群,特別是對(duì)于大量的未成年學(xué)生而言,隱私保護(hù)至關(guān)重要。所以,應(yīng)當(dāng)從法律上明確、規(guī)范公開數(shù)據(jù)與私有數(shù)據(jù)的邊界,有效的保護(hù)隱私數(shù)據(jù)。在來源清晰、責(zé)權(quán)明確、應(yīng)用有序的前提下,才能有效地開展教育大數(shù)據(jù)研究與應(yīng)用。
我國(guó)教育大數(shù)據(jù)領(lǐng)域正處于起步階段。教育大數(shù)據(jù)研究與應(yīng)用具有鮮明的特點(diǎn),其發(fā)展需要將大數(shù)據(jù)技術(shù)與教育領(lǐng)域進(jìn)行深度融合。在“互聯(lián)網(wǎng)+”時(shí)代,為了更好地應(yīng)對(duì)教育大數(shù)據(jù)所面臨的一系列挑戰(zhàn),我們認(rèn)為,目前迫切需要在體制與機(jī)制上,多方協(xié)同,各盡其力,以形成一種合力,如圖8所示。
圖8 教育大數(shù)據(jù)發(fā)展需要多方合力
具體來說,教育主管部門需要推動(dòng)教育大數(shù)據(jù)方面的相關(guān)法律、法規(guī)的制定,劃定邊界,明晰責(zé)權(quán),建立更加全面的教育數(shù)據(jù)標(biāo)準(zhǔn),為國(guó)家層面的大規(guī)模數(shù)據(jù)共享和分析奠定基礎(chǔ)。以學(xué)校為代表的教育機(jī)構(gòu),需要提升數(shù)據(jù)驅(qū)動(dòng)教學(xué)與管理的意識(shí),構(gòu)建綜合數(shù)據(jù)采集環(huán)境,并建立數(shù)據(jù)管理與應(yīng)用機(jī)制。一些研究機(jī)構(gòu)需要將教育科學(xué)與數(shù)據(jù)科學(xué)緊密結(jié)合,開展多學(xué)科協(xié)同研究,并注重研究成果的轉(zhuǎn)化。公司、企業(yè)則需要從教學(xué)與管理的整體流程出發(fā),設(shè)計(jì)與開發(fā)多元化產(chǎn)品,并根據(jù)教育需求提供靈活可擴(kuò)展的定制化服務(wù),從而共同促進(jìn)教育大數(shù)據(jù)的健康發(fā)展,更好地服務(wù)于教育事業(yè)。
參考文獻(xiàn):
[1]Turck M.Is Big Data Still a Thing?(The 2016 Big Data Landscape)[EB/OL].[2016-02-01].http://mattturck.com/2016/02/01/big-data-landscape/.
[2]程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,(9):1889-1908.
[3]與Hadoop對(duì)比,如何看待Spark技術(shù)?[EB/OL].[2016-04-06].https://www.zhihu.com/question/26568496.
[4]O'Brien J.Critical Factors for Data Lake Success[EB/OL].[2015-09-01].
http://www.teradatamagazine.com/v15n03/Tech2Tech/Critical-Factors-for-Data-Lake-Success/.
[5]Cisco.Fog Computing and the Internet of Things:Extend the Cloud to Where the Things Are[EB/OL].[2015-04-15].
http://www.cisco.com/c/dam/en_us/solutions/trends/iot/docs/computing-overview.pdf.
[6]Norton S.CIO Explainer:What Is Blockchain? The Wall Street Journal[EB/OL].[2016-02-02].
http://blogs.wsj.com/cio/2016/02/02/cio-explainer-what-is-hlockchain/.
[7]周明耀.Spark Streaming指南[EB/OL].[2015-08-03].http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming/index.html.
[8]Li F.Convolutional Neural Networks for Visual Recognition[EB/OL].[2016-01-20].http://cs23 ln.stanford.edu.
[9]劉紅,胡新和.數(shù)據(jù)革命:從數(shù)到大數(shù)據(jù)的歷史考察[J].自然辯證法通訊,2013,(6):33-39,125-126.
[10]祝智庭,沈德梅.基于大數(shù)據(jù)的教育技術(shù)研究新范式[J].電化教育研究,2013,(10):5-13.
[11]喻豐,彭凱平,鄭先雋.大數(shù)據(jù)背景下的心理學(xué):中國(guó)心理學(xué)的學(xué)科體系重構(gòu)及特征[J].科學(xué)通報(bào),2015,(5/6):520-533.
[12]范長(zhǎng)煜,朱艷婷,高雅靜.大數(shù)據(jù)在社會(huì)科學(xué)中的價(jià)值:以DMSP/OLS夜間燈光數(shù)據(jù)為例[J].華東理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2016,31(1):1-9.
[13]SAP.Roambi Analytic Understand Your Numbers[EB/OL].[2016-06-29].https://roambi.com/.
[14]Tableau.5 Steps to Self-Service Analytics that Scales[EB/OL].[2016-06-29].http://www.tableau.com/.
[15]國(guó)務(wù)院.國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知[EB/OL].[2015-09-05].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.
[16]Big Data-Wikipedia[EB/OL].[2016-06-29].https://en.wikipedia.org/wiki/Big_data.
[17]McKinsey Global Institute.Big Data:The Next Frontier for Innovation,Competition,and Productivity[EB/OL].[2016-06-15].
http://www.mckinsey.com/business-functions/business-technology/our-insights/big-data-the-next-frontier-for-innovation.
[18]Gartner.Big Data[EB/OL].[2016-06-29].http://www.gart ner.com/it-glossarybig-data/.
[19]鄭燕林,柳海民.大數(shù)據(jù)在美國(guó)教育評(píng)價(jià)中的應(yīng)用路徑分析[J].中國(guó)電化教育,2015,(7):25-31.
[20]胡弼成,王祖霖.“大數(shù)據(jù)”對(duì)教育的作用、挑戰(zhàn)及教育變革趨勢(shì)——大數(shù)據(jù)時(shí)代教育變革的最新研究進(jìn)展綜述[J].現(xiàn)代大學(xué)教育,2015,(4):98-104.
[21]楊現(xiàn)民,王榴卉,唐斯斯.教育大數(shù)據(jù)的應(yīng)用模式與政策建議[J].電化教育研究.2015,(9):54-61,69.
[22]Edshelf.Masteryconnect Review[EB/OL].[2016-06-29].https://edshelf.com/tool/masteryconnect/.
[23]PAR.Predictive Analytics Reporting Framework[EB/OL].[2016-06-29].https://public.datacookbook.com/public/institutions/par.
[24]Kiesinger.Baker R.,Cunningham K.,et al.A Data Repository for the Leaming Science Community:The PSLC DataShop[J].Handbook of Educational Data Mining,2010.
n