隨著愈發(fā)強(qiáng)調(diào)AI技術(shù)的重要意義再配合其作為工具供應(yīng)商的角色定位,微軟公司此次在傳統(tǒng)程序員之外、決定面向數(shù)據(jù)科學(xué)家開(kāi)發(fā)工具的決策可謂毫不令人意外。
根據(jù)微軟研究部門(mén)在今年早些時(shí)候發(fā)布的聲明,數(shù)據(jù)科學(xué)家們目前將80%的工作時(shí)間用于數(shù)據(jù)的信息提取與清理工作——即“數(shù)據(jù)清洗”。微軟公司希望幫助其解決這一難題。
Pendleton項(xiàng)目由此誕生。
一年之前,我第一次聽(tīng)說(shuō)微軟公司正在開(kāi)發(fā)一款代號(hào)為Pendleton項(xiàng)目的新型機(jī)器學(xué)習(xí)相關(guān)工具。不過(guò)在此之后,由于缺少充分的背景信息,我們一直無(wú)法對(duì)Pendleton作出深入解析。
不過(guò)根據(jù)最近發(fā)布的Pendleton“入門(mén)介紹”文檔,我們得知Pendleton項(xiàng)目在微軟心目中的具體定位:
“Pendleton項(xiàng)目提供一套靈活且具備可擴(kuò)展性的工具集,旨在幫助您探索、發(fā)現(xiàn)、理解數(shù)據(jù)內(nèi)容并修復(fù)其中的問(wèn)題。其允許用戶(hù)以多種形式實(shí)現(xiàn)數(shù)據(jù)消費(fèi),并將數(shù)據(jù)轉(zhuǎn)換為更適合您實(shí)際用例的新形式。”
Pendleton是一款客戶(hù)端應(yīng)用,面向Windows與OS X/MacOS平臺(tái)。其運(yùn)行時(shí)利用Python設(shè)計(jì),且依賴(lài)于多種Python庫(kù)。
根據(jù)一位知情人士的說(shuō)明,Pendleton項(xiàng)目是一款面向數(shù)據(jù)科學(xué)家的工具,專(zhuān)門(mén)用于進(jìn)行數(shù)據(jù)籌備與清理。該工具能夠?qū)崿F(xiàn)錯(cuò)誤列刪除、列格式更改以及丟失數(shù)據(jù)處理等。另外,其還提供各類(lèi)分析工具,可幫助數(shù)據(jù)科學(xué)家獲取數(shù)據(jù)集中包含的具體內(nèi)容。Pendleton項(xiàng)目可以從SQL Server、Azure Blob以及數(shù)據(jù)湖當(dāng)中讀取數(shù)據(jù),亦可與本地PC文件內(nèi)讀取信息。
微軟公司已經(jīng)在內(nèi)部對(duì)Pendleton項(xiàng)目測(cè)試了近一年時(shí)間——實(shí)際周期可能更長(zhǎng)。我還沒(méi)有聽(tīng)說(shuō)軟件巨頭打算如何發(fā)布這款工具,但似乎其確實(shí)在醞釀相關(guān)計(jì)劃。
在我看來(lái),微軟研究部門(mén)的PROSE(即項(xiàng)目綜合使用示例)團(tuán)隊(duì)可能負(fù)責(zé)為Pendleton項(xiàng)目“開(kāi)發(fā)數(shù)據(jù)清洗的項(xiàng)目綜合技術(shù),并將其納入實(shí)際產(chǎn)品”,或者說(shuō)至少有參與其中。
與此同時(shí),在數(shù)據(jù)科學(xué)與大數(shù)據(jù)集方面,微軟公司與Facebook則于今天公布了其共同開(kāi)發(fā)的新型模型格式,其可確保各類(lèi)深度學(xué)習(xí)模型在不同框架之間實(shí)現(xiàn)往來(lái)轉(zhuǎn)移。
這項(xiàng)新標(biāo)準(zhǔn)被稱(chēng)為開(kāi)放神經(jīng)網(wǎng)絡(luò)交換(簡(jiǎn)稱(chēng)ONNX),其允許開(kāi)發(fā)人員在微軟Cognitive Toolkit、Facebook Caffe2以及PyTorch等AI框架之間將模型往來(lái)遷移。ONNX代碼的初始版本及相關(guān)說(shuō)明文檔目前已經(jīng)以開(kāi)源項(xiàng)目形式公布在GitHub之上。