在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)進(jìn)步的前沿世界,大數(shù)據(jù)正在成為該過(guò)程的關(guān)鍵依據(jù)。然而,大多數(shù)組織沒(méi)有足夠的內(nèi)部專(zhuān)業(yè)知識(shí)來(lái)處理算法開(kāi)發(fā),因此必須外包其數(shù)據(jù)分析。這引起了許多關(guān)于對(duì)外傳播敏感信息的擔(dān)憂(yōu)。
麻省理工學(xué)院的研究人員提出了一個(gè)解決這些隱私問(wèn)題的新穎解決方案。他們的機(jī)器學(xué)習(xí)系統(tǒng)可以創(chuàng)建不包含真實(shí)數(shù)據(jù)的“合成數(shù)據(jù)”的數(shù)據(jù)集,并可以安全地分發(fā)給外部人員進(jìn)行開(kāi)發(fā)和教育。
合成數(shù)據(jù)是原始數(shù)據(jù)集的結(jié)構(gòu)和統(tǒng)計(jì)模擬,但不包含有關(guān)組織的任何真實(shí)信息。然而,它在數(shù)據(jù)分析和壓力測(cè)試中的表現(xiàn)相似,從而使其成為數(shù)據(jù)科學(xué)領(lǐng)域開(kāi)發(fā)算法和設(shè)計(jì)測(cè)試的理想基礎(chǔ)。
它是如何工作的
由Kalyan Veeramachaneni領(lǐng)導(dǎo)的麻省理工學(xué)院研究人員提出了一個(gè)稱(chēng)為合成數(shù)據(jù)庫(kù)(SDV)的概念。這描述了從原始數(shù)據(jù)集創(chuàng)建人工數(shù)據(jù)的機(jī)器學(xué)習(xí)系統(tǒng)。目標(biāo)是能夠使用數(shù)據(jù)來(lái)測(cè)試算法和分析模型,而不涉及所涉及的組織。他概括說(shuō):“在某種程度上,我們正在使用機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)機(jī)器學(xué)習(xí)”
合成數(shù)據(jù)庫(kù)(SDV)使用稱(chēng)為“遞歸條件參數(shù)聚合”的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)這一點(diǎn),利用數(shù)據(jù)的分層結(jié)構(gòu)并捕獲多個(gè)字段之間的相關(guān)性,以產(chǎn)生數(shù)據(jù)的多變量模型。該系統(tǒng)學(xué)習(xí)該模型,并隨后生成一個(gè)完整的合成數(shù)據(jù)數(shù)據(jù)庫(kù)。
為了測(cè)試合成數(shù)據(jù)庫(kù)(SDV),使用反調(diào)試技術(shù)對(duì)五種不同的公共數(shù)據(jù)集進(jìn)行合成數(shù)據(jù)生成。三十九名自由數(shù)據(jù)科學(xué)家開(kāi)發(fā)了數(shù)據(jù)預(yù)測(cè)模型,以確定合成數(shù)據(jù)和實(shí)際數(shù)據(jù)之間是否存在顯著的差異。其結(jié)果是結(jié)論性的。15個(gè)測(cè)試中的11個(gè)在實(shí)際和合成數(shù)據(jù)的預(yù)測(cè)建模解決方案中沒(méi)有顯著差異。
合成數(shù)據(jù)庫(kù)(SDV)的優(yōu)點(diǎn)是它可以復(fù)制數(shù)據(jù)集中的“噪點(diǎn)”,以及任何丟失的數(shù)據(jù),使得合成數(shù)據(jù)集模型在統(tǒng)計(jì)學(xué)上是相同的。此外,人造數(shù)據(jù)可以根據(jù)需要容易地縮放,使其成為通用的數(shù)據(jù)。
人們一直在尋找的解決方案?
從分析中得出的推論是,在沒(méi)有安全性影響的情況下,實(shí)際數(shù)據(jù)可以被軟件測(cè)試中的合成數(shù)據(jù)成功地替代,并且合成數(shù)據(jù)庫(kù)(SDV)是合成數(shù)據(jù)生成的可行解決方案。
作為T(mén)ableau 2017年白皮書(shū)所預(yù)測(cè)的下一件大事,大數(shù)據(jù)位于高科技的前沿和中心。因此,能夠安全可靠地使用數(shù)據(jù)的需要變得越來(lái)越重要。麻省理工學(xué)院似乎已經(jīng)通過(guò)采用合成數(shù)據(jù)庫(kù)(SDV)避免了這些隱私問(wèn)題,并確保數(shù)據(jù)科學(xué)家可以設(shè)計(jì)和測(cè)試方法,而不會(huì)侵犯真實(shí)人士的隱私。
這種原型有潛力成為一種有價(jià)值的教育工具,不用擔(dān)心學(xué)生對(duì)敏感信息的暴露。通過(guò)這種創(chuàng)造性的建模方法,促進(jìn)學(xué)習(xí),這個(gè)階段將以有效的方式教授和培育下一代數(shù)據(jù)科學(xué)家。
麻省理工學(xué)院的模型似乎已經(jīng)有了答案,特別是考慮到范式測(cè)試的成功,在理論上它是完美的。研究人員聲稱(chēng),它將通過(guò)否定“隱私瓶頸”來(lái)加快創(chuàng)新速度。實(shí)際上,這還有待觀察。