谷歌和斯坦福大學(xué)的學(xué)者近日發(fā)布的一篇 論文 指出,深度學(xué)習(xí)技術(shù)在新藥研發(fā)領(lǐng)域大有可為,而且與生物反應(yīng)有關(guān)的數(shù)據(jù)量越大,發(fā)現(xiàn)新藥的可能性就越大。(下圖)
(上圖顯示實(shí)驗(yàn)數(shù)據(jù)量與預(yù)測(cè)準(zhǔn)確性之間的正向相關(guān)性)
論文指出采集大量全面的實(shí)驗(yàn)流程數(shù)據(jù)(在論文案例中采集了259個(gè)任務(wù)中的3780萬(wàn)個(gè)數(shù)據(jù)點(diǎn))進(jìn)行分析產(chǎn)生的結(jié)果要比分析小規(guī)模數(shù)據(jù)集或單一任務(wù)的建模分析要好很多。(谷歌的 博客 里有更高冷專業(yè)的解釋)
眾所周知,醫(yī)藥企業(yè)研發(fā)新藥通常需要花費(fèi)數(shù)十億美元,耗時(shí)多年。
谷歌在論文中指出,實(shí)驗(yàn)數(shù)據(jù)量與多重學(xué)習(xí)效率呈現(xiàn)相關(guān)性,數(shù)據(jù)量足夠大才能輸出最佳結(jié)果,此外目前所有的深度學(xué)習(xí)和虛擬篩選(Virtual Screen)應(yīng)用都采用了獨(dú)立的數(shù)據(jù)集,因而無(wú)法有效評(píng)估算法的性能。而大型醫(yī)藥公司都各自擁有大量實(shí)驗(yàn)數(shù)據(jù),谷歌和斯坦福的研究表明醫(yī)藥公司之間如果能夠加大數(shù)據(jù)分享力度,那么所有參與的公司都將獲益。