2018年,DeepMind帶著Alpha家族的新成員AlphaFold來挑戰(zhàn)新領(lǐng)域:通過基因序列預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)。
12月2日,DeepMind最新的人工智能程序AlphaFold與另外97支隊(duì)伍參與了在墨西哥坎昆舉行的全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽。首次參加國(guó)際比賽的AlphaFold在最艱難的“預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)”的任務(wù)中,排名第一。
不僅排名第一,第二名的準(zhǔn)確率與AlphaFold相差甚遠(yuǎn)。在AlphaFold預(yù)測(cè)的 43 種蛋白質(zhì)中,有 25 種蛋白質(zhì)的結(jié)構(gòu)最準(zhǔn)確,而排名第二的團(tuán)隊(duì)中只有3種。
“于我們而言,這是一個(gè)非常關(guān)鍵的時(shí)刻。對(duì)于解決現(xiàn)實(shí)世界重要的科學(xué)問題,AlphaFold是一個(gè)燈塔項(xiàng)目。” DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)在比賽結(jié)束后旋即發(fā)推特表示。
此次AlphaFold奪第一的全球蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP),由美國(guó)科學(xué)家約翰·莫爾特(John Moult)于 1994 年發(fā)起,每?jī)赡昱e辦一屆,被認(rèn)為是蛋白質(zhì)結(jié)構(gòu)領(lǐng)域“奧林匹克競(jìng)賽”。
蛋白質(zhì)(protein)是構(gòu)成細(xì)胞的基本有機(jī)物,是所有生命的物質(zhì)基礎(chǔ)。人體組織的細(xì)胞需要不斷更新,要求蛋白質(zhì)不斷地提供更新的“原料”。因此可以說沒有蛋白質(zhì),也就沒有生命。
“久攻不下”的蛋白質(zhì)折疊
“一直以來我的夢(mèng)想就是,利用人工智能幫助科學(xué)家解決宏大的問題,并讓我們更好地理解這個(gè)世界。”哈薩比斯表示,蛋白質(zhì)是一切生命的物質(zhì)基礎(chǔ),預(yù)測(cè)其3D結(jié)構(gòu)是生物學(xué)中的重要挑戰(zhàn),這將影響人們對(duì)疾病理解和藥物發(fā)現(xiàn)。
蛋白質(zhì)基本的組成單位是氨基酸。整個(gè)地球生命系統(tǒng)中僅有的20多種氨基酸,構(gòu)成了數(shù)萬至數(shù)億種不同的蛋白質(zhì)。蛋白質(zhì)的種類很多,性質(zhì)、功能各異。蛋白質(zhì)的三維結(jié)構(gòu)取決于它所含氨基酸的數(shù)量和類型,結(jié)構(gòu)也決定了蛋白質(zhì)在體內(nèi)的作用。比如,構(gòu)成免疫系統(tǒng)的抗體蛋白質(zhì)是“Y形”的,類似于一個(gè)鉤子。通過鎖定病毒和細(xì)菌,抗體蛋白能夠檢測(cè)和標(biāo)記引起疾病的微生物,并進(jìn)行消滅;而膠原蛋白的形狀像繩索,其在軟骨、韌帶、骨骼和皮膚之間傳遞張力。
此外,蛋白質(zhì)的折疊包含了很多作用,比如蛋白質(zhì)四級(jí)結(jié)構(gòu)折疊受到大量包括氫鍵、離子鍵、疏水作用等非共價(jià)相互作用的影響。因此想要從分子水平上了解蛋白質(zhì)的作用機(jī)制,就需要精確測(cè)出蛋白質(zhì)的三維結(jié)構(gòu)。
利用梯度下降方法預(yù)測(cè)結(jié)構(gòu)目標(biāo)T1008
從理論上來說,知道了 DNA 序列,就已經(jīng)決定了其能夠翻譯出的氨基酸序列和蛋白質(zhì)結(jié)構(gòu),但是僅從基因序列中找出蛋白質(zhì)的三維形狀是一項(xiàng)非常艱巨的任務(wù)。蛋白質(zhì)越大,模型就越復(fù)雜和困難,因?yàn)榘被嶂g可能存在很多的相互作用,因此中間涉及的計(jì)算難以想象。黎文索爾悖論指出,需要比宇宙形成更長(zhǎng)的時(shí)間才能計(jì)算出蛋白質(zhì)所有的可能結(jié)構(gòu),從而得到正確的三維結(jié)構(gòu)。
在過去60年間發(fā)展起來的結(jié)構(gòu)生物學(xué),已經(jīng)采用了包括X射線晶體學(xué)、核磁共振、冷凍電鏡等技術(shù)來解析蛋白質(zhì)結(jié)構(gòu)。但DeepMind團(tuán)隊(duì)認(rèn)為,這些傳統(tǒng)方法都依賴于大量的實(shí)驗(yàn)和試錯(cuò),同時(shí)研究每個(gè)結(jié)構(gòu)的成本大概需要耗費(fèi)數(shù)萬美元。這一耗時(shí)又費(fèi)力的任務(wù),最適合用人工智能解決。加之近幾年基因測(cè)序成本的快速降低,基因組學(xué)領(lǐng)域的數(shù)據(jù)非常豐富。因此,人工智能已經(jīng)具備了通過基因組數(shù)據(jù)進(jìn)行深度學(xué)習(xí)從而做出預(yù)測(cè)的條件。
DeepMind團(tuán)隊(duì)介紹,AlphaFold使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)物理特性,這些神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以從蛋白質(zhì)的基因序列中預(yù)測(cè)蛋白質(zhì)的特性,比如氨基酸對(duì)之間的距離和,以及連接這些氨基酸的化學(xué)鍵之間的角度。接著,AlphaFold調(diào)整結(jié)構(gòu)以找到最高效的氨基酸排布。該程序花了兩周時(shí)間預(yù)測(cè)第一個(gè)蛋白質(zhì)結(jié)構(gòu),但現(xiàn)在只需幾個(gè)小時(shí)就能將其預(yù)測(cè)出來。
DeepMind團(tuán)隊(duì)訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)蛋白質(zhì)中每對(duì)殘基之間的距離的單獨(dú)分布。然后將這些概率組合成一個(gè)分?jǐn)?shù),以評(píng)估所設(shè)想的蛋白質(zhì)結(jié)構(gòu)有多準(zhǔn)確。此外還訓(xùn)練了一個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò),匯總了所有氨基酸之間的距離和,來估計(jì)設(shè)想的蛋白質(zhì)結(jié)構(gòu)與正確答案的接近程度。
利用這些評(píng)估功能,AlphaFold能夠檢索所有的蛋白質(zhì)圖景,從而找到與研究設(shè)想相匹配的結(jié)構(gòu)。DeepMind團(tuán)隊(duì)設(shè)計(jì)的第一種方法建立在結(jié)構(gòu)生物學(xué)常用的技術(shù)上,對(duì)于蛋白質(zhì)結(jié)構(gòu)中的某一片段反復(fù)用新的蛋白質(zhì)片段替換。這樣訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)就可以發(fā)明新的蛋白質(zhì)片段,從而不斷提高設(shè)想的蛋白質(zhì)結(jié)構(gòu)的得分。
第二種方法就是通過梯度下降優(yōu)化得分。這是一種在機(jī)器學(xué)習(xí)中常用的數(shù)學(xué)技術(shù),通過進(jìn)行微小而漸進(jìn)的改進(jìn)一步步使結(jié)構(gòu)實(shí)現(xiàn)高度精確。這套技術(shù)應(yīng)用于對(duì)整個(gè)蛋白質(zhì)鏈的預(yù)測(cè),而不是用于蛋白質(zhì)結(jié)構(gòu)組裝之前單獨(dú)折疊的碎片,因此從技術(shù)上來講降低了整個(gè)預(yù)測(cè)過程的復(fù)雜性。
對(duì)于AlphaFold的首戰(zhàn)告捷,哈薩比斯在激動(dòng)之余,也提出了自己的期望:“對(duì)我們來說,還有很多工作要做。我們還沒有解決蛋白質(zhì)折疊問題,預(yù)測(cè)只是第一步。”
Alpha家族:從陪人下棋到探索生命
谷歌DeepMind研發(fā)的人工智能Alpha系列,第一次為人們熟知是2016年3月,AlphaGo與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn),最終以4比1的總比分獲勝。2016年末2017年初,AlphaGo在中國(guó)棋類網(wǎng)站上以“大師”(Master)的注冊(cè)帳號(hào),與中日韓數(shù)十位圍棋高手進(jìn)行快棋對(duì)決,連續(xù)60局無一敗績(jī)。
2017年12月,DeepMind團(tuán)隊(duì)公布了“棋類全才”AlphaZero。該程序從零開始訓(xùn)練,4小時(shí)打敗國(guó)際象棋的最強(qiáng)程序Stockfish,2小時(shí)打敗日本將棋的最強(qiáng)程序Elmo,8小時(shí)打敗與李世石對(duì)戰(zhàn)的AlphaGo v18。
在“解決了一切棋類”之后,人工智能在更為復(fù)雜、甚至讓人類也頭痛不已的問題上是否能取得實(shí)質(zhì)性的發(fā)展?
實(shí)際上2018年初,神經(jīng)科學(xué)家、清華大學(xué)教授魯白曾向媒體提到,生命科學(xué)領(lǐng)域到目前為止還沒有受到人工智能的影響,而這也將會(huì)是產(chǎn)生新機(jī)會(huì)的沃土。
2018年5月,DeepMind團(tuán)隊(duì)先后在《自然》和《自然-神經(jīng)科學(xué)》上發(fā)表論文,其開發(fā)出了一個(gè)人工智能程序具有類似哺乳動(dòng)物一樣的尋路能力,能夠協(xié)助傳統(tǒng)的神經(jīng)科學(xué)研究來測(cè)試大腦工作原理;此外DeepMind還利用人工智能領(lǐng)域中的元強(qiáng)化學(xué)習(xí)框架,研究了大腦中多巴胺在人們學(xué)習(xí)過程中起到的作用。
而AlphaFold作為Alpha家族的新成員,也體現(xiàn)出了DeepMind在人工智能探索上從“腦力運(yùn)動(dòng)”向“生命探索”的轉(zhuǎn)變。AlphaFold涉足的蛋白質(zhì)結(jié)構(gòu)領(lǐng)域,能夠通過模擬和模型展示很多關(guān)于蛋白質(zhì)的形狀及其運(yùn)作方式的問題,從而能夠使科學(xué)家更有效地設(shè)計(jì)新的、有效的疾病治療方法,同時(shí)也降低了與實(shí)驗(yàn)相關(guān)的成本。此外,對(duì)蛋白質(zhì)折疊的理解也將進(jìn)一步幫助進(jìn)行蛋白質(zhì)的設(shè)計(jì)。例如,通過蛋白質(zhì)設(shè)計(jì)可以幫助管理塑料和石油等污染物,生物可降解酶的進(jìn)步,以對(duì)環(huán)境更友好的方式分解廢物。事實(shí)上,已經(jīng)有研究人員開始設(shè)計(jì)細(xì)菌來分泌蛋白質(zhì),使廢物可以生物降解并且更容易加工。
“破解圍棋或電子競(jìng)技從來不是我們的目標(biāo),我們的最終目標(biāo)是發(fā)展出能完全解決像‘蛋白質(zhì)折疊’這類問題的算法。”哈薩比斯表示。