自2020年8月正式上線以來,由中國科學(xué)院物理研究所、松山湖材料實驗室、懷柔材料基因研究平臺共同打造的材料科學(xué)數(shù)據(jù)庫Atomly,注冊人數(shù)已經(jīng)突破1000人。“該數(shù)據(jù)庫填補了我國材料學(xué)領(lǐng)域無大型數(shù)據(jù)庫的空白。”中國科學(xué)院物理研究所特聘研究員、Atomly材料數(shù)據(jù)庫開創(chuàng)人劉淼說。
此前,世界其他國家,例如美國、德國、瑞士、日本等都建立了屬于自己的材料科學(xué)數(shù)據(jù)庫。材料科學(xué)數(shù)據(jù)庫把材料的基本性能,如原子結(jié)構(gòu)、電子結(jié)構(gòu)、穩(wěn)定性、力學(xué)性能等信息,帶到了研究人員觸手可及之處,由此引發(fā)了材料科學(xué)研究方式的革命性進(jìn)步。例如,近期興起的材料基因組方法的核心思想就是借助材料大數(shù)據(jù)方法提升材料科學(xué)的研發(fā)效率,降低研發(fā)成本。
由此基礎(chǔ)出發(fā),Atomly作為材料數(shù)據(jù)庫中的“后起之秀”,不僅集各個前輩之大成,還在某些方面超越了其前輩們,甚至實現(xiàn)了諸多創(chuàng)新功能。
像鋼鐵俠一樣制作材料
美國漫威經(jīng)典人物鋼鐵俠在全息投影中點擊幾個化學(xué)元素,就能得到由其合成的材料的相關(guān)數(shù)據(jù),并由電腦匹配出最符合要求的復(fù)合材料。
這樣的電影場景作為劉淼講解Atomly系統(tǒng)PPT的開頭,引發(fā)了不少聽他講座的觀眾興趣。事實上,Atomly系統(tǒng)雖然不是全息界面,但是在電腦屏幕上的操作界面確實由元素周期表組成。“如果用戶想要查詢某種化合物的性能,只需要點擊化合物的元素組成,系統(tǒng)會自動彈出所有與之相關(guān)的化合物。”劉淼講解到。
到目前為止,Atomly已經(jīng)收錄了17萬余種材料的相關(guān)數(shù)據(jù),這些材料包含了經(jīng)過數(shù)據(jù)庫比對去重后的無機(jī)晶體結(jié)構(gòu)數(shù)據(jù)庫 (ICSD) 中的大部分結(jié)構(gòu)。劉淼解釋說,ICSD在實驗合成及晶體研究領(lǐng)域久負(fù)盛名,也包含了一大批以往DFT計算研究中提出的假想結(jié)構(gòu)。因此,Atomly內(nèi)含的材料數(shù)據(jù)不僅全面,而且和材料實驗的聯(lián)系十分緊密。
材料庫不僅提供已知化合物查詢,也為材料創(chuàng)新提供更多可能。“面對嘗試新材料的研究人員,我們開發(fā)了Run4U這一功能。這一功能支持用戶在線自主上傳新的結(jié)構(gòu),我們的后臺會對這些結(jié)構(gòu)進(jìn)行初步的篩選,如果數(shù)據(jù)庫中真的沒有包含,就會自動進(jìn)行第一性原理計算,兩三天后用戶便可在列表中看到想要的計算結(jié)果。”劉淼表示。這一功能也同樣適用于不熟悉第一性原理計算軟件的用戶。使用Run4U功能時,用戶可以“零學(xué)習(xí)成本”獲得指定材料的DFT的計算數(shù)據(jù);同時,計算的結(jié)果可以自動被后臺分析入庫,能復(fù)查、復(fù)用。
為材料學(xué)不斷突破提供可能
愛迪生嘗試了成百上千次才成功找到適合做燈絲的材料。從那時起到LED燈的出現(xiàn),又過去了120年。由此可見,材料的研發(fā)過程十分緩慢。但是通過高通量計算,材料大數(shù)據(jù)讓人工智能尋找新材料,卻能讓新材料研發(fā)過程不斷縮短。過去70年人類平均每年發(fā)現(xiàn)3.3個氮化物材料,但是美國加州大學(xué)伯克利分校的Ceder組通過高通量計算等材料大數(shù)據(jù)方法,一年內(nèi)發(fā)現(xiàn)了92種新材料,并用實驗合成7種。
“我國研究人員一直使用國外材料數(shù)據(jù)庫,國外數(shù)據(jù)庫不但對國內(nèi)研究人員在材料信息顯示上有所保留,而且對我國的數(shù)據(jù)安全也有威脅。對方能通過監(jiān)測我國研究人員訪問行為獲得我們材料研發(fā)的信息,不利于我國材料學(xué)的發(fā)展。”劉淼坦言。Atomly的上線徹底改變了這一現(xiàn)狀。
為了更好地讓人工智能學(xué)習(xí)勢函數(shù),劉淼與其他研究人員一起開發(fā)了一套精準(zhǔn)的機(jī)器學(xué)習(xí)勢函數(shù)工具包(HAAIFF),可以精確擬合分子動力學(xué)中所需的體系能量、原子受力等參量。
此外,在保證精準(zhǔn)的前提下,研究人員對程序包進(jìn)行了優(yōu)化,使其可在GPU上進(jìn)行訓(xùn)練以及預(yù)測,極大提高了該機(jī)器學(xué)習(xí)勢函數(shù)的速度,為運行分子動力學(xué)提供了便利。用戶可以同時獲得密度泛函理論計算的精度和經(jīng)典分子動力學(xué)的速度。該工具包可供用戶自行使用。同時,為了節(jié)省用戶收集DFT計算數(shù)據(jù)帶來的成本,研究人員還提供了由該工具包訓(xùn)練的機(jī)器學(xué)習(xí)勢函數(shù)庫,用戶可在這些函數(shù)庫的基礎(chǔ)上,進(jìn)行二度訓(xùn)練,這樣既可以節(jié)省收集數(shù)據(jù)時間,又可以擴(kuò)增機(jī)器學(xué)習(xí)勢函數(shù)適用范圍。
上線僅僅是一個開始
材料是人類社會的物質(zhì)基礎(chǔ),實現(xiàn)材料的按需設(shè)計是一直以來人類的終極夢想。如今,材料計算已經(jīng)成為指導(dǎo)新材料研發(fā)的常規(guī)方法。
劉淼表示,材料基因工程是物理所近期布局的重要發(fā)展領(lǐng)域,Atomly的上線僅僅是一個開始。目前,仍有數(shù)以萬計的新結(jié)構(gòu)正在計算,各材料的介電函數(shù)、聲子譜等重要且獨特的物理信息也正在上線的路上。
在擁有材料大數(shù)據(jù)積累的前提下,機(jī)器學(xué)習(xí)等更多新型人工智能方法將使材料數(shù)據(jù)庫的整體性和優(yōu)越性不斷完善和提高,為新材料的研發(fā)提供更加智能的捷徑。