從去年開始,包含 MD 安德森腫瘤中心在內(nèi)的多個客戶終止了與沃森的合作,理由是:沃森的診療效果始終不達(dá)預(yù)期,成本太高。今年 5 月,IBM 對其醫(yī)療業(yè)務(wù)進(jìn)行裁員,包括部分研發(fā)人員和營銷人員。7 月,美國健康醫(yī)療媒體 STAT 爆出 IBM的內(nèi)部文件稱,沃森經(jīng)常給出不準(zhǔn)確的癌癥治療建議,甚至開錯了藥品。
沃森在腫瘤治療方面表現(xiàn)不佳,其與輝瑞合作的藥物開發(fā)試驗也「涼了」。
而對其他 AI+新藥研發(fā)企業(yè)而言,數(shù)據(jù)的來源與質(zhì)量是懸在其頭上的「達(dá)摩克利斯之劍」。
「沒人在會議上提及 IBM 的沃森」
「沒人在會議上提到 IBM 的沃森,只是說它在腫瘤治療方面表現(xiàn)不佳?!埂禙orbes》在一篇文章中提到。
撰文的是巴布森學(xué)院(全球最著名商學(xué)院之一)信息技術(shù)與管理專業(yè)的杰出教授、麻省理工學(xué)院數(shù)字經(jīng)濟計劃的數(shù)字研究員和高級顧問 Tom Davenport(湯姆·達(dá)文波特)與瑞士巴塞爾大學(xué)醫(yī)院臨床流行病學(xué)和生物統(tǒng)計學(xué)研究所的博士候選人 Kimberly Alba McCord(金伯利·阿爾巴·麥考德)。
10 月底,他們參加了 Corey Lane Partners 在哈佛醫(yī)學(xué)院舉辦的一個生物制藥人工智能應(yīng)用峰會。會后,他們用文字記下了自己的會議觀察,并發(fā)表在《Forbes》上。
「沃森的人工智能套件似乎不再被視為促進(jìn)藥物開發(fā)的一個重要因素。」他們還在文章中提到,「輝瑞的一位知情人士透露,他們使用沃森進(jìn)行藥物開發(fā)的試驗仍在進(jìn)行中,但公司正在『 冷卻』這項技術(shù)。」
新藥研發(fā)是一個系統(tǒng)工程,從靶點的發(fā)現(xiàn)與驗證,到先導(dǎo)化合物的發(fā)現(xiàn)與優(yōu)化,再到候選化合物的篩選及開發(fā),最后進(jìn)入到臨床研究。
研發(fā)費用高、研發(fā)周期長、研發(fā)成功率低一直是壓在制藥企業(yè)身上的「三座大山」。
塔夫茨藥物開發(fā)研究中心(Tufts Center for The Study of Drug Development)的數(shù)據(jù)顯示:開發(fā)一種新藥的平均成本為 26 億美元;一種新藥上市的平均時間約為 12 年;大約只有 10% 的候選藥物能從第一階段測試走向市場。德勤的數(shù)據(jù)顯示:2017 年,美國最大的生物制藥公司的投資回報率下降至 3.2%,令人沮喪。
新藥研發(fā)亟需一場變革。
AI 重塑藥物研發(fā)
過去 20 年,計算機處理能力的持續(xù)快速增長,大量數(shù)據(jù)集的可用性以及先進(jìn)算法的開發(fā),大大推動了機器學(xué)習(xí)的發(fā)展。由此,專注于具體任務(wù)的「狹義人工智能」得以實現(xiàn)。
新藥研發(fā)領(lǐng)域數(shù)據(jù)密集,這讓人工智能有了用武之地。
「2007 年 6 月 12 日,是 AI 歷史上值得銘記的一天?!?/p>
這一天,一個名叫 Adam(亞當(dāng))的機器人發(fā)現(xiàn)了一種酵母基因的功能。
通過搜索公共數(shù)據(jù)庫,Adam 提出哪些基因編碼了釀酒酵母反應(yīng)催化酶的假設(shè),并在實驗室中利用機器人技術(shù)來檢驗其假設(shè)。英國亞伯大學(xué)和劍橋大學(xué)的研究人員各自檢驗了 Adam 關(guān)于 19 種基因有何功能的假設(shè)。其中 9 個假設(shè)是新的和正確的,只有 1 個假設(shè)是錯誤的。
《Nature》稱之為:「終結(jié)了人類對科學(xué)新發(fā)現(xiàn)的壟斷?!?/p>
目前,人工智能被應(yīng)用在新藥研發(fā)的各個領(lǐng)域。來自 TechEmergence 的一份報告研究了所有行業(yè)的人工智能應(yīng)用,結(jié)果表明:人工智能可以將新藥研發(fā)的成功率從 12%提高到 14%,可以為生物制藥行業(yè)節(jié)省數(shù)十億美元。
動脈網(wǎng)·蛋殼研究院的報告顯示:截至 2018 年 10 月 25 日,國內(nèi)外共有 53 家 AI+新藥研發(fā)公司(排除未公開融資額的公司)獲得融資,累計獲得融資總額共計 13.1 億美元。其中,國外有 47 家公司獲得融資,累計總額共計 10.6 億美元,國內(nèi)有 6 家公司獲得融資,累計融資總額 2.5 億美元。這表明:AI+新藥研發(fā)已經(jīng)進(jìn)入快速成長期。
AI 不僅能夠挖掘出不易被發(fā)現(xiàn)的隱性關(guān)系,構(gòu)建藥物、疾病和基因之間的深層次關(guān)系;也可以對候選化合物進(jìn)行虛擬篩選,更快地篩選出具有較高活性的化合物,為后期臨床試驗做準(zhǔn)備。
許多公司使用 AI 來識別隱藏在大數(shù)據(jù)中的線索。據(jù)統(tǒng)計,有 100 多家初創(chuàng)企業(yè)在探索用 AI 發(fā)現(xiàn)藥物,傳統(tǒng)的大型制藥企業(yè)則是以合作的方式(如阿斯利康與 Berg,強生與 Benevolent AI,默沙東與 Atomwise,武田制藥與 Numerate,賽諾菲和葛蘭素史克與 Exscientia,輝瑞與 IBM Watson 等)或自主研發(fā)的方式入局。
比如,Roche 的子公司 Genentech 使用 GNS Healthcare 公司的 AI 系統(tǒng),幫助 Roche 開發(fā)癌癥治療藥物;
百度和騰訊參與投資的 Atomwise 運用超級計算機、AI 和復(fù)雜的算法模擬制藥過程,來預(yù)測新藥品的效果,同時降低研發(fā)成本,與它合作的,則是老牌醫(yī)藥巨頭默克藥廠(Merck);
國內(nèi),獲谷歌、騰訊投資的晶泰科技與輝瑞簽訂戰(zhàn)略研發(fā)合作,融合量子物理與人工智能,建立小分子藥物模擬算法平臺,顯著提高算法的精確度和使用廣泛度,驅(qū)動小分子藥物的創(chuàng)新;
正大天晴與阿里云合作,借助阿里云的醫(yī)療 AI,正大天晴獲得了一種全新的化合物篩選方法。數(shù)據(jù)結(jié)果顯示,與傳統(tǒng)計算機輔助藥物設(shè)計方法相比,這套機器學(xué)習(xí)模型的篩選準(zhǔn)確率可提高 20%。
Berg 和 Insilico 這樣的初創(chuàng)公司比大型制藥公司走得更快。初創(chuàng)公司的一些領(lǐng)導(dǎo)者抱怨,大型制藥公司耗費了大量的時間在「踢輪胎」上(Kicking the tires:用最基本、最直覺式的方法檢驗一個物品或事情。據(jù)說,當(dāng)汽車剛成為商品時,大部分人不懂得如何檢驗一部車的好壞,但是都會不自主地去踢一踢前輪),但收入?yún)s很少。
有消息稱,輝瑞公司現(xiàn)在已經(jīng)有超過150個AI項目在進(jìn)行中,只是核心是藥物研發(fā)的很少。
入局者:瞄向藥物靶點環(huán)節(jié)的 AI 企業(yè)眾多
動脈網(wǎng)·蛋殼研究院對國內(nèi)外 78 家涉足新藥研發(fā)的 AI 企業(yè)進(jìn)行調(diào)研后發(fā)現(xiàn):
AI 在新藥研發(fā)領(lǐng)域主要應(yīng)用于靶點發(fā)現(xiàn)、化合物合成、化合物篩選、晶型預(yù)測、患者招募、優(yōu)化臨床試驗設(shè)計和藥物重定向 7 大場景。
AI 在化合物合成和篩選方面比傳統(tǒng)手段可節(jié)約 40%~50% 的時間,每年為藥企節(jié)約 260 億美元的化合物篩選成本。在臨床研究階段,可節(jié)約 50%~60% 的時間,每年可節(jié)約 280 億美元的臨床試驗費用。即 AI 每年能夠為藥企節(jié)約 540 億美元的研發(fā)費用。
在李偉(北京生命科學(xué)研究所博士、瑞璞鑫(蘇州)生物科技有限公司藥物化學(xué)主管)和黃牛(北京生命科學(xué)研究所高級研究員)看來,某些技術(shù)在藥物研發(fā)的某些階段的確能夠起到重要提速的作用,譬如已進(jìn)入新藥研發(fā)多年的高通量篩選和計算機輔助藥物分子設(shè)計等曾經(jīng)期待的「顛覆性」技術(shù)。
但藥物靶點對于整個新藥研發(fā)項目的重要性不言而喻,然而,當(dāng)前的新藥研發(fā)還缺乏優(yōu)質(zhì)靶點。
人的身體是由細(xì)胞組成的,細(xì)胞由化學(xué)小分子和生物大分子共同組成,相互級聯(lián)作用構(gòu)成一個復(fù)雜龐大的網(wǎng)絡(luò),不同的生理功能可以看成這個巨大網(wǎng)絡(luò)中一條條串聯(lián)的線路。
除了外科損傷,大多數(shù)疾病纏身是由于這個網(wǎng)絡(luò)上某個線路發(fā)生了異常,這就好像某條交通線發(fā)生了堵塞一樣。吃藥的目的就是打開這個擁堵點。這個擁堵點也就是藥物分子需要作用的「靶點」。
因此,有很多公司重點在藥物靶點環(huán)節(jié)發(fā)力。根據(jù)動脈網(wǎng)·蛋殼研究院對 78 家涉足新藥研發(fā) AI 企業(yè)的調(diào)研,其中,靶點發(fā)現(xiàn)環(huán)節(jié)的 AI 企業(yè)數(shù)量多達(dá) 39 家,占企業(yè)總數(shù)的 50%。
常見的是,利用人工智能分析海量的文獻(xiàn)、專利和臨床結(jié)果,找出潛在的、被忽視的通路、蛋白和機制等與疾病的相關(guān)性,從而提出新的可供測試的假說,以期望發(fā)現(xiàn)新機制和新靶點。
比如,Berg Health 就是基于人工智能的 Interrogative Biology 平臺技術(shù),通過分析海量病人和正常人樣本(如蛋白相互作用網(wǎng)絡(luò))來尋找治療疾病的新靶點和診斷疾病的生物標(biāo)志物。
IBM Watson 新藥發(fā)現(xiàn)系統(tǒng)通過分析海量文獻(xiàn)尋找潛在的關(guān)聯(lián)性來產(chǎn)生新的假說推動新藥研發(fā)。
然而,李偉和黃牛認(rèn)為,「生物系統(tǒng)本身就很復(fù)雜,人工智能之前的傳統(tǒng)方法也同樣磕磕碰碰,毫無疑問人工智能可以幫助生物學(xué)家產(chǎn)生新的假說,但是否會是更好的假說仍面臨極大的挑戰(zhàn)?!?/p>
之所以得出這樣的結(jié)論,其中一個原因是:數(shù)據(jù)質(zhì)量參差不齊。
「bad data in,bad data out」
在制藥和生命科學(xué)中,數(shù)據(jù)是人工智能的關(guān)鍵。
「bad data in,bad data out」在 10 月底舉辦的那場生物制藥人工智能應(yīng)用峰會上多次被提及。盡管各個企業(yè)都在努力改進(jìn)自己的算法和 AI 基礎(chǔ)設(shè)施,但大家都清楚知道:高質(zhì)量數(shù)據(jù)才是取得成功的關(guān)鍵。
研發(fā)新藥的成本是高昂的,人工智能被應(yīng)用于藥物研發(fā)的各個階段,但若是數(shù)據(jù)質(zhì)量不高(數(shù)據(jù)不明晰甚至含有錯誤信息,充滿不確定性),即使使用非常可靠的算法,也不會取得好結(jié)果,反而會浪費大量的資源和時間。
意識到這個問題后,數(shù)據(jù)收集者和企業(yè)便在收集數(shù)據(jù)上發(fā)力了。
IBM 曾在 2016 年斥資 26 億美元收購醫(yī)療數(shù)據(jù)公司 Truven。
2018 年 2 月,制藥巨頭羅氏以 19 億美金收購腫瘤大數(shù)據(jù)公司 Flatiron Health 的全部股份。
據(jù)悉,F(xiàn)latiron Health 擁有大量癌癥領(lǐng)域的真實世界數(shù)據(jù),包括從病患臨床記錄、基因組等數(shù)據(jù),能夠幫助腫瘤學(xué)家和醫(yī)生做出更好的臨床診斷,選擇最佳的治療方案。同時,F(xiàn)latiron Health 也能為羅氏乃至整個行業(yè)的腫瘤藥物研發(fā)提供所需的技術(shù)和數(shù)據(jù)分析能力,幫助其做新藥研究決策,為腫瘤學(xué)研發(fā)設(shè)立全新的標(biāo)準(zhǔn),加速新藥上市進(jìn)程。
生物制藥人工智能應(yīng)用峰會上,有幾位演講者提到,制藥公司傾向于囤積數(shù)據(jù),并根據(jù)其數(shù)據(jù)庫的數(shù)量來評估未來的成功。
但賽諾菲首席數(shù)據(jù)官 Milind Kamkolkar 認(rèn)為,當(dāng)下,通過知識共享開展合作以及提高已有數(shù)據(jù)的質(zhì)量應(yīng)該比積累數(shù)據(jù)更為重要。
但是,尋找藥物化合物的競爭是激烈的,沒有任何一家公司愿意向競爭對手提供他們辛辛苦苦得來的數(shù)據(jù)。
也許,在不久的將來,主要的醫(yī)療保健和制藥利益相關(guān)者將不得不與數(shù)據(jù)所有者 (即醫(yī)療保健提供者、病人和其他醫(yī)療保健消費者) 進(jìn)行談判,以決定誰能夠利用數(shù)據(jù)做些什么。