編者按:新藥研發的程序是一個耗資大、周期長以及風險高的行業,傳統的藥物研發據統計,平均研究每一個新藥從靶點發現到藥物上市需要大約10年的時間和需要大約20億美元的研究經費,
如今,人工智能正在改變這一現狀,Insilico Medicine這首次利用AI成功地將生物學和化學結合起來,發現了一個新的生物靶點,以及相應的候選藥物,整個研發程序僅耗費短短18個月,研發成本只有260萬美元,相當于類似專案的十分之一,
作者 | 阿司匹林
出品 | CSDN
新藥研發的貴,超出想象!
一款創新藥物的研發程序往往需要耗費數十年,數十億美元,且失敗率達90%以上,而AI的發展,特別是能夠精確地基于氨基酸序列,預測蛋白質的3D結構的AlphaFold的突破,為AIz推動生物醫藥領域的發展帶來了巨大想象空間,
據悉,2020年,FDA共批準53款新藥上市,其中35種是小分子藥物,這是史上新藥獲批數量最高的一年,而且這些藥物中的許多都是針對已知分子靶點,發現能夠作用于廣泛適應癥新靶點的新分子是極其罕見的,
如今,一家利用AI來變革醫藥研發流程的初創公司Insilico Medicine(英矽智能),首次利用許多相互關聯的深度學習模型和其他先進的人工智能技術,成功地將生物學和化學結合起來,發現了一個新的生物靶點,并生成了能夠作用于特發性肺纖維化 (IPF)這一非常難治疾病的一個新的小分子,目前已經達到達到臨床前候選化合物研究階段,
Insilico Medicine表示,為了成功獲取臨床前候選藥物,Insilico Medicine設計并合成了不超過80個分子,其中有幾個分子達到臨床前候選化合物的水平,這是迄今為止取得的前所未有的命中率, 而整個研發程序僅耗費短短18個月,研發成本只有260萬美元,相當于類似專案的十分之一,

一、費時、燒錢、失敗率高, 新藥研發的生產效率難題
據了解,像羅氏、默克之類的大型制藥公司中,會創建化合物庫,里面包含幾十萬到上百萬的小分子,當確定一個靶點后,這個小分子庫就成了尋找「鑰匙」的地方,雖然范圍大大縮小,但這個程序仍會花費相當長的時間,
在傳統的藥物研發程序中,需要經歷疾病假設-靶點識別-靶點篩選-靶點驗證-苗頭化合物發現-先導化合物篩選-先導化合物優化-動物實驗-提名候選藥物-臨床研究等研發流程,
因此,費時、燒錢、失敗率高,依然是靶點藥物篩選不得不面對的「痛點」,
1、疾病假設
這一程序從確定一種有關疾病的假說開始,通常是要發現導致疾病或病理的一種功能失調的蛋白質,蛋白質是我們身體的主力,它們完成了我們生存所需的大部分生物任務:從合成分子、在細胞和組織之間介導信號,到抗擊感染,大多數疾病都是由一種或幾種蛋白質在某種程度上的功能失常造成的:它們可能具有錯誤的形狀或化學成分,這些錯誤會導致錯誤的生化反應中,從而導致對身體的全身損傷,任何一種蛋白質的細微變化都可能導致嚴重的后果,甚至死亡,在疾病發展和進展中起作用的蛋白質即是我們所謂的靶點,
2、靶點驗證
一旦確定靶點,必須進行密集的后續研究,以證明選擇是正確的---這個程序被稱為靶點驗證,這項作業包括各種研究,從解決靶點蛋白的晶體結構到確認其與相關疾病的關聯,靶點和疾病之間的聯系是新藥研發的關鍵一步,它可能導致整個計劃的成功或失敗,即使我們盡了一切努力來了解靶標在疾病中的作用,但只有在數年之后,也就是在人體臨床試驗期間,靶點選擇的正確性才能最終確定,
3、先到化合物篩選
靶點識別和驗證之后是發現影響故障蛋白的方法---通常是阻斷或改變它的活性,這一階段是由藥物化學部門或專門合作的研究公司完成的,涉及到大規模的篩選專案,其中需要測驗數千或數百萬種化合物,看它們是否能以有益的方式影響靶點,具有可接受活性的分子稱為藥物作用靶點的苗頭化合物(hits),在這些苗頭化合物中,大多數將被證明是假陽性的,只有一小部分最終被證實并被篩選成為先導化合物(leads),
4、先導化合物優化
雖然先導化合物在目標靶點上顯示出顯著的活性,但仍需要對它們的其他關鍵引數進行優化---代謝穩定性、安全性、生物利用度和其他特性,畢竟,如果活性物質不能有效地作用于靶點蛋白質,或者它針對體內多個不相關的蛋白質而導致不必要的副作用(毒性),那么活性物質就沒有任何用處,
5、動物實驗
先導藥物優化程序中最重要的環節是一個或一組準備用于臨床前研究的分子,這些分子隨后會被用于動物身上(在體內)進行測驗,看看它們是否能在實際的生物體內持續發揮預期的作用,如果先導藥物的活性和安全性在動物實驗中得到證實,這種分子最終將被提名為候選藥物,然后,它可以繼續進行臨床前研究(IND-enabling),這是臨床前藥物發現程序的最后一步,IND-enabling研究是候選藥物被監管機構(如美國食品和藥物管理局FDA)接受用于人類臨床開發的先決條件,
6、臨床研究
臨床階段面臨的是更高水平的投入,涉及高成本、高風險和嚴格的合規要求一因為在這一點上,實際的人的生命處于危險之中,盡管藥物研發人員為保證候選藥物的質量付出了巨大的努力,但在臨床試驗中仍會發生悲劇性的事故,導致患者因無法預測的副作用或未知的生物因素而死亡,這樣的案例會導致專案立即終止,并給制藥公司造成巨大損失,

上述程序很像賭場里的賭博,偶爾僅有一些分子能夠順利通過所有臨床前和臨床障礙,進入市場,到那時,它們就變成了醫生開的藥,
在2015年,FDA報告了60種獲批藥物,每種獲批藥物的研發成本平均高達6.98億美元,并且有將近420億美元用在了失敗藥物研發上,
藥物研發的巨大成本主要在于昂貴的研究設備、設施和人才以及昂貴的臨床試驗高失敗率后果---由于各種原因,高達90%的專案從未轉化到市場應用,
二、成本降低幾百倍,Insilico Medicine如何用平臺化解決新藥研發難題?
整個制藥行業面臨的共同的痛點可以總結為以下幾點:
- 怎樣找到合適的靶點或者全新的靶點來治療某種疾病
- 找到靶點之后如何發現或者發明全新的化合物,并推向臨床
- 怎樣設計好的臨床方案,以減少臨床上的不可預測性
針對這三個痛點,Insilico Medicine推出了一體化的AI平臺Pharma.AI,它包含3個關鍵組件:其一是靶點發現和多組資料分析引擎 PandaOmics, 其二是全新的分子設計引擎 Chemistry42, 其三是臨床試驗結果預測引擎 InClinico,

首先,PandaOmics主要是通過組資料分析來進行靶點發現,利用 PandaOmics 靶點發現系統中實作的一系列靶點發現工具,可以對發表在《自然通訊》上的復雜基因和路徑進行評分,并通過深度特征選擇、因果推理和de novo路徑重構得到相關靶點,靶點新穎性和疾病關聯評分由自然語言處理(NLP)引擎進行評估,該引擎分析了來自數百萬資料檔案的資料,包括專利、研究出版物、科研經費和臨床試驗資料庫,
其次,Chemistry42 是用于藥物發現的生成式化學模塊,該模塊包括生成引擎和評分引擎的集成,可以使用我們于2015年率先應用于醫療的尖端深度學習技術從零開始想象分子,Chemistry42自動生成具有適當物理化學性質的成藥性高的分子結構,此次,我們使用Chemistry42設計了一個小分子庫,這些小分子與 PandaOmics 發現的新的細胞內靶點結合,
而 InClinico 則可以幫助去預測臨床試驗的結果,同時也能指導正確的臨床實驗方案,
據Insilico Medicine首席科學官任峰博士介紹,Insilico Medicine前期正在試圖把這三個人工智能的系統統一起來一體化用于新藥研發,利用人工智能系統從靶點發現到化合物設計,一直做到臨床侯選化合物的開發,
我們的靶點X是Insilico Medicine通過人工智能系統發現的一個新的靶點,它針對多種纖維化都有作用,包括肺纖維化、肝纖維化、皮膚纖維化和腎纖維化,我們針對的是特發性肺纖維化,這樣一個病人群體在亞洲有30多萬人,在全球有70多萬人,是一個比較龐大的病人群體,
Insilico Medicine今年主要是通過人工智能系統完成了兩個主要的里程碑,第一個里程碑是通過人工智能發現了治療具有廣泛適應癥的創新靶點,也就是我們針對肺纖維化的創新靶點,同時我們通過人工智能產生了全新的小分子化合物,并把這個化合物推到臨床侯選化合物,我們的化合物通過了體外測驗、體內測驗,目前即將進入臨床研究階段,目標是今年年底把我們的臨床候選化合物推向臨床,
跟傳統的藥物研發程序相比,從早期的新靶點發現,一直到臨床侯選化合物的確定,需要2.5年到4.5年的時間,需要合成幾百個化合物,以及需要數千萬美元的經費,而 Insilico Medicine 只用了18個月的時間合成了小于80個化合物,同時研發經費只有不到300萬美元,
三、2014-2021:研發歷程,實踐是檢驗真理的唯一標準
"深度學習革命的巔峰時期可以追溯至2014年,那時候的深度學習系統開始在影像識別和生成式對抗網路領域超越人類,同一年,我們公司成立,2016年,我們通過實驗驗證證明,深度學習系統可以從組學資料中識別新的生物靶點,自2017年-2019年,我們一直不斷在證明,生成式人工智能可以發明和設計能夠作用于人類細胞和動物的新分子,"——Insilico Medicine首席執行官Alex Zhavoronkov
眾所周知,人工智能的發展依賴于資料,尤其是高質量的大資料集,幸運的是,藥物發現程序的每一步都會產生大量資料,這些資料為現代人工智能技術的發展奠定了基礎,
這些人工智能技術的應用已經被證明在藥物發現程序的幾乎每一個步驟都是有幫助的一特別是在疾病假設和靶點識別階段,深度學習模型和自然語言處理技術在建模大型復雜多維資料集如基因組學、蛋白質組學、臨床資料、靶點結構資料和非結構化文本(研究論文、專利、科研經費等)方面的作用是不可小覷的,

應用虛擬篩選和新分子生成的人工智能平臺已經證明深度神經網路作為苗頭化合物的智能發現工具的能力,
2015年,Insilico Medicine開始生成式對抗網路(GAN)的早期探索性實驗,GAN是一種深度學習架構,由兩種神經網路構成,其中一個神經網路發明新的"物質"來滿足一些預定義的需求(即生成器),而另一個神經網路則努力證明生成器是錯的,這兩種神經網路的任務都是學習,直到生成器最侄訓得最佳結果,GAN采用低維格式,例如二進制指紋、SMILES字串、圖形和其他光表示法來生成分子,
Insilico Medicine在論文"豐富的有意義的先導藥物:深度對抗式自編碼器在腫瘤學中新分子開發的應用"中描述了使用對抗式自編碼器(AAE)生成新分子的概念,該論文于2016年6月提交至Oncotarget雜志發表,Alan Aspuru-Guzik團隊在他們的ArXiv論文"利用資料驅動持續分子表示的自動化學設計"(Automatic chemical design)中發表了類似的想法,
后來,Insilico Medicine對基于GAN的人工智能藥物設計平臺進行了一些改進和設計新功能,2017年,Insilico Medicine建立了多個作業GAN模型,包括指紋druGAN、SMILES的ORGAN、各種帶有強化學習和LSTM的回圈神經網路(RNN)架構、敏捷時間卷積網路(ACTN)和強化對抗神經計算機(RANC),
2018年,Insilico Medicine在構建和驗證一個強大的深度生成模型"生成式張量強化學習" (GENTRL)方面取得了進展,GENTRL是一種用于藥物發現的新型人工智能系統,它極大地加速了先導藥物發現程序從數年縮短到數天,并在GitHub上公開了代碼,
同年,Insilico Medicine發表了一項研究,公開了首個采用Entangled Conditional Autoencoder (ECAAE) 糾纏條件式自動編碼器生成的JAK3抑制劑,并進行了實驗驗證,彼時,Insilico Medicine的引擎已經可以為G蛋白偶聯受體和其他靶點類別實作合理的命中率,
2019年,Insilico Medicine實作了一個重要的概念驗證里程碑,并在短短21天內預測了一個眾所周知的纖維化疾病靶點分子,并成功地在體外和體內驗證了預測,研究結果發表在《自然-生物技術》雜志上,
逐漸的,Insilico Medicine搭建了一個一體化的AI平臺 Pharma.AI,并且通過實踐驗證了AI在醫藥研發領域的真正作用,從一個自動生成的假設中識別出一個全新的靶點和一個首創的候選藥物分子,
Alex Zhavoronkov表示,“我們這一成功非常接近能夠顛覆式的改革當期新藥研發模式,我們希望我們這一成果能夠充分說明問題,甚至可以把最頑固的懷疑論者轉變為人工智能的推崇者,”
四、One More Thing:夢想是星辰大海,終極目標是延緩衰老
目前,人工智能技術被很多制藥和生物技術公司廣泛采用,用于虛擬篩選或資料分析等特定任務,盡管如此,新藥研發的總體程序仍然是一系列連接不佳的各個階段,沒有一個整體有效的從錯誤中學習的反向傳播元素,
通過將 PandaOmics 和 Chemistry42 等工具整合到一個集成的作業流程中,藥物研發機構可以大大簡化它們的作業,加速將想法轉化為實際的臨床候選方案,并進一步推進,
目前,Insilico Medicine優勢在于早期的研發階段優勢,關于未來的規劃,任峰博士表示,Insilico Medicine會繼續尋找新的靶點,也會繼續尋找新的化合物,發揮新的臨床后化合物作用,未來也可能會拓展后期的臨床試驗,甚至打通上市和銷售整個的產業鏈,

在創新工場董事長兼CEO李開復看來,“Insilico Medicine在AI技術平臺的支持下,快速研發推進針對特發性肺纖維化病癥的潛在的首創藥物分子,并成功達到臨床前候選藥物的里程碑,一定程度上驗證了 AI演算法結合藥物化學與生命科學,能夠更高效的研發出有巨大潛力的候選藥物分子,”
未來,Insilico Medicine希望這項研究成果將會激發制藥機構更大的轉變,成為一種新的藥物發現模式,通過不斷創新和完善AI技術,并將其擴展到其他疾病領域,發明更多新的候選藥物并推向臨床,去解決尚未被滿足的臨床需求,
最后,Alex Zhavoronkov的還有一個終極小目標,通過人工智能系統來延緩衰老,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/266768.html
標籤:AI
