AlphaFold又更新迭代!第三代比之前厲害在哪里?
來(lái)源:科普中國
發(fā)布時(shí)間:2024-05-20
瀏覽次數:1233

版權歸原作者所有,如有侵權,請聯(lián)系我們

導讀:5月9日,AlphaFold 3重磅問(wèn)世,準確性遠超以往水平。在很多學(xué)者看來(lái),這相當于給他們“戴上一副高清眼鏡”,對生物分子系統結構進(jìn)行更準確的預測。

此次發(fā)布的AlphaFold 3能預測蛋白質(zhì)與其他蛋白質(zhì)、核酸、小分子、離子、修飾蛋白質(zhì)殘基的復合物,以及抗體-抗原的相互作用,準確性顯著(zhù)超過(guò)當前的預測工具。

我們第一時(shí)間聯(lián)系深圳灣實(shí)驗室系統與物理生物學(xué)研究所副所長(cháng)、資深研究員周耀旗老師,早在去年11月,周耀旗通過(guò)對Deepmind與Isomorphic Labs 共同發(fā)布了的新聞稿對新一代AlphaFold模型:

AlphaFold3進(jìn)行評論,他指出“AlphaFold3改變了以前AlphaFold2只能用于蛋白質(zhì)結構預測的局限性,而使它能夠預測跟其它分子的復合物結構,包括小分子配體、多肽、多糖、蛋白質(zhì)、核酸(DNA 和 RNA)以及含有翻譯后修飾(PTM)的生物分子,可以說(shuō)是包羅萬(wàn)象了?!笨梢哉f(shuō),提早就預判了AlphaFfold3的主要特點(diǎn)。

今天,周耀旗老師將為我們解答AlphaFold3究竟厲害在哪里?

葉水送 | 采訪(fǎng)

周耀旗(深圳灣實(shí)驗室)| 嘉賓

為什么蛋白質(zhì)結構預測很重要?

問(wèn):為什么蛋白質(zhì)結構預測很重要?

周耀旗:我們生命體系的存在和發(fā)展主要靠幾類(lèi)重要的生物大分子的協(xié)同相互作用。其中一條重要中心法則是包含遺傳信息的DNA分子,通過(guò)RNA分子,翻譯生成蛋白質(zhì)分子。蛋白質(zhì)分子是一個(gè)幾乎全能的分子機器,有記錄在案的就有一萬(wàn)多種功能,包括分子馬達、結構支持、信號傳遞、運輸、加速生命必需化學(xué)反應、以及抵抗病毒、細菌侵入的抗體等等。

從化學(xué)組成來(lái)講,蛋白質(zhì)是一個(gè)非常簡(jiǎn)單的線(xiàn)性高分子,由20個(gè)氨基酸排列組合而成,不同氨基酸排列就構成了不同功能的蛋白質(zhì)。這跟我們的英語(yǔ)單詞很相似,每個(gè)字是20個(gè)字母所組成,不同數量字母的組合,形成不同意義的單詞。

跟英語(yǔ)單詞不一樣的地方是,蛋白質(zhì)之所以能夠具有各種各樣的功能,是因為多數蛋白質(zhì)能夠自己折疊成一個(gè)穩定的、獨特的三維結構來(lái)執行它的功能。譬如有的蛋白質(zhì)在細胞膜內能夠形成一個(gè)通道,控制某些分子在細胞內部的進(jìn)進(jìn)出出。因此知道蛋白質(zhì)所形成的結構形狀就可以知道蛋白質(zhì)這個(gè)分子機器是干什么的,怎么工作的。知道蛋白質(zhì)怎么工作非常重要,因為人類(lèi)的大多數疾病是由于一個(gè)或者一些蛋白質(zhì)出了問(wèn)題,把這些出了問(wèn)題的蛋白質(zhì)關(guān)掉是治病的手段之一。因此,高精度的蛋白質(zhì)結構是藥物設計的一個(gè)重要組成部分。

長(cháng)期以來(lái),蛋白質(zhì)所形成的結構主要靠非常昂貴的儀器,非常耗時(shí)耗人工的實(shí)驗方法來(lái)解析,主要的儀器是核磁共振,X射線(xiàn)晶體衍射,冷凍電鏡。60年來(lái),也才解析了20萬(wàn)個(gè)蛋白質(zhì),是已知蛋白質(zhì)數目的千分之一,所以全部用實(shí)驗手段來(lái)解析所有的蛋白質(zhì)結構,無(wú)論是金錢(qián)上還是時(shí)間上都是不現實(shí)的, 因此,計算生物學(xué)家一直在努力發(fā)展計算方法來(lái)預測蛋白質(zhì)結構,促進(jìn)我們對生命機制的理解和疾病的藥物開(kāi)發(fā)。

回顧AlphaFold發(fā)展歷程

問(wèn):自2020年11月AlphaFold問(wèn)世,現在已更新至第三代,每一次都令人驚艷,它是如何一步步發(fā)展過(guò)來(lái)的?每一代都有哪些特色?您能否簡(jiǎn)單回顧下

周耀旗:AlphaFold的第一次問(wèn)世是2018年,它參加了每?jì)赡暌欢鹊牡?3屆蛋白質(zhì)結構雙盲預測比賽,所謂雙盲就是計算生物學(xué)家進(jìn)行結構預測的時(shí)候,大家都不知道結構是長(cháng)什么樣的,因為測定這些結構的實(shí)驗還沒(méi)有公布。而在實(shí)驗結構出來(lái)之后,評估預測結構的準確性的科學(xué)家也不知道是那個(gè)計算生物學(xué)家做的預測,可以避免主觀(guān)的因素。

從1996年第二屆比賽開(kāi)始,到2016年的22年,進(jìn)展非常慢,特別是對那些難度大,沒(méi)有已知結構來(lái)作為模板的從頭預測方法, 100分滿(mǎn)分,預測結構的分數22年才從27分進(jìn)展到32分左右,要想達到85分以上的實(shí)驗精確度,估計還要200多年。

AlphaFold的2018年第一次問(wèn)世把分數提到了>60及格以上,而2020年問(wèn)世AlphaFold2一下子提到了85分,優(yōu)秀。第一代的AlphaFold解的是一個(gè)1+2=3的問(wèn)題,用神經(jīng)網(wǎng)絡(luò )來(lái)預測一維主鏈的二面角走向,以及二維的主鏈原子間的接觸距離,然后把預測的一維角度概率和二維距離概率轉化成蛋白質(zhì)的能量函數,對該蛋白的3維結構進(jìn)行能量最小化的優(yōu)化。第二代的AlphaFold解的也是一個(gè)1+2=3的問(wèn)題,不同的是它完全避開(kāi)了能量函數,把整個(gè)體系搬到的神經(jīng)網(wǎng)絡(luò )里面,進(jìn)行了所謂的端-到-端的訓練和預測,通過(guò)蛋白質(zhì)序列和結構的大數據,以及高達9千萬(wàn)參數的大模型,實(shí)現了蛋白質(zhì)結構的高精度預測的飛躍。

AlphaFold 3有哪些優(yōu)勢和短板?

問(wèn):第三代和之前有何不同?有哪些新突破,還有何待發(fā)展之處?

周耀旗:剛剛問(wèn)世的第三代AlphaFold跟以前的AlphaFold的最大不同是它不再局限于單個(gè)蛋白質(zhì)結構的預測,而是努力成為一個(gè)通用模型,可以用于蛋白質(zhì)與其他分子相互作用復合物結構的預測,包括蛋白質(zhì)的修飾,DNA分子,RNA分子,以及各種各樣的小分子。

除了應用能力的擴展,它在計算方法上也有創(chuàng )新。把第二代AlphaFold中的進(jìn)化模塊改成效率更高的成對模塊,把第二代AlphaFold中的結構模塊變成直接產(chǎn)生三維坐標的擴散模塊,大幅度降低了計算的復雜度。

這個(gè)方法主要在蛋白質(zhì)-小分子配體,蛋白質(zhì)-蛋白質(zhì),抗體-抗原結構,蛋白質(zhì)- RNA/DNA復合物結構上比當前最好方法前進(jìn)了一大步,在蛋白質(zhì)修飾后的結構預測實(shí)現了0到1的突破。但在RNA結構預測方面,還不如基于我們BRiQ能量函數的AIchemy-RNA2方法。此外,在蛋白質(zhì)單體結構預測上也沒(méi)有新的突破,還是嚴重依賴(lài)于同源序列的多少和質(zhì)量。

人工智能在研究領(lǐng)域還有哪些應用?

問(wèn):AI for Science的概念這兩年被反復提及,人工智能在研究領(lǐng)域(以生物醫學(xué)為主)還有哪些應用?

周耀旗:除了剛剛所說(shuō)的AlphaFold在分子結構預測這個(gè)的基礎研究以及它對新藥物開(kāi)發(fā)設計這方面的應用之外,人工智能也將徹底改變了生物醫學(xué)其他的方方面面。幾個(gè)明顯的例子是:

首先,醫學(xué)影像分析:人工智能將用于分析醫學(xué)影像,如X射線(xiàn)、MRI、CT掃描和組織病理學(xué)切片。

其次,個(gè)性化醫學(xué):人工智能算法分析病人數據,包括遺傳信息、病史和生活方式因素,能夠識別疾病風(fēng)險因素、預測疾病進(jìn)展,為病人制定個(gè)體化治療方案,將改善治療效果并減少不良反應。

還有,虛擬健康助手和聊天機器人:人工智能驅動(dòng)的聊天機器人和虛擬健康助手為病人提供個(gè)性化的健康建議、癥狀評估、用藥提醒和隨時(shí)隨地獲取醫療信息。

此外,還有健康監測與可穿戴設備,電子健康記錄的數據挖掘,醫療機器人和手術(shù)等等。這些只是人工智能如何改變生物醫學(xué)領(lǐng)域的一些例子,不斷進(jìn)行的研究和創(chuàng )新將帶來(lái)新的應用和進(jìn)展,這僅僅是開(kāi)始,未來(lái)將有全方位的顛覆性變化。

與ChatGPT、Sora有何異同點(diǎn)?

問(wèn):alphafold 3也用到生成式AI,和現在被熱議的chatgpt、sora等,它們有什么異同點(diǎn)?

周耀旗:在alphafold 3和Sora一樣,都是利用擴散模型架構來(lái)進(jìn)行結構或者視頻的生成。擴散模型架構從隨機噪聲開(kāi)始,逐步對其進(jìn)行細化以生成最終結果。 而語(yǔ)言模型ChatGPT基于 Transformer 架構,這是一種已經(jīng)成為大型語(yǔ)言模型標準的深度學(xué)習架構。

本文為科普中國·星空計劃扶持作品

團隊/作者:深究科學(xué)

審核:陶寧 中國科學(xué)院生物物理研究所副研究員

葉盛 北京航天航空大學(xué) 研究員

出品:中國科協(xié)科普部

監制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司

歡迎掃碼關(guān)注深i科普!

我們將定期推出

公益、免費、優(yōu)惠的科普活動(dòng)和科普好物!


聽(tīng)說(shuō),打賞我的人最后都找到了真愛(ài)。
做科普,我們是認真的!
掃描關(guān)注深i科普公眾號
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認識科普小朋友
  • 成為科學(xué)小記者
色依依国内精品中文字幕|国产精品嫩草影院免费观看|亚洲ⅤA制服丝袜一区二区|久久精品无码一级毛片温泉|无码专区亚洲综合另类