谷歌的 AlphaGenome AI 讓 DNA 變得可讀——而且它在 GitHub 上

avatar
Decrypt
06-26
本文為機器翻譯
展示原文

谷歌 DeepMind 今天宣佈的AlphaGenome不僅僅是 AI 科學軍備競賽的又一力作。它不僅為非商業研究提供了 API 訪問權限,還在 GitHub 上提供了豐富的文檔和社區支持,標誌著基因組學——曾經侷限於專業實驗室和付費數據集——正在迅速走向開放科學。

這是一件非常重要的事情。

想象一下,你的DNA就像一本巨大的說明書,指導你的身體如何運作。長期以來,科學家們只能真正理解那些直接指導你的身體如何構建物質的部分,比如蛋白質。但你的大部分DNA——超過90%——並非如此。它們並不直接構建任何東西。人們過去稱之為“垃圾DNA”。

現在我們知道了,“垃圾指令”實際上在做一件很重要的事情:它有助於控制真實指令的使用時間和地點——有點像一個裝滿開關和旋鈕的控制面板。問題是什麼?它真的很難閱讀和理解。

這就是 AlphaGenome 的作用所在。

AlphaGenome 是由 Google DeepMind 構建的強大 AI 模型,它比以往任何模型都能更好地解讀 DNA 中這些令人困惑的部分。它使用先進的機器學習技術(例如圖像生成器或聊天機器人背後的機器學習技術)來分析長達一百萬個字母的 DNA 片段,並找出哪些部分是重要的,它們如何影響你的基因,甚至突變如何導致疾病。

這有點像擁有一臺超級智能的人工智能顯微鏡,它不僅可以閱讀手冊,還可以弄清楚整個系統如何開啟和關閉,以及當出現問題時會發生什麼。

更酷的是,DeepMind 通過 API(一種計算機與其對話的方式)分享了這款工具,以便世界各地的科學家和醫學研究人員可以免費在研究中使用它。這意味著它可以幫助加速遺傳疾病、個性化醫療甚至抗衰老治療等領域的發現。

簡而言之:AlphaGenome 幫助科學家讀取我們之前不瞭解的 DNA 部分——這可能會徹底改變我們治療疾病的方式。

AlphaGenome 是一個深度學習模型,旨在分析 DNA 序列如何調控基因表達及其他關鍵功能。與以往僅解析短 DNA 片段的模型不同,AlphaGenome 可以處理長達一百萬個鹼基對的序列——這一前所未有的規模使其能夠捕捉到以往方法所遺漏的遠距離調控相互作用。

AlphaGenome 的核心優勢在於其多模態預測引擎。與以往只能預測單一基因組活動的模型不同,該模型能夠輸出基因表達(RNA 測序、CAGE)、剪接事件、染色質狀態(包括 DNase 敏感性和組蛋白修飾)以及 3D 染色質接觸圖的高分辨率預測。

這使得它不僅有助於精確定位細胞中哪些基因被開啟或關閉,而且有助於理解基因組摺疊、編輯和可及性的複雜編排。

該架構非常引人注目,但如果您在本地使用過 Stable Diffusion 或普通的開源 LLM,那麼它仍然非常熟悉:AlphaGenome 使用受 U-Net 啟發的神經網絡,具有大約 4.5 億個可訓練參數。

是的,即使與那些處理數十億個參數的弱小語言模型相比,這個數字也相當低。然而,考慮到DNA只處理4種鹼基和2對鹼基對——整個人類基因組基本上就是30億對AT和CG字母的組合——它是一個非常特殊的模型,旨在將一件事做到極致。

該模型包含一個序列編碼器,可將輸入從單鹼基分辨率下采樣到更粗略的表示,然後,Transformer 模型將長距離依賴關係分層,最後由解碼器將輸出重構回單鹼基級別。這使得模型能夠以各種分辨率進行預測,從而實現細粒度和廣義的調控分析。

該模型的訓練依賴於大量公開可用的數據集,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5——這些資源共同代表了人類和小鼠細胞類型的數千個實驗概況。

而且這個過程也相當快:使用谷歌的定製 TPU,DeepMind 僅用四個小時就完成了預訓練和蒸餾過程,使用的計算預算僅為其前身 Enformer 的一半。

AlphaGenome 在 24 項序列預測測試中 22 項,以及 26 項變異效應預測中 24 項,均超越了最先進的模型。在以漸進式改進為常態的基準測試中,AlphaGenome 的表現罕見地全面超越了最先進的模型。事實上,它的表現非常出色,甚至可以比較突變和未突變的 DNA,並在幾秒鐘內預測出基因變異的影響——這對於研究人員繪製疾病起源圖譜至關重要。

這很重要,因為非編碼基因組包含許多控制細胞功能和疾病風險的調控開關。像 AlphaGenome 這樣的模型正在揭示人類生物學在多大程度上受到這些先前不透明區域的控制。

人工智能對當今生物學的影響不容忽視。以 Ankh 為例,這是一個由慕尼黑工業大學、哥倫比亞大學和初創公司 Protinea 的團隊開發的蛋白質語言模型。Ankh 將蛋白質序列視為語言,生成新的蛋白質並預測其行為——類似於 AlphaGenome 翻譯 DNA 調控“語法”的方式。

另一項相關技術, 英偉達的 GenSLMs ,展示了人工智能預測病毒突變和聚集基因變異以用於流行病研究的能力。同時,人工智能在化學和基因抗衰老幹預方面的應用,凸顯了基因組學、機器學習和醫學的交叉融合。

AlphaGenome 最重要的貢獻之一是其易用性。該模型並非僅限於商業應用,而是可以通過公共 API 進行非商業研究。

雖然它尚未完全開源——這意味著研究人員無法在本地下載、運行或修改它——但其 API 和配套資源允許世界各地的科學家生成預測,針對不同物種或細胞類型調整分析,並提供反饋以完善未來的版本。DeepMind 已表示計劃在未來推出更廣泛的開源版本。

AlphaGenome 能夠分析非編碼變異(大多數與疾病相關的突變都發生於此),這或許能為遺傳性疾病和罕見疾病帶來新的認識。其高速變異評分技術也支持個性化醫療,即根據個人獨特的 DNA 譜量身定製治療方案。

目前,非編碼基因組已不再是黑匣子,人工智能在基因組學中的作用也只會不斷擴展。AlphaGenome 或許無法成為引領我們進入赫胥黎筆下“美麗新世界”的典範,但它清晰地預示著未來的發展方向:更多的數據、更精準的預測,以及對生命運作方式更深入的理解。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論