4分鐘成功復現諾獎,CMU開發GPT-4化學家,自主編碼操控機器人顛覆化學研究登Nature

avatar
36氪
12-21

AI顛覆化學研究再次登上Nature!由CMU和Emerald Cloud Lab團隊開發的GPT-4加持的AI工具,在不到4分鐘的時間成功復現2010年諾獎研究成果。

ChatGPT大模型爆火這一年,沒想到竟顛覆了整個化學領域。

先是谷歌DeepMind的AI工具GNoME成功預測出200萬種晶體結構,隨後微軟推出的MatterGen,大大加速了設計所需材料特性的速度。

今天,CMU和Emerald Cloud Lab的研究團隊開發了一種全新自動化AI系統——Coscientist,榮登Nature。

它可以設計、編碼和執行多種反應,完全實現了化學實驗室的自動化。

實驗評測中,Coscientist利用GPT-4,在人類的提示下檢索化學文獻,成功設計出一個反應途徑來合成一個分子。

GPT-4遍歷整個互聯網上的說明書,並選擇數據庫中最好的試劑盒和試劑,在現實中製造分子。

論文地址:https://www.nature.com/articles/s41586-023-06792-0

最令人震驚的是,Coscientist在短短4分鐘內,一次性復現了諾獎研究。

具體來說,全新AI系統在6個不同任務中呈現了加速化學研究的潛力,其中包括成功優化「鈀催化偶聯反應」。

「鈀催化偶聯反應」的研究是由美國化學家Richard Fred Heck,以及兩位日本化學家獲得了2010年諾貝爾化學獎。

領導這項研究的CMU化學家Gabe Gome表示,「當我看到一種非有機智能能夠自主計劃、設計和執行人類發明的化學反應的那一刻,真是太神奇了」!

GPT-4自動化學研究

當前,AI工具在科學領域的應用激增,但對於在實驗室工作的研究人員,或那些不精通代碼的人來說,AI並非唾手可得。

我們都知道,化學研究建立在迭代循環的基礎上。在這個循環中,實驗被設計、執行,然後進行改進以實現特定目標。

對於化學家來說,所做的研究是多管齊下的——不僅需要執行化學反應的技術技能,還需要規劃和設計化學反應的知識。

舉個栗子,當合成一個新物質時,化學家們需要「逆合成分析」,從最後的目標物質一步一步想回去,以確定初始的分子,然後在數據庫中搜索合適的反應條件,並選出一條最可能成功的合成路線。

但是,在實際的實驗中就會發現,化學反應通常無法按預期高產率和選擇性得出產物。

這時,還得需要重新搜索文獻、設計新的實驗路線、再次嘗試實驗,整個迭代過程就會變得遙遙無期。

對於人類化學家來說,即便有了相應的知識,要想設計和執行一個化學反應也不是一件容易的事情,因為設計出的化學反應往往很難以理想的速率來生成產物。

當OpenAI在3月份放出GPT-4後,Gomes和團隊成員開始思考,如何讓大模型為化學家服務。

Gomes表示,「Coscientist卻可以做真正訓練有素的化學家可以做的大部分事情。」

當人類科學家要求Coscientist合成一個特定的分子時,它會在互聯網上搜索以設計合成路線,然後為所需的反應設計實驗方案。

在獲得具體的實驗方案以後,它能編寫代碼來指示移液工作站,然後運行代碼,讓機器人執行它編程過的任務。

而真正厲害的是,Coscientist還可以從反應的結果中學習,並建議對協議進行更改以進行改進。

這種迭代循環優化了反應,從而能夠實現預期的實驗目標。

AI編寫代碼,控制化學機器人

顯然,當前高科技化學機器人通常是由人類化學家編寫的計算機代碼來控制。

而Coscientist系統首次實現,由AI編寫的計算機代碼控制機器人。

研究人員首先讓Coscientist去完成一些簡單的任務,控制一臺機器人液體處理機,將有色液體分配到一個包含96個網格排列的小孔的盤子中。

它被要求「每隔一行滴上一種顏色」,「畫一條藍色的對角線」,「用黃色繪製一個3x3的矩形」,「畫一個紅叉」等等。

Coscientist被指示用液體處理機器人進行不同的設計

液體處理機僅是一個初試,團隊人員通過Emerald Cloud Lab實驗室合作,還將Coscientist引入了更多類型的機器人設備,

這家實驗室配備了各種自動化儀器,包括測量被化學樣品吸收的光波長的分光計。

一個盤子裡面裝著3種不同顏色(紅黃藍)的液體,Coscientist被要求確定這些液體是什麼顏色,以及它們在盤子上的什麼位置。

Coscientist沒有「眼睛」,只能通過編寫代碼,將神秘的色板自動傳遞給分光光度計,並分析每個孔吸收的光的波長,從而識別出有哪些顏色,及其在色板上的位置。

對於這項任務,研究人員不得不稍微給Coscientist一點提示,指示它考慮不同顏色吸收光的方式。

剩下的任務,就可完全放心交給AI系統去完成。

由Coscientist生成的代碼。分為以下幾個步驟:定義方法的元數據、加載實驗器皿模塊、設置液體處理器、執行所需的試劑轉移、設置加熱器-振動器模塊、運行反應以及關閉模塊。

4分鐘復現諾獎,自主糾正代碼錯誤

Coscientist的終極測試是,將其組裝的模塊和訓練放在一起,以完成研究團隊執行「Suzuki和Sonogashira反應」的命令。

這種反應是在20世紀70年代發現的,使用金屬鈀作為催化劑,在有機分子中的碳原子之間形成鍵。

事實證明,這些反應在生產治療炎症、哮喘和其他疾病的新型藥物方面非常有用。它們還用於有機半導體,以及許多智能手機和顯示器中的有機發光二極管。

值得一提的是,這些突破性的反應及其廣泛的影響得到了正式認可,2010年諾貝爾獎便授予了Sukuzi、Richard Heck和Ei-ichi Negishi。

當然,Coscientist以前從未嘗試過這些反應。

MacKnight表示,設計了Coscientist搜索技術文檔的軟件模塊,「對我來說,最驚豔的時刻是看到它問了所有正確的問題。」

Coscientist主要在維基百科上尋找答案,也還有許多其他網站,包括美國化學學會、皇家化學學會和其他包含描述Suzuki和Sonogashira反應的學術論文的網站。

鈀催化偶聯反應整個流程

在不到4分鐘的時間裡,Coscientist設計了一個使用團隊提供的化學物質產生所需反應的準確程序。

當它試圖用機器人在現實世界中執行程序時,它在編寫的代碼中「犯了一個錯誤」,該代碼用來控制加熱和搖動液體樣品的設備。

但是在沒有人的提示的情況下,Coscientist立即發現了問題,重新參考了設備的技術手冊,更正了代碼並再次嘗試。

實驗結果被裝在了幾個極小的透明液體樣本中。Boiko分析了樣品,發現了鈴木反應和Sonogashira反應的光譜特徵。

當Boiko和MacKnight告訴Gomes Coscientist的成果時,Gomes表示懷疑。

「我以為他們在跟我開玩笑,」他回憶道。

但是成果就放在那裡,簡直讓人難以置信。

「隨之而來的是明智地使用這種潛在的力量,並防止濫用。」Gomes說,瞭解人工智能的能力和限制是制定知情規則和政策的第一步,這些規則和政策可以有效地防止有害的人工智能使用,無論是故意的還是意外的。

Coscientist基本架構

研究人員提出了一個基於多LLM的智能代理(以下簡稱為 Coscientist),它能夠自主設計、規劃和執行復雜的科學實驗。Coscientist 可以使用工具瀏覽互聯網和相關文檔,使用機器人實驗應用編程接口(API),並利用其他 LLM 完成各種任務。

研究人員展示了 Coscientist 在以下六項任務中的多功能性和性能:

(1)使用公開數據規劃已知化合物的化學合成;

(2)高效搜索和瀏覽大量硬件文檔;

(3)使用文檔在雲實驗室中執行高級命令;

(4)使用底層指令精確控制液體處理儀器;

(5)處理需要同時使用多個硬件模塊和整合不同數據源的複雜科學任務;

(6)解決需要分析以前收集的實驗數據的優化問題。

科學家 「通過與多個模塊的交互(網絡和文檔搜索、代碼執行)和實驗」,獲取解決複雜問題所需的知識。

主模塊(規劃者)的目標是根據用戶輸入,通過調用下面定義的命令進行規劃。

規劃器是一個GPT-4聊天實例,扮演助手的角色。用戶的初始輸入和命令輸出被視為給規劃器的用戶信息。規劃器的系統提示(定義 LLM 目標的靜態輸入)以模塊化方式設計,描述為定義操作空間的四個命令:「GOOGLE」、「PYTHON」、「DOCUMENTATION 」和 「EXPERIMENT」。

規劃器根據需要調用這些命令來收集知識。GOOGLE命令負責使用網絡搜索模塊搜索互聯網,該模塊本身也是一個 LLM。

PYTHON命令允許規劃者使用 「代碼執行 」模塊進行計算,為實驗做準備。

EXPERIMENT命令通過DOCUMENTATION模塊描述的API實現 「自動化」。

與GOOGLE命令一樣,DOCUMENTATION命令也是從源頭向主模塊提供信息,這裡指的是有關所需API的文檔。

研究人員演示了與Opentrons Python API 和翡翠雲實驗室(ECL)符號實驗室語言(SLL)的兼容性。這些模塊共同組成了Coscientist,它可以接收來自用戶的簡單純文本輸入提示(例如,「執行多個鈴木反應」)。上圖完整地展示了這一架構。

此外,有些命令還可以使用子反應。

GOOGLE命令能夠將提示轉化為適當的網絡搜索查詢,在谷歌搜索API中運行這些查詢,瀏覽網頁並將答案反饋給規劃器。

同樣,DOCUMENTATION命令可檢索和彙總必要的文檔(例如,機器人液體處理器或雲實驗室),以便規劃器調用 EXPERIMENT命令。

PYTHON命令使用一個隔離的Docker容器執行代碼(不依賴於任何語言模型),以保護用戶的機器免受規劃器要求的任何意外操作的影響。

重要的是,規劃器背後的語言模型可以在軟件出錯時修復代碼。這同樣適用於自動化模塊的EXPERIMENT 命令,該命令可在相應硬件上執行生成的代碼,或為手動實驗提供合成程序。

AI讓每個人都能成為科學家

自然界的大小和複雜性幾乎是無限的,無數新的科學發現有待人類突破。

想象一下,新的超導材料可以顯著提高能源效率,或者化合物可以治癒原本無法治癒的疾病,延長人類的壽命。

然而,獲得取得這些突破所需的教育和培訓是一段漫長而艱鉅的旅程,成為一名科學家實在是太難了。

但是Gomes和他的團隊設想,像Coscientist這樣的人工智能輔助系統是一種解決方案,可以為全世界大量提供「AI科學家」來滿足科研的人力需求。

人類科學家也需要休息,睡眠。而人類引導的人工智能可以全天候地「科研」。

「自主運行的AI系統可以發現新現象、新反應、新想法」。

科學上有一個反覆嘗試、失敗、學習和改進的過程,人工智能可以大大加快這一過程。

「這可以顯著降低幾乎任何領域的准入門檻」Gomes說。例如,如果一位未受過「鈀催化偶聯反應」訓練的生物學家想以一種新的方式探索反應的用途,他們可以請Coscientist幫助他們計劃實驗。

參考資料

https://www.nature.com/articles/d41586-023-04073-4

本文來自微信公眾號“新智元”(ID:AI_era),作者:桃子 潤,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論