OpenAI 刚刚将其第一个特定领域的 AI 模型以罗莎琳德·富兰克林的名字命名——这位英国化学家的 X 射线晶体学研究帮助揭示了 DNA 的双螺旋结构,但她生前却因此被剥夺了应有的荣誉。
周四发布的GPT-Rosalind 是一款专为生物学、药物研发和转化医学领域打造的推理模型。它是 OpenAI 所称的生命科学模型系列的首款产品,直接进军这个众多专业实验室(从大学到谷歌 DeepMind)都在争夺市场份额的市场。
专家表示,在美国,从发现靶点到获得监管部门批准,一种药物的研发平均需要10到15年。大部分时间并非耗费在灵光乍现的时刻,而是耗费在繁琐的研究中:分析成千上万篇论文、查询数据库、设计试剂以及解读模棱两可的结果。而这正是GPT-Rosaling试图解决的问题。
OpenAI认为该模型可以缩短早期研究时间。正如该公司所说,GPT-Rosalind旨在帮助科学家“探索更多可能性,发现可能被忽略的联系,并更快地得出更好的假设”。
基准测试结果至少在一定程度上印证了这一雄心壮志。在围绕真实生物信息学任务构建的基准测试 BixBench 上,GPT-Rosalind 的通过率为 0.751,在已发表结果的模型中得分最高。在 LABBench2 上,它在 11 项任务中的 6 项上都优于其前身 GPT-5.4。
GPT-Rosalind 在所有涉及生命科学的案例中都胜过 GPT 5.4,但它是一个非常特殊的模型,在生命科学以外的任何领域都会表现不佳。
OpenAI 还宣布, Dyno Therapeutics将协助其基于未发表的 RNA 序列对模型进行测试和评估,以排除记忆效应的可能性。GPT-Rosalind 的十次最佳提交结果在序列预测任务中排名高于人类专家的 95% 分位,在序列生成任务中排名约为 84% 分位。
尽管如此,OpenAI生命科学研究负责人Joy Jiao对该模型的实际能力持谨慎态度。她解释说,公司并不认为Rosalind能够自主研发新疗法,但她告诉记者,该模型可以极大地帮助加快研究进程。据《洛杉矶时报》报道,Jiao在新闻发布会上表示:“我们认为,该模型确实有机会帮助研究人员更快地完成科学过程中一些最复杂、最耗时的环节。”
模型周围的生态系统可能与模型本身同样重要。OpenAI 还发布了一款免费的生命科学研究插件,用于 Codex,该插件可连接到 50 多个科学数据库和工具,包括蛋白质结构查找、序列搜索、文献综述和基因组学流程。拥有 GPT-Rosalind 访问权限的企业用户可以获得额外的推理层。其他用户则可以使用包含标准模型的插件。
OpenAI已为此次发布会拉拢了一批制药和生物技术客户,包括安进、Moderna和赛默飞世尔科技。此外,该公司还与洛斯阿拉莫斯国家实验室开展人工智能引导的蛋白质和催化剂设计研究合作。
安进公司人工智能与数据高级副总裁肖恩·布鲁伊奇在官方声明中表示:“生命科学领域要求每一步都精准无误。问题非常复杂,数据非常独特,而且风险极高。”
Rosalind 的使用权限受到严格限制。该模型仅供美国企业使用,且需通过资质和安全审查。这种担忧并非空穴来风:一个由 100 多位科学家组成的国际联盟已呼吁加强对用于训练人工智能的生物数据的管控,理由是存在病原体设计风险。OpenAI 的限制性推广正是对此的直接回应。在研究预览期间,使用该模型不会消耗现有的 API 额度。
这并非OpenAI首次涉足科学工作流程领域。今年1月推出的Prism科学写作工作空间便是第一步。GPT-Rosalind则是更精细、更专业的后续产品,也标志着特定领域模型正成为一股不容忽视的竞争力量。
目前还没有任何完全由人工智能发现的药物通过三期临床试验。这个数字仍然是零。但如果 GPT-Rosalind 能够帮助研究人员在数千个实验室中更快地设计出更优的实验方案,并且节省六个月的时间,那么它对最终发现的药物种类和时间产生的累积效应,可能会彻底改变整个行业。这才是本文的真正论点,值得密切关注。





