AlphaGenome của Google DeepMind, được công bố hôm nay, không chỉ là một mục nhập khác trong cuộc chạy đua vũ trang AI-for-science. Với quyền truy cập API có sẵn cho nghiên cứu phi thương mại—và tài liệu mở rộng cùng sự hỗ trợ của cộng đồng được lưu trữ trên GitHub —nó báo hiệu rằng hệ gen học, trước đây chỉ giới hạn trong các phòng thí nghiệm chuyên biệt và các tập dữ liệu có tường phí, đang nhanh chóng chuyển sang khoa học mở.
Đây thực sự là một vấn đề lớn.
Hãy tưởng tượng DNA của bạn giống như một cuốn hướng dẫn khổng lồ về cách cơ thể bạn hoạt động. Trong một thời gian dài, các nhà khoa học chỉ có thể thực sự hiểu được những phần trực tiếp chỉ dẫn cơ thể bạn cách xây dựng mọi thứ, như protein. Nhưng hầu hết DNA của bạn—hơn 90%—không giống như vậy. Nó không xây dựng bất cứ thứ gì trực tiếp. Mọi người thường gọi nó là "DNA rác".
Bây giờ chúng ta biết rằng "rác" thực sự đang làm một điều quan trọng: nó giúp kiểm soát thời điểm và nơi sử dụng các hướng dẫn thực sự—giống như một bảng điều khiển đầy đủ các công tắc và nút xoay. Vấn đề là gì? Thật sự rất khó để đọc và hiểu.
Đó chính là lúc AlphaGenome xuất hiện.
AlphaGenome là một mô hình AI mạnh mẽ do Google DeepMind xây dựng, có thể đọc những phần DNA khó hiểu này tốt hơn bất kỳ thứ gì trước đó. Nó sử dụng máy học tiên tiến (giống như loại đằng sau máy tạo hình ảnh hoặc chatbot) để xem các phần DNA lớn—dài tới một triệu chữ cái—và tìm ra phần nào là quan trọng, chúng ảnh hưởng đến gen của bạn như thế nào và thậm chí cả cách đột biến có thể dẫn đến bệnh tật.
Giống như việc có một kính hiển vi AI siêu thông minh không chỉ đọc hướng dẫn mà còn tìm ra cách bật và tắt toàn bộ hệ thống, cũng như điều gì sẽ xảy ra khi có sự cố xảy ra.
Điều tuyệt vời là DeepMind đang chia sẻ công cụ này thông qua API (một cách để máy tính giao tiếp với nó), vì vậy các nhà khoa học và nhà nghiên cứu y khoa trên toàn thế giới có thể sử dụng miễn phí trong nghiên cứu của họ. Điều này có nghĩa là nó có thể giúp đẩy nhanh quá trình khám phá những thứ như bệnh di truyền, y học cá nhân hóa và thậm chí là phương pháp điều trị chống lão hóa.
Tóm Short: AlphaGenome giúp các nhà khoa học đọc được những phần DNA mà trước đây chúng ta chưa hiểu—và điều đó có thể thay đổi mọi thứ về cách chúng ta điều trị bệnh.
AlphaGenome là một mô hình học sâu được thiết kế để phân tích cách các chuỗi DNA điều chỉnh biểu hiện gen và các chức năng quan trọng khác. Không giống như các mô hình cũ phân tích các đoạn DNA Short , AlphaGenome có thể xử lý các chuỗi dài tới một triệu cặp bazơ—một quy mô chưa từng có cho phép nó nắm bắt các tương tác điều chỉnh xa mà các phương pháp trước đây bỏ qua.
Điểm mạnh cốt lõi của AlphaGenome là công cụ dự đoán đa phương thức. Không giống như các mô hình trước đây có thể dự đoán một loại hoạt động của bộ gen, mô hình này đưa ra các dự báo có độ phân giải cao về biểu hiện gen (RNA-seq, CAGE), các sự kiện ghép nối, trạng thái chromatin (bao gồm độ nhạy DNase và sửa đổi histone) và bản đồ tiếp xúc chromatin 3D.
Điều này không chỉ hữu ích trong việc xác định gen nào được bật hoặc tắt trong tế bào mà còn giúp hiểu được quá trình phức tạp của quá trình gấp, chỉnh sửa và tiếp cận bộ gen.
Kiến trúc này đáng chú ý nhưng vẫn khá quen thuộc nếu bạn đã sử dụng Stable Diffusion hoặc LLM mã nguồn mở thông thường tại địa phương: AlphaGenome sử dụng mạng nơ-ron lấy cảm hứng từ U-Net, với khoảng 450 triệu tham số có thể đào tạo được.
Vâng, con số này khá thấp nếu bạn so sánh với các mô hình ngôn ngữ yếu và nhỏ hơn hoạt động với hàng tỷ tham số. Tuy nhiên, xét đến việc DNA chỉ xử lý 4 bazơ và chỉ có hai cặp—về cơ bản, toàn bộ bộ gen của con người không gì khác ngoài sự kết hợp của 3 tỷ cặp chữ cái AT và CG—đây là một mô hình rất cụ thể, được thiết kế để thực hiện một việc duy nhất cực kỳ tốt.
Mô hình có bộ mã hóa chuỗi lấy mẫu đầu vào từ độ phân giải một cơ sở thành các biểu diễn thô hơn, sau đó mô hình biến áp phân lớp các phụ thuộc tầm xa trước khi bộ giải mã tái tạo đầu ra trở lại mức một cơ sở. Điều này cho phép dự đoán ở nhiều độ phân giải khác nhau, cho phép phân tích quy định chi tiết và rộng.
Quá trình đào tạo của mô hình dựa trên một loạt các tập dữ liệu có sẵn công khai, bao gồm ENCODE, GTEx, 4D Nucleome và FANTOM5—các nguồn tài nguyên đại diện cho hàng nghìn hồ sơ thử nghiệm trên các loại tế bào người và chuột.
Và quá trình này cũng diễn ra khá nhanh: sử dụng TPU tùy chỉnh của Google, DeepMind đã hoàn tất quá trình đào tạo trước và chưng cất chỉ trong bốn giờ, chỉ sử dụng một nửa ngân sách tính toán mà người tiền nhiệm Enformer yêu cầu.
AlphaGenome đã vượt trội hơn các mô hình tiên tiến trong 22/24 thử nghiệm dự đoán trình tự và 24/26 dự đoán hiệu ứng biến thể, một chiến thắng hiếm hoi trong các chuẩn mực mà cải tiến gia tăng là chuẩn mực. Trên thực tế, nó thực hiện công việc này rất tốt, đến mức có thể so sánh DNA đột biến và không đột biến, dự đoán tác động của các biến thể di truyền trong vài giây—một công cụ quan trọng đối với các nhà nghiên cứu lập bản đồ nguồn gốc bệnh tật.
Điều này quan trọng, vì bộ gen không mã hóa chứa nhiều công tắc điều chỉnh kiểm soát chức năng tế bào và nguy cơ mắc bệnh. Các mô hình như AlphaGenome đang tiết lộ mức độ sinh học của con người được điều chỉnh bởi các vùng trước đây không rõ ràng này.
Ảnh hưởng của AI đối với sinh học ngày nay khó có thể bỏ qua. Hãy lấy Ankh làm ví dụ, một mô hình ngôn ngữ protein được phát triển bởi các nhóm từ Đại học Kỹ thuật Munich, Đại học Columbia và công ty khởi nghiệp Protinea. Ankh xử lý các chuỗi protein như ngôn ngữ, tạo ra các protein mới và dự đoán hành vi của chúng—tương tự như cách AlphaGenome dịch "ngữ pháp" điều hòa của DNA.
Một công nghệ liền kề khác, GenSLM của Nvidia , chứng minh khả năng của AI trong việc dự báo các đột biến vi-rút và nhóm các biến thể di truyền để nghiên cứu đại dịch. Trong khi đó, việc sử dụng AI để thúc đẩy những tiến bộ trong các biện pháp can thiệp chống lão hóa dựa trên hóa chất và gen làm nổi bật sự giao thoa giữa hệ gen, máy học và y học.
Một trong những đóng góp quan trọng nhất của AlphaGenome là khả năng tiếp cận. Thay vì bị giới hạn trong các ứng dụng thương mại, mô hình này có sẵn thông qua API công khai cho nghiên cứu phi thương mại.
Mặc dù vẫn chưa hoàn toàn mở nguồn—có nghĩa là các nhà nghiên cứu không thể tải xuống và chạy hoặc sửa đổi cục bộ—API và các tài nguyên đi kèm cho phép các nhà khoa học trên toàn thế giới tạo ra các dự đoán, điều chỉnh các phân tích cho nhiều loài hoặc loại tế bào khác nhau và cung cấp phản hồi để định hình các bản phát hành trong tương lai. DeepMind đã báo hiệu các kế hoạch cho một bản phát hành mã nguồn mở rộng hơn trong tương lai.
Khả năng phân tích các biến thể không mã hóa của AlphaGenome—khu vực mà hầu hết các đột biến liên quan đến bệnh được tìm thấy—có thể mở ra hiểu biết mới về các rối loạn di truyền và các bệnh hiếm gặp. Tính năng chấm điểm biến thể tốc độ cao của nó cũng hỗ trợ y học cá nhân hóa, trong đó các phương pháp điều trị được điều chỉnh theo hồ sơ DNA độc đáo của từng cá nhân.
Hiện tại, bộ gen không mã hóa không còn là hộp đen nữa, và vai trò của AI trong hệ gen học chỉ được thiết lập để mở rộng. AlphaGenome có thể không phải là mô hình đưa chúng ta đến "Thế giới mới tươi đẹp" của Huxley, nhưng nó là dấu hiệu rõ ràng cho thấy mọi thứ đang hướng đến đâu: nhiều dữ liệu hơn, dự đoán tốt hơn và hiểu sâu hơn về cách thức hoạt động của sự sống.




