오늘 발표된 구글 딥마인드의 알파게놈(AlphaGenome)은 단순히 AI-과학 경쟁의 또 다른 시작이 아닙니다. 비상업적 연구를 위한 API 접근이 가능하고, GitHub에 방대한 문서와 커뮤니티 지원이 제공됨에 따라, 한때 전문 연구실과 유료 데이터세트에 국한되었던 유전체학이 오픈 사이언스로 빠르게 전환되고 있음을 알 수 있습니다.
이건 꽤 큰 일이에요.
DNA가 우리 몸의 작동 방식을 알려주는 거대한 설명서라고 생각해 보세요. 오랫동안 과학자들은 단백질처럼 우리 몸에 필요한 물질을 만드는 방법을 직접적으로 알려주는 부분만 이해할 수 있었습니다. 하지만 우리 DNA의 대부분, 90% 이상은 그렇지 않습니다. DNA는 아무것도 직접 만들지 않습니다. 사람들은 이를 "정크 DNA"라고 불렀습니다.
이제 우리는 "쓰레기"가 실제로 중요한 역할을 한다는 것을 알게 되었습니다. 바로 실제 명령이 언제 어디서 사용되는지 제어하는 것입니다. 마치 스위치와 다이얼로 가득 찬 제어판과 같습니다. 문제는? 읽고 이해하기가 정말 어렵다는 것입니다.
여기서 AlphaGenome이 등장합니다.
알파게놈(AlphaGenome)은 구글 딥마인드(DeepMind)가 개발한 강력한 AI 모델로, DNA의 이러한 복잡한 부분들을 이전 어떤 모델보다 더 정확하게 판독할 수 있습니다. 이미지 생성기나 챗봇에 사용되는 것과 같은 고급 머신러닝을 사용하여 최대 백만 글자 길이의 DNA를 분석하고, 어떤 부분이 중요한지, 유전자에 어떤 영향을 미치는지, 심지어 돌연변이가 어떻게 질병을 유발할 수 있는지까지 파악합니다.
이는 설명서를 읽을 뿐만 아니라 전체 시스템이 어떻게 켜지고 꺼지는지, 문제가 발생할 때 어떤 일이 발생하는지 파악하는 매우 똑똑한 AI 현미경을 갖는 것과 같습니다.
멋진 점은 DeepMind가 API(컴퓨터가 이 도구와 통신하는 방식)를 통해 이 도구를 공유하고 있다는 것입니다. 덕분에 전 세계 과학자와 의학 연구자들이 연구에 무료로 사용할 수 있게 되었습니다. 이는 유전 질환, 개인 맞춤 의학, 심지어 노화 방지 치료와 같은 분야에서 발견을 가속화하는 데 도움이 될 수 있음을 의미합니다.
숏, AlphaGenome은 과학자들이 우리가 이전에 이해하지 못했던 DNA 부분을 읽는 데 도움이 되며, 이는 질병을 치료하는 방법에 대한 모든 것을 바꿀 수 있습니다.
알파게놈(AlphaGenome)은 DNA 서열이 유전자 발현 및 기타 중요한 기능을 조절하는 방식을 분석하도록 설계된 딥러닝 모델입니다. 숏 DNA 단편을 분석했던 기존 모델과 달리, 알파게놈은 최대 백만 염기쌍 길이의 서열을 처리할 수 있습니다. 이는 이전 방식에서는 놓쳤던 먼 거리의 조절 상호작용까지 포착할 수 있는 전례 없는 규모입니다.
AlphaGenome의 핵심 강점은 다중 모드 예측 엔진입니다. 한 가지 유형의 유전체 활성만 예측할 수 있었던 기존 모델과 달리, 이 모델은 유전자 발현(RNA-seq, CAGE), 스플라이싱 이벤트, 크로마틴 상태(DNase 민감도 및 히스톤 변형 포함), 그리고 3D 크로마틴 접촉 지도에 대한 고해상도 예측을 제공합니다.
이를 통해 세포 내에서 어떤 유전자가 켜지거나 꺼지는지 정확히 알아내는 데 유용할 뿐만 아니라, 게놈 접힘, 편집 및 접근성의 복잡한 안무를 이해하는 데도 유용합니다.
아키텍처는 주목할 만하지만, 로컬에서 Stable Diffusion이나 일반적인 오픈소스 LLM을 사용해 본 사람이라면 꽤 익숙할 것입니다. AlphaGenome은 약 4억 5천만 개의 학습 가능한 매개변수를 갖춘 U-Net에서 영감을 받은 신경망을 사용합니다.
네, 수십억 개의 매개변수를 처리하는 약하고 규모가 작은 언어 모델과 비교해 보면 상당히 낮은 수치입니다. 하지만 DNA가 4개의 염기와 두 쌍의 염기만 다룬다는 점을 고려하면, 즉 인간 유전체 전체가 30억 쌍의 AT와 CG 쌍으로 이루어진 문자들의 조합에 불과하다는 점을 고려하면, DNA는 매우 특수한 모델이며, 단 하나의 일을 매우 잘 수행하도록 설계되었습니다.
이 모델은 단일 염기 해상도에서 더 거친 표현으로 입력을 다운샘플링하는 시퀀스 인코더를 포함하고 있으며, 변환기 모델은 디코더가 출력을 단일 염기 수준으로 재구성하기 전에 장거리 의존성을 계층화합니다. 이를 통해 다양한 해상도에서 예측이 가능해져 세밀한 조절 분석과 광범위한 조절 분석이 모두 가능합니다.
모델의 훈련은 ENCODE, GTEx, 4D Nucleome, FANTOM5를 포함한 공개적으로 사용 가능한 다양한 데이터 세트를 활용했습니다. 이러한 리소스는 인간과 마우스 세포 유형 전반에 걸쳐 수천 가지 실험 프로필을 총체적으로 나타냅니다.
그리고 이 과정도 매우 빨랐습니다. DeepMind는 Google의 맞춤형 TPU를 사용하여 사전 학습 및 증류 과정을 단 4시간 만에 완료했으며, 이전 모델인 Enformer에 필요했던 컴퓨팅 예산의 절반만 사용했습니다.
AlphaGenome은 24개의 시퀀스 예측 테스트 중 22개에서, 그리고 26개의 변이 효과 예측 중 24개에서 최첨단 모델을 능가하는 성능을 보였습니다. 이는 점진적인 개선이 일반적인 벤치마크에서 보기 드문 완벽한 성과입니다. 실제로 AlphaGenome은 돌연변이 DNA와 돌연변이가 없는 DNA를 비교하여 몇 초 만에 유전 변이의 영향을 예측할 수 있을 정도로 뛰어난 성능을 발휘합니다. 이는 질병 기원을 규명하는 연구자들에게 매우 중요한 도구입니다.
이는 비코딩 유전체에 세포 기능과 질병 위험을 조절하는 많은 조절 스위치가 포함되어 있기 때문에 중요합니다. 알파게놈(AlphaGenome)과 같은 모델은 이전에는 불분명했던 이러한 영역들이 인간 생물학의 얼마나 많은 부분을 지배하는지를 보여주고 있습니다.
AI가 오늘날 생물학에 미치는 영향은 무시하기 어렵습니다. 뮌헨 공과대학교, 컬럼비아대학교, 그리고 스타트업 프로티네아의 연구팀이 개발한 단백질 언어 모델인 앙크(Ankh)를 예로 들어 보겠습니다. 앙크는 단백질 서열을 언어처럼 취급하여 새로운 단백질을 생성하고 그 행동을 예측합니다. 이는 알파게놈(AlphaGenome)이 DNA의 조절 "문법"을 해석하는 방식과 유사합니다.
또 다른 인접 기술인 엔비디아의 GenSLMs 는 AI가 팬데믹 연구를 위해 바이러스 돌연변이와 클러스터 유전 변이를 예측하는 능력을 보여줍니다. 한편, 화학 및 유전자 기반 항노화 기술 의 발전을 촉진하기 위한 AI의 활용은 유전체학, 머신러닝, 그리고 의학의 교차점을 보여줍니다.
AlphaGenome의 가장 중요한 공헌 중 하나는 접근성입니다. 이 모델은 상업적 용도로만 제한되지 않고, 비상업적 연구를 위한 공개 API를 통해 제공됩니다.
아직 완전히 오픈소스화되지는 않았지만(연구자들이 다운로드하여 로컬에서 실행하거나 수정할 수는 없음을 의미), API와 관련 리소스를 통해 전 세계 과학자들이 예측을 생성하고, 다양한 종 또는 세포 유형에 맞춰 분석을 조정하고, 향후 출시를 위한 피드백을 제공할 수 있습니다. DeepMind는 향후 더 광범위한 오픈소스 출시 계획을 시사했습니다.
알파게놈(AlphaGenome)은 질병 관련 돌연변이가 가장 많이 발견되는 비코딩 변이를 분석하여 유전 질환과 희귀 질환에 대한 새로운 이해를 제공할 수 있습니다. 알파게놈의 고속 변이 스코어링 기능은 개인의 고유한 DNA 프로필에 맞춰 치료를 제공하는 개인 맞춤 의학을 지원합니다.
현재 비코딩 유전체는 블랙박스처럼 복잡하지 않으며, 유전체학에서 AI의 역할은 더욱 확대될 것으로 예상됩니다. 알파게놈(AlphaGenome)이 우리를 헉슬리의 "멋진 신세계"로 이끌어 줄 모델은 아닐지 몰라도, 앞으로의 미래가 어떻게 될지 보여주는 분명한 신호입니다. 더 많은 데이터, 더 나은 예측, 그리고 생명의 작동 방식에 대한 더 깊은 이해 말입니다.





