구글 딥마인드, 인간 DNA 염기서열 분석 AI 모델 ‘알파게놈’ 공개
■
구글 딥마인드가 인간 DNA 염기서열을 입력하면 수천 개에 달하는 분자적 특성을 예측할 수 있는 AI 모델 ‘알파게놈’을 개발하고 비상업적 연구용으로 API로 공개
■
알파게놈은 유전체의 98%에 해당하는 단백질 비부호화 영역을 해독할 수 있으며, 광범위한 유전체 예측 벤치마크 평가에서 기존 최고 성능 모델과 동등하거나 더 뛰어난 수준의
성능을 달성
알파게놈, 최대 100만 개의 DNA 염기서열을 바탕으로 수천 종류의 분자적 특성 예측
■
구글 딥마인드(Google Deepmind)가 2025년 6월 25일 인간 DNA 염기서열*의 변이가 유전자 활동에 미치는 영향을 예측할 수 있는 AI 모델 ‘알파게놈(AlphaGenome)’을 공개
* DNA의 기본 단위로 유전 형질을 구성하는 염기(아데닌(A), 구아닌(G), 시토신(C), 티민(T))가 배열된 순서
∙
유전체(Genome)는 생명체의 거의 모든 부분을 안내하는 완전한 DNA 세트로서, DNA 서열의 변이는 생명체의 환경 적응력이나 질병 반응을 변화시킬 수 있으나, 유전체의 상당
부분은 여전히 생물학의 난제로 평가
∙
알파게놈은 최대 100만 개의 문자(염기쌍*)로 구성된 긴 DNA 염기서열 입력 시 수천 종류에 달하는 분자적 특성(예: 세포 유형, 리보핵산(RNA)의 생산량, 특정 단백질에 결합하는 DNA
염기)을 예측
* 이중나선 구조로 되어 있는 DNA의 두 가닥이 결합하여 생기는 염기의 짝(A-T, G-C)을 의미
∙
유전적 변이를 더욱 정확히 예측하여 희귀 유전 질환을 유발하는 변이 연구 등 질병 이해를 높일 수 있으며, 특정 조절 기능을 가진 합성 DNA 설계와 같은 합성 생물학 연구 및 유전체
관련 기초 연구도 지원
■
알파게놈은 구글 딥마인드가 2023년 9월 공개한 ‘알파미센스(AlphaMissense)*’와 상호 보완하는 모델로, 유전체의 98%에 해당하는 단백질 비부호화** 영역을 해독
* 유전체의 2%를 차지하는 단백질 부호화 영역 내 변이 영향의 분류에 특화된 AI 모델 ** 유전체 중 단백질로 발현되지 않는 영역
∙
유전자 활동 조율에 필수적이면서 질병과 관련된 다양한 변이를 포함하는 단백질 비부호화 영역의 광범위한 염기서열과 변이의 해석을 지원하며, 돌연변이가 발생한 염기서열과
발생하지 않은 염기서열의 예측값을 비교하여 유전적 돌연변이의 영향을 평가할 수 있도록 설계
■
구글 딥마인드에 따르면 알파게놈은 광범위한 유전체 예측 벤치마크 평가에서 기존 최고 성능(SOTA) 모델*과 비교해 더 뛰어나거나 동등한 수준의 성능을 발휘
* SpliceAI, Borzoi, ProCapNet, Panglon, ChromBPNet, Orca, Enformer, AbSplice
∙
DNA 서열 예측에서는 24개 평가 과제 중 22개에서 최고 성능을 보였고, 변이의 조절 효과 예측에서는 26개 평가 과제 중 24개에서 기존 최고 성능 모델과 동등하거나 능가하는 기록을 달성
■
그러나 알파게놈은 유전자와 해당 기능을 조절하는 요소가 10만 개 이상 염기쌍으로 떨어져 있을 경우의 영향을 포착하는 데는 어려움을 겪는 등 한계도 내포
∙
연구진은 알파게놈이 분자 수준을 넘어 유전적 변이가 어떻게 복잡한 형질이나 질병으로 이어지는지를 밝히는 것처럼 광범위한 생물학적 과정을 다루어야 하는 사례에는 적용되기
어렵다고 부연
∙
연구진은 향후 이러한 격차를 해소하기 위해 피드백을 받아 모델을 지속적으로 개선할 계획으로, 비상업적 연구용으로 ‘알파게놈 API’를 통해 모델을 프리뷰로 공개