KAIST-UCSD, 인공지능(AI) 예측과 실험 검증을 결합한 유전자 기능 발견 전략 체계적 정리
유전자 서열-단백질 구조 예측·메타유전체 활용 사례 정리
능동적 학습·자동화 플랫폼 기반 자율 AI 에이전트 활용 가능성 논의

KAIST 이상엽 특훈교수, 김기배 박사, University of California, San Diego(UCSD) 버나드 폴슨(Bernhard Palsson) 교수
“유전자는 알지만 기능은 모른다”는 미생물 연구의 오랜 난제를 해결하기 위해, 공동연구진이 인공지능(AI) 기반 미생물 유전자 기능 발견의 속도를 크게 높일 수 있는 최신 연구 전략을 제시했다.
KAIST(총장 이광형)는 생명화학공학과 이상엽 특훈교수 연구팀이 UCSD 생명공학과 버나드 폴슨(Bernhard Palsson) 교수와 함께 AI를 활용해 미생물 유전자 기능 발견을 획기적으로 가속할 수 있는 최신 연구 접근법을 체계적으로 정리·분석한 리뷰논문을 발표했다고 12일 밝혔다.
2000년대 초 전장 유전체 해독 기술이 본격화되며 생명체의 유전자 구성을 완전히 규명할 수 있을 것이라는 기대가 컸다. 그러나 20년이 지난 지금도 미생물 유전체 내 상당수 유전자는 어떤 역할을 하는지 밝혀지지 않은 상태다.
유전자 결실 실험, 발현량 조절, 시험관 내 활성 측정 등 다양한 실험이 시도돼 왔지만 ▲ 대규모 실험의 한계 ▲ 복잡한 생물학적 상호작용 ▲ 실험실 결과와 실제 생체 내 반응 간 불일치 등으로 인해 유전자 기능 규명에는 여전히 많은 시간과 비용이 소요돼 왔다.
연구팀은 이러한 한계를 극복하기 위해 전산생물학과 실험생물학을 결합한 AI 기반 접근이 필수적이라고 강조했다.
이번 논문에서는 기존의 서열 유사성 분석 기법부터 최신 심층학습 기반 AI 모델에 이르기까지, 유전자 기능 발견을 촉진해 온 다양한 전산생물학적 접근법을 종합적으로 정리했다.
특히 AlphaFold(구글 딥마인드가 개발한 단백질 구조 예측 AI), RoseTTAFold(미국 워싱턴대에서 개발한 또 다른 고성능 단백질 구조 예측 AI)와 같은 단백질 3차원 구조 예측 기술은 단순한 기능 추정을 넘어, 유전자 기능이 어떻게 작동하는지 이해할 수 있는 가능성을 제시했다. 더 나아가 생성형 인공지능은 원하는 기능을 가진 단백질을 설계하는 단계로까지 연구를 확장하고 있다.
연구팀은 전사인자(유전자를 켜고 끄는 스위치 역할을 하는 단백질)와 효소(생체 내 화학 반응을 촉진하는 단백질)를 중심으로, 유전자 서열 정보, 단백질 구조 예측, 다양한 메타유전체 분석을 결합한 다양한 응용 사례와 향후 연구 방향을 제시했다.
연구팀은 유전자 기능 발견의 편향과 한계를 극복하기 위해 AI가 실험을 안내하는 ‘능동적 학습(Active Learning)’ 기반 연구 프레임워크가 필요하다고 밝혔다.
능동적 학습은 AI 모델이 불확실성이 높은 예측을 스스로 선별해 실험을 제안하고, 그 결과를 다시 학습에 반영하는 방식이다. 이를 통해 연구자는 중요한 유전자 기능부터 효율적으로 검증할 수 있다.
이를 위해 연구팀은 자동화된 실험 플랫폼과 바이오파운드리 등 공유 연구 인프라와의 긴밀한 통합이 필수적이라고 강조했다. 또한 실험적으로 검증되지 못한 ‘실패 데이터’ 역시 향후 연구를 위한 중요한 학습 자산으로 공유돼야 한다고 덧붙였다.
공동저자인 김기배 KAIST 박사는 “딥러닝 기반 예측 성능은 크게 향상됐지만, 예측 결과의 근거를 생물학적으로 설명할 수 있는 해석 가능한 인공지능 모델 개발은 여전히 중요한 과제”라고 말했다.
이상엽 특훈교수는 “유전자 기능 발견의 한계를 넘어서기 위해서는 연구자의 지휘하에 AI가 안내하는 체계적 실험 프레임워크와 자동화 연구 인프라의 결합이 핵심”이라며, “예측과 검증이 반복적으로 연결되는 연구 생태계 구축이 중요하다”고 강조했다.
해당 논문은 네이처(Nature) 誌가 발행하는 생명공학 분야 권위 저널인 `네이처 마이크로볼로지(Nature Microbiology)'에 01월 07일 자 게재됐다.
※ 논문명: Approaches for accelerating microbial gene function discovery using artificial intelligence, DOI: 10.1038/s41564-025-02214-1
※ 저자 정보 : Bernhard O. Palsson (UCSD, 제1 저자), 이상엽(KAIST 제2 저자, 교신저자), 김기배(KAIST, 제3 저자) 포함 총 3명
한편, 이번 연구는 과기정통부가 지원하는 석유대체 친환경 화학기술개발사업의 ‘바이오화학산업 선도를 위한 차세대 바이오리파이너리 원천기술 개발’ 과제의 지원, 그리고 합성생물학핵심기술개발 사업의 ‘바이오제조 산업 선도를 위한 첨단 합성생물학 원천기술 개발’과제의 지원을 받아 수행됐다.
연구개요
□ 연구 배경
ㅇ 미생물 유전체 전장 해독이 본격화되며 유전자 구성을 완전히 규명할 수 있을 것이라는 기대가 있었으나, 실제로는 미생물 유전체에서 확인되는 ORF (Open reading frame)의 3분의 1 이상이 기능 주석이 불가능하다는 한계가 확인되었고, 20년 이상 지난 현재도 같은 문제가 지속되고 있다. 특히 최소 합성 미생물 유전체인 JCVI-syn3.0에서도 473개 ORF 중 149개가 기능 미상으로 남아 있다.
ㅇ 기능 미상 유전자를 규명하기 위해 유전자 결실, 발현 조절(과발현/저발현), 발현 프로파일 분석, 시험관 내 활성 측정 등 다양한 실험이 수행되어 왔지만, 고처리량 실험 접근의 부재, 복잡한 생물학적 네트워크 간 상호작용, 시험관 내-생체 내 결과 불일치 등이 다수 유전자의 특성화를 가로막아 왔다. 이에 따라 기능 주석을 가속하기 위해 전산적 방법과 실험적 방법의 결합 필요성이 제기된다.
ㅇ 한편 서열 유사성 탐색 기반 초기 도구부터 딥러닝 기반 파이프라인까지 다양한 전산 접근이 발전해 왔고, 생물학 빅데이터와 인공지능 고도화로 기능 주석이 새로운 국면에 들어섰다. 예로 AlphaFold와 같은 단백질 3차원 구조 예측 도구는 기본 주석을 넘어 기능 기작 이해 가능성을 넓히며, 생성형 AI는 원하는 기능의 단백질 설계 가능성도 제시하고 있다.
ㅇ 본 논문운 이러한 진전을 바탕으로 전산-실험 접근의 결합이 유전자 기능 발견을 어떻게 가속하는지를 다루며, 특히 전사인자와 효소를 중심으로 서열 데이터, 구조 모델링, 메타유전체 프로파일링 활용 사례를 정리하고, 해석 가능하고 고처리량의 인공지능 기반의 주석을 위한 향후 방향을 제시한다
□ 연구 내용
ㅇ 대장균의 미주석 유전자 집합을 대상으로, 인공지능 기반 기능 예측을 통해 특정 기능군(예: 전사인자, 효소)을 선별하고, ChIP-exo 등 확립된 실험 기법으로 검증하는 전산-실험 통합 발견 워크플로우를 제시했다.
ㅇ 전사인자 기능 발견 사례로, Support vector machine 기반 전사인자 예측, 서열 동형성, DNA-단백질 상호작용 예측을 조합해 전사인자 후보를 도출하고 실험적으로 검증하는 사례, 그리고 심층학습 기반 전사인자 예측 도구를 통해 전사인자를 새롭게 발견한 연구를 포함해, 대장균에서 검증된 전사인자의 수가 증가했음을 소개했다.
ㅇ 효소 기능 예측에서는 EC number 예측 프레임워크의 발전을 다루며, GPU 기반 딥러닝을 통해 9,513개 유전체의 33,942,253개 단백질 서열에 대한 예측을 230시간에 수행한 사례를 소개했다. 또한 트랜스포머 기반 DeepECtransformer가 기능이 밝혀지지 않은 대장균 유전자 집합에서 464개 단백질에 대해 EC number 예측을 수행하고, 그중 3개 단백질에 대해 시험관 내 효소 활성 실험으로 검증한 사례를 정리했다.
ㅇ 향후 방향으로는, saliency map 등 사후 해석이 가능성을 보여주지만 한계도 있어, 예측 근거를 생물학적으로 의미 있는 특징으로 추적할 수 있는 본질적으로 해석 가능한 인공지능 모델 개발이 핵심 과제라고 제시했다. 또한 기능 발견의 역사적 편향과 동형성 기반 전이의 오류 전파 문제를 언급하며, 인공지능 기반 실험 프레임워크, 능동적 학습 (Active learning) 기반 우선 검증, 자동화 및 확장 가능한 실험 플랫폼과 바이오파운드리 인프라, 고처리량 효소 활성 검증 실험, 실패 데이터의 공개 및 공유, 그리고 가설 생성-실험 설계-전략 조정을 수행하는 자율 인공지능 에이전트의 통합 플랫폼 활용 가능성을 제시했다.

효소 기능 예측을 위한 전산생물학 접근법 모식도 [사진=KAIST]