한빛사 인터뷰
1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
Metabuli는 ‘메타분리’를 소리 나는 대로 영어로 옮긴 이름입니다. 교수님이 독일에서 오셨는데 한국어로 이름을 짓고 싶어 하셔서 붙여진 이름입니다. 프로그램의 기능을 생각하면 메타’분류’가 더 알맞지만, 발음이 어려워 메타분리로 정했습니다. 메타분리는 이름처럼 “메타”유전체 서열을 유래 종에 따라 “분리”하는 (사실은 분류하는) 프로그램입니다. 군대에서 C++ 공부를 하고 전역쯤에 교수님께 메일을 보냈고 Skype 면접을 제안하셨으나, 군대에서 화상 대화는 힘들어 말년 휴가를 나와서 면접을 봤던 기억이 납니다. 4년 전 그 면접에서 두 가지 주제를 제안하셨는데, 하나는 단백질 구조 예측 방법을 개선하는 것이고, 다른 하나가 메타분리를 개발하는 것이었습니다. 면접에선 전자를 해보는 걸로 결론이 났던 거 같은데, 전역하고 돌아오니 후자 연구를 하게 되었습니다. 하마터면 학부 인턴으로 구글 딥마인드와 경쟁할 뻔했던 셈이니 오히려 다행인 것 같기도 합니다.
처음 이 연구를 시작했을 때 프로젝트 이름은 AD-classifier였습니다. 아미노산과 DNA를 모두 활용하는 분석법이라는 이름입니다. 사실 소스코드 곳곳에 아직 그 흔적이 남아 있습니다. 초기 이름처럼 메타분리는 아미노산과 DNA 정보 모두 사용하고, 그게 바로 이 프로그램의 핵심입니다. 기존 방법들은 아미노산과 DNA 서열을 활용하는 방법으로 나눌 수 있는데, 이 둘이 사용한 서열의 특성에 따라 반대되는 장단점을 갖는 게 문제였습니다.
그 장단점을 말씀드리기 전에 분석의 목적, 프로그램의 기능을 설명해 드려야 할 것 같습니다. 환경 샘플에서 DNA 서열을 추출한 것을 “메타유전체”라고 부르는데, 여기에는 여러 미생물과 바이러스에서 유래한 DNA 서열이 마구 뒤섞여 있습니다. 여기서 각 서열이 유래한 종을 식별하는 것이 분석의 목적인데, 이는 각 서열을 참조 유전체와 비교하여 가장 비슷한 유전체를 갖는 종을 찾는 방식으로 진행합니다. 이 분석은 다양한 환경의 생물 다양성을 탐구하는 미생물 생태학 분야에서 활용될 수 있습니다. 인간과 더 밀접하게는, 장내 마이크로바이옴 분석에 적용할 수도, 감염 부위 샘플에서 병원체를 탐지하는 데 적용할 수도 있습니다. 특히 메타유전체 기반 차세대 분자 진단법에 대한 연구는 실제로 활발히 연구되고 있습니다.
앞서 소개해 드린 분석을 metagenomic taxonomic classification이라고 부릅니다. 이를 위한 방법은 메타유전체 데이터 속 DNA 서열 자체를 참조 유전체와 비교하거나, 이를 아미노산으로 번역하여 참조 단백질 서열에 비교하는 방법으로 나눌 수 있습니다. DNA 서열은 돌연변이로 빠르게 변화하기 때문에 이를 비교하면 이미 알려진 종이나 아종 사이를 구체적으로 구분할 수 있습니다. 반면 아미노산 서열은 더 보존적이어서 신종과 알려진 종 사이의 상동성을 민감하게 감지하여 신종과 가장 가까운 종을 알려주는 데 유리합니다.
이런 차이를 SARS-CoV-2를 예시로 설명해 드릴 수 있을 것 같습니다. DNA 서열을 사용하면 돌연변이를 비교하여 알파나 베타, 오미크론 등의 변이 사이를 구분할 수 있어서 환자가 어느 변이에 감염되었는지 식별하는 데 유리합니다. 반면 COVID-19 초기에 SARS-CoV-1만 알려진 상황을 가정하면, SARS-CoV-1 정보만으로 SARS-CoV-2를 감지해 내는 데는 아미노산 서열을 비교하는 것이 유리합니다.
요약하자면 DNA를 비교하는 방법은 알려진 종을 구체적으로 식별하는 걸 잘하고, 아미노산을 비교하는 방법은 신종을 민감하게 감지해 내는 걸 잘합니다. 하지만 메타유전체에는 알려진 종과 신종이 모두 섞여 있어서 두 가지 성능이 모두 좋아야 제대로 된 분석을 할 수 있고, 이를 만족하는 분석법은 없었습니다.
그래서 메타분리 연구를 시작한 것입니다. 아이디어는 간단했습니다. “아미노산, DNA 둘 다 사용해서 장점만 취해보자.” 이를 위해서 우선 두 정보를 동시에 효율적으로 저장할 수 있는 데이터 구조인 metamer를 설계했습니다. 이 구조의 핵심은 아미노산이 정해지면 코돈은 최대 6개 종류로 좁혀진다는 점에 있습니다. 아미노산을 저장했으면, DNA 3개짜리 코돈 저장에는 3비트면 충분한 것입니다. Metabuli는 이 metamer를 활용해서 서열들을 비교합니다. 우선 metamer의 아미노산을 비교하여 검색의 민감도를 확보하고, 이후 DNA 정보를 사용하여 구체적인 분류를 합니다. Metabuli를 개발하면서 어중간해지는 걸 가장 경계했습니다. DNA 기반 도구와 아미노산 기반 도구 중간의 특성을 갖게 되면, 뭐 하나 제대로 하는 게 없는 도구가 되는 것이기 때문에, 두 방식의 장점을 모두 가져가기 위해 계속 고민했습니다. 심지어 논문 revision 과정 중에 핵심 알고리즘을 아주 바꿔 버리기도 했습니다. 결과적으로는 장점을 통합하는 데 성공하였습니다.
Metabuli 논문이 그동안의 metagenomic taxonomic classification 관련 논문 중 아마도 가장 많은 벤치마크 결과를 가지고 있을 것 같습니다. DNA 기반 방법의 단점도 보여줘야 하고, 아미노산 방법의 단점도 보여줘야 해서 다양한 벤치마크가 필요했기 때문입니다. 더불어 short read와 long read 관련 결과도 모두 보여줘야 했습니다. Short read는 그나마 Illumina만 보여주면 되었는데, long read는 ONT, PacBio, PacBio HiFi 모두 보여줘야 해서 더 품이 많이 들었습니다. 성능 비교를 25가지가 넘는 시험으로 했던 것 같은데, 아미노산이나 DNA 중 하나만 사용하는 방법은 테스트 샘플 속 서열과 참조 유전체 사이의 유전적 거리에 따라 성능이 들쭉날쭉했습니다. 하지만 Metabuli는 모든 종류의 테스트에서 꾸준히 좋은 성능을 보였습니다.
앞에서 언급한 메타유전체 기반으로 전염병 진단 방법은 실제로 활발히 연구되고 있는 분야입니다. 전염병 환자의 감염 부위에서 DNA를 추출하고 이를 메타유전체 분석 프로그램을 통해 알려진 모든 병원체의 유전체와 비교하면 한 번의 검사로 모든 병원체에 대한 감염 여부를 식별할 수 있습니다. 실제로 논문에서 메타분리를 사용하여 코로나19 환자를 감염시킨 SARS-CoV-2의 변이를 식별할 수 있음을 보였습니다. 또한 SARS-CoV-2에 대한 정보 없이도, 2003년에 유행했던 SARS의 정보를 활용하여 SARS-CoV-2를 탐지할 수 있다는 것 또한 보였습니다.
메타분리 연구의 또 다른 주안점은 서버 수준의 전산 장비에 대한 의존도를 없애는 것이었습니다. 기존의 분석 프로그램은 수백 기가 단위의 RAM이 필요하기 때문에 고가의 서버 장비를 요구했고, 이는 접근성을 제한하는 큰 장벽일 수 있습니다. 이를 해결하고자, 메타불리는 인터넷 연결 없이 일반 노트북에서도 작동할 수 있도록 만들었습니다. 물론 서버에서 돌리면 훨씬 빠르지만, 노트북으로도 대부분 2시간 정도면 충분할 것 같습니다. 더불어, 자세한 사용법과 바로 사용할 수 있는 데이터베이스, 예시 데이터와 함께 오픈 소스로 공개하여 쉽고 편한 사용을 도모하였습니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁드립니다.
저는 마틴 스타이네거 교수님의 생물정보학 및 기계학습 연구실(https://steineggerlab.com/ko/)에서 박사과정을 밟고 있습니다. 우리 연구실은 시퀀싱 데이터, 단백질 서열 및 구조 데이터, 메타유전체학 데이터 분석을 돕는 프로그램을 개발하고 오픈 소스로 공개하여 생물학 전반의 발전을 가속하는 것을 주요 가치로 추구하고 있습니다. 대표적인 프로그램으로 서열 비교 프로그램인 MMseqs2, 단백질 구조 비교를 위한 Foldseek, 단백질 구조 예측 플랫폼 ColabFold, 대규모 단백질 구조 데이터 클러스터링을 위한 Foldseek cluster 등이 있습니다. 해당 논문들은 Nature, Nat. Biotech., Nat. Methods 등에 게재되었으며 프로그램들도 활발히 사용되고 있습니다. 메타유전체 분석을 위한 Metabuli도 주축 프로그램으로 자리 잡길 바라고 있습니다.
우리 연구실의 마스코트는 Marv입니다. 아래 그림처럼, 프로그램마다 기능을 직관적으로 표현할 수 있는 캐릭터 디자인을 만들고 있습니다. 메타분리의 경우 Marv가 각 DNA 서열을 분리 수거하는 모습을 표현했습니다. 실제로 스티커로 제작하였으니 필요하시면 연락해 주시길 바랍니다. 아주 귀엽습니다. 마스코트에 엮인 스토리를 구상하고 있습니다. 지적 생명체인 Marv의 종은 알 수 없는데, 스스로가 궁금한 Marv가 자신의 기원을 추적하기 위해 여러 생물정보학 도구를 개발하는 스토리를 구상 중입니다.
3. 연구 활동 하시면서 평소 느끼신 점 또는 자부심, 보람
우리 연구실 구성원은 타 연구자의 연구를 돕기 위한 프로그램을 개발하고 있습니다. 이는 매우 이타적인 연구라고 생각하기에 자부심과 보람을 느끼고 있습니다. 프로그램을 개발하는 것은 실험 생물학에 비해 시행착오의 주기가 짧은 것이 장점이기도 하지만, 그만큼 착오를 자주 맞이하기에 개발 과정 속 작은 성공의 기쁨은 짧았던 것 같습니다. 완벽한 분석법은 없기에 끊임없이 개선시켜야 하며, 개선을 위해 이제껏 만든 걸 부수는 것이 스트레스로 와닿기도 했습니다. 하지만 저의 노력으로 개선된 분석법을 통해 수많은 연구를 도울 수 있다는 생각을 동력 삼아 지속할 수 있었습니다. 최근에는 부수고 다시 하는 것이 자연스러워 거기서 오는 스트레스는 거의 사라진 것 같고, 개선 과정을 즐기게 된 것 같습니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
생물정보학 연구에는 크게 두 갈래가 있는 것 같습니다. 하나는 통계학 지식을 기반으로 기존의 분석법을 잘 활용하여 훌륭한 분석을 해내는 연구이고, 다른 하나는 새로운 분석법을 개발하는 연구입니다. 물론 둘을 동시에 하는 대단한 분들도 있지만, 저는 후자에만 경험이 있어 “분석 프로그램 개발”과 관련된 이야기를 해드릴 수 있을 것 같습니다.
생물정보학 프로그램 개발은 생물학과 컴퓨터공학 지식을 모두 요구하며, 연구를 시작하는 단계에서 둘 사이의 경중을 비교하기는 어렵습니다. 생물학 지식만으로는 프로그램을 개발할 수 없고, 컴퓨터공학 지식만으로는 연구 주제를 찾거나 특정 분석법의 필요성과 의미를 이해하는 데 불리할 수 있다고 생각합니다.
저는 C++ 공부만 하고 Metabuli 개발을 시작했는데, 학부에서 알고리즘, 자료 구조, 컴퓨터 구조 공부를 했다면 더 수월했을 것 같습니다. 생물정보학에서 다루는 데이터의 크기가 수십 또는 수백 기가바이트를 쉽게 넘어서, 이를 빠르게 처리할 수 있는 프로그램을 작성하려면 해당 과목들에 대한 지식이 필요하기 때문에 미리 공부해 놓으면 좋을 것 같습니다. 언어를 하나 공부한다면 고성능 프로그램 개발 측면에서 C++이 좋을 것 같습니다.
5. 연구 활동과 관련된 앞으로의 계획이 있으시다면?
미생물 군집의 메타유전체 또는 메타전사체 데이터를 통해 할 수 있는 분석은 크게 두 가지가 있습니다. 하나는 군집 속에 어떤 종이 분포하고 있는지 분석하는 것이고, 다른 하나는 어떤 유전자들이 있는지 식별하여 군집 속에 존재하는 생화학적 경로를 분석하는 것입니다. Metabuli는 현재 전자에 집중하고 있지만, 이를 확장하여 후자의 분석을 통합하는 것이 다음 연구 목표입니다. 이를 통해서 미생물 군집 속에서 어떤 종이 어떤 유전자로 어떤 기능을 수행하고 있는지 한 번에 분석할 수 있기를 기대하고 있습니다. 다른 한편으로는 미생물 탐지 기능을 더욱 개선해 전염병 병원체 진단 방법으로 발전시키는 연구도 진행하고 있습니다.
6. 다른 하시고 싶은 이야기들.....
먼저 자율적인 연구실 분위기를 장려하고 연구를 즐기는 자세를 가르쳐 주신 마틴 스타이네거 교수님께 감사의 인사를 드리고 싶습니다. 연구실 초창기부터 학부 인턴으로 함께하였는데, 교수님께서 자율적이면서도 협력적인 연구실 분위기를 구축하려고 노력하신 점을 느낄 수 있었습니다. 자율적인 분위기 속에서 다양한 시도를 하며 많이 배울 수 있었고, 협력적인 분위기 속에서 동료분들과 다양한 토의를 통해서 많은 프로그램 개발과 연구 결과 시각화에 도움이 되는 좋은 아이디어를 얻을 수 있었습니다. 앞으로는 저도 연구실에 더욱 도움이 되는 사람이 되고 싶습니다. 마지막으로, 아내의 사랑과 지지 덕분에 이 논문을 완성할 수 있었습니다. 사랑하는 아내에게 깊은 감사를 전합니다.
#생물정보학
# 메타유전체학
# 미생물학
관련 링크
연구자 ID
관련분야 연구자보기
소속기관 논문보기
관련분야 논문보기