한빛사 인터뷰
1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
2024 노벨 화학상을 수상한 알파폴드의 단백질 구조 예측은 인공지능의 구조 예측 정확도를 실험에 상응하는 수준으로 향상시켰습니다. 단백질은 생명체 내 필수 분자로, 특히 단백질의 3차원 구조는 각 단백질의 기능과 밀접한 관련이 있어, 수십년간 구조를 밝히기 위한 노력이 지속되었습니다. 최근 단백질 구조를 예측하는 인공지능이 고도화되었고, 이는 실험에 비해 구조를 밝히는 데 소요되는 시간과 비용을 줄여 단백질 구조 규명을 가속하였습니다.
알파폴드 데이터베이스는 UniProt 내 대부분의 단백질 서열을 구조로 예측하여 공개했고, 기존에 이용가능한 구조의 수를 1000배 이상 늘렸습니다. 하지만, 바이러스 서열은 제외되었고, 바이러스 연구에 구조를 활용하기에는 여전히 제약이 있었습니다. Big Fantastic Virus Database (BFVD)는 바이러스 또한 구조를 기반으로 연구하는 기회를 제공하고자 구축되었고, AFDB와의 일관성을 위해 UniProt 기반 클러스터인 UniRef30 바이러스 서열들의 구조를 예측하여 제공하였습니다.
바이러스 연구에서 구조의 중요성이 특히 더 부각되는 이유는 바이러스의 빠른 변이 속도 때문입니다. 이는 서열의 유사도를 낮춰 서열 기반 바이러스 간 관계성 규명에 제약을 주는데, 구조는 서열보다 더 보존성이 높으므로, BFVD가 바이러스 간 새로운 관계를 밝히는 데에 활용될 수 있습니다. 실제 사용자들이 특정 도메인을 가진 단백질들을 새롭게 찾아낸 사례들이 있습니다. 이처럼, 특정 기능을 가진 다른 바이러스 단백질이 궁금하거나, 바이러스 단백질의 구조는 알지만 역할은 모를 때 BFVD를 활용하시면 많은 도움이 될 것입니다.
마틴 교수님이 학회 등에서 연구자들을 만나면 항상 바이러스 구조가 없는 것을 아쉬워했다고 합니다. 그럴 때마다 연구자들에게 직접 구조를 예측해서 제공하면 활용도 높은 연구가 될 것이라 추천했지만, 정작 아무도 하지 않아 저희가 시작하게 되었습니다. 연구를 마무리해 갈 때 즘, 다른 논문에서 다량의 바이러스 예측 구조를 공개했고, 유사한 연구를 하는 다른 연구자들이 있다는 소식을 들어 아찔했습니다. 그래도 박테리오파지, 진핵생물 숙주 바이러스 등 대부분의 바이러스를 포괄하는 것은 BFVD가 처음이라 참 다행이라 생각합니다.
알파폴드를 필두로 한 단백질 구조 예측분야의 성장은 단백질 구조 기반 생명과학 분야 연구에 전례 없는 기회를 제공하고 있습니다. 저 역시도 BFVD의 단백질 구조 예측을 통한 데이터베이스 구축과 더불어 알파폴드 기반 구조 예측 가속, 단백질 복합체 구조 예측을 통한 새로운 단백질 간 상호작용 규명, 단백질 복합체 구조 분석을 위한 빠르고 효율적인 프로그램 개발 등 다방면에서의 연구를 진행 중에 있습니다. 개인적으로 많은 기회 속에서 경쟁력 있는 연구를 하기 위해서는 자신의 연구에 얼마나 많은 데이터를 효율적으로 활용했는지가 주요 쟁점이라 생각합니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁드립니다.
저는 현재 서울대학교 마틴 스타이네거 교수님의 생물정보학 및 기계학습 연구실( https://steineggerlab.com/ko/, 스타이네거랩 )에서 석박사통합과정 중에 있습니다. 스타이네거랩은 오픈사이언스를 지향하며, 생물정보학 도구들을 연구자들이 쉽고 효율적으로 사용할 수 있도록 프로그램 및 플랫폼을 제공합니다. 대표적으로 단백질 서열 검색 및 클러스터링(MMseqs2), 단백질 구조 예측(ColabFold), 단백질 구조 검색(Foldseek), 메타유전체 분류(Metabuli)를 위한 도구가 있습니다.
많은 연구자들에게 도움이 되는 좋은 연구를 제공하고자, 연구실 내에서도 자유로운 연구 환경을 조성하고 연구실 내 활발한 교류를 장려합니다. 실제로 연구실에서 서로 연구주제가 다르더라도 서로 피드백을 많이 하며, 이런 점이 연구의 질을 높이고, 학계에서 연구물들을 많이 사용되며, 많은 연구자들과 협업하고자 하는 결과로 이어졌다고 생각합니다.
3. 연구 활동 하시면서 평소 느끼신 점 또는 자부심, 보람
처음 preprint를 공개한 이후, 다른 연구자들로부터 많은 메일을 받았고, 다른 연구때문에 참가한 학회에서도 BFVD에 대해 많은 질문과 관심을 받았습니다. 특히 바이러스를 연구하는 분들이 좋은 자원을 제공해줘서 고맙다고 하셨을 때, 저의 연구가 도움이 되고 새로운 기회를 제공할 수 있음에 보람을 느꼈습니다.
데이터베이스와 같이 리소스 논문은 연구 그 이상으로 더불어 얼마나 많이 이용되는지도 중요한데, BFVD가 많은 연구에 활용되어 바이러스 연구에 새로운 기회를 제공하고 학문의 이해를 돕길 기대합니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
저는 학부를 생물정보학과 무관한 식품공학을 전공했지만, 생물정보학을 접하고 갑작스럽게 흥미를 느껴 대학 졸업을 앞두고 급하게 진로를 틀었습니다. 당시 코딩도 제대로 못하고, 생물정보학 교육도 받아본 적 없는 저에게는 무모한 결정이었지만, 혼자 청강도 하고 유튜브 강의도 찾아보면서 배우려던 것이 가장 절박하고도 즐거웠던 공부였습니다.
생물정보학이라는 분야가 생물학, 컴퓨터공학, 이외에도 다양한 분야에 걸치고 있어 공부해야 할 부분도 많아 진입장벽이 높다고 느끼실 수 있습니다. 하지만 연구는 정해진 것을 공부하는 것이 아니라, 계속해서 공부해 나가는 과정이니 그 양은 좀 많을 수 있지만 주저하지 말고 도전하시길 바랍니다. 저도 그간 많은 시행착오가 있었지만 이제는 어엿하게 이 분야에서 논문을 냈듯이, 아직 연구의 기회가 많은 유망한 분야이고 흥미만 있다면 고단해도 가치가 있을 것이라 생각합니다.
5. 연구 활동과 관련된 앞으로의 계획이 있으시다면?
바이러스는 단백질 서열의 빠른 변이로 인해 상동 서열을 찾는 것이 어려운데, 이는 단백질 구조 예측에 필수적인 정보를 제공하는 다중염기서열에서도 상동서열이 부족한 것을 보여주었습니다. 바이러스의 다중염기서열이 구조를 예측하는 데 충분한 정보를 제공했다고 보기 어려웠기에, 가장 큰 메타유전체 데이터베이스에 기반한 Logan을 활용해 상동서열을 추가로 확보하고 구조의 신뢰도를 향상시켰습니다.
저희는 앞으로도 BFVD 내 구조의 신뢰도를 높이려고 노력할 예정이고, 이와 더불어 UniProt 데이터베이스의 업데이트에 맞춰 BFVD도 지속적으로 업데이트 할 계획입니다. 최근 단백질 복합체 구조의 예측에도 많은 발전이 있었는데, 비교적 유전체 사이즈가 작다는 바이러스의 특성을 이용하여 바이러스 내 단백질 간 상호작용을 예측해 데이터베이스를 확장할 계획입니다.
6. 다른 하시고 싶은 이야기들.....
우선 지금까지 좋은 연구를 할 수 있도록 기회를 주시고 애정 어린 지도를 해주신 Martin 교수님께 감사의 마음을 전합니다. 여전히 부족하지만 교수님 덕분에 전문성을 쌓음과 더불어, 좋은 연구로 학계에 이바지하고자 하는 마음가짐을 배우고 있습니다. 또 논문을 잘 쓸 수 있도록 도움을 준 Eli, 그리고 어려움이 생기면 항상 도움을 주는 Milot, BFVD의 질을 높을 수 있도록 힘써준 Rayan이 덕분에 하나의 논문이 무사히 나올 수 있었습니다.
생물정보학은 정통생물학과 절대 뗄 수 없는 관계라 생각합니다. 실험 데이터로 PDB가 인공지능 기반 단백질 구조 예측이 지금의 수준으로 성장할 수 있었고, 이 성장이 연구에 또 다른 기회를 제공했듯, 앞으로도 정통생물학과 생물정보학의 연구자들이 협력해 과학의 발전에 시너지를 낼 수 있으면 좋겠습니다.
#알파폴드
# 단백질구조
# 생물정보학
관련 링크
관련분야 연구자보기
소속기관 논문보기
관련분야 논문보기