한빛사 인터뷰
1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
생물정보학적 배경
Sequence analysis는 생물정보학의 주요 문제 중 하나로 DNA, RNA, 단백질 서열 등을 전산학적인 방법으로 분석을 하여서 각 서열의 특징을 규명하거나, 서열 사이의 관계를 유추하는데 쓰이는 방법입니다. 특히 새롭게 얻어낸 서열 데이터를 기존에 생물학적 특성이 잘 알려진 서열과 비교함으로써 새로운 서열의 특징에 대해 이해할 수 있도록 돕는다는 점에서 sequence analysis는 매우 중요한 문제입니다.
생물정보학에서는 여러 서열이 있을 때 서열상 유사한 부분들끼리 정렬한 후 정렬된 결과를 통해 생물학적 서열을 모델링하는 방법을 사용해왔습니다. 하지만 이러한 정렬 알고리즘은 분석할 서열의 수가 증가함에 따라 계산의 복잡도도 기하급수적으로 증가합니다. 그렇기 때문에 현재 빠른 속도로 증가하고 있는 서열 데이터를 모델링하는데 적용하기에는 비용적인 측면에서 한계가 있습니다.
최근들어 딥러닝 알고리즘들이 생물학적 서열 데이터에 적용되기 시작하면서 딥러닝이 정렬 과정 없이도 (alignment-free) 서열 데이터를 모델링할 수 있는 강력한 접근 방법으로 주목받고 있습니다. 특히 저희 연구실 서석준 연구원이 2018년에 공개한 DeepFam (링크)은 딥러닝 알고리즘을 통해 단백질 motif를 스스로 찾아내고, 단백질 서열을 효율적이고 정확하게 모델링할 수 있다는 것을 보여준 연구였습니다. 제 연구 또한 DeepFam을 기반으로 하고 있습니다.
생명과학적 배경
단백질 중 GPCR 단백질군은 막단백질로서 세포 외부의 신호를 세포 내에 전달한다는 점에서 신약 개발 등에서 매우 중요하게 활용되는 단백질군입니다. GPCR 단백질들은 그 특성에 따라 A, B, C, D, E, F 타입으로 나뉘어지고 그 안에서도 또 subfamily, sub-subfamily 클래스들로 hierarchical하게 나뉘어집니다. 이러한 Hierarchical한 분류 기준을 모델링하여서 주어진 GPCR 단백질이 GPCR hierarchy 상에서 어디에 속하는 단백질인지 예측하고 GPCR 단백질 간 관계를 규명하는 작업은 GPCR 연구에서 중요하게 다루어져 왔습니다.
제 연구는 딥러닝 알고리즘을 이용하여 GPCR 단백질 서열의 hierarchical한 관계를 표현할 수 있도록 하는 임베딩 벡터를 만드는 것을 목표로 하였습니다. 모델 학습 과정에서 딥러닝 모델이 GPCR 서열의 hierarchical한 관계를 metric space 상의 거리로 표현할 수 있도록 하는 metric loss function을 적용하여서 모델을 학습시켰습니다. 그리고 실험을 통해 저의 방법이 GPCR 단백질 서열들의 hierarchical한 관계를 성공적으로 모델링했다는 것을 보임과 동시에 거리 관계를 통해 각 hierarchical 레벨 별로 motif discovery, phylogenetic tree reconstruction 등 다양한 분석이 가능하다는 것을 보였습니다.
전망
폭발적으로 증가하고 있는 단백질 서열 데이터에 대해 일일이 생물학적 실험을 진행하고 그 특징을 규명하는 것은 불가능합니다. 그렇기 때문에 생물정보학적 분석을 통해 새롭게 얻어낸 단백질 서열의 특성을 규명하는 것은 앞으로도 매우 중요한 문제일 겁니다. 그리고 저희 연구실의 알고리즘들과 같이 정렬 없이도 단백질 서열을 정확하고 효율적으로 모델링할 수 있는 접근법들의 중요도는 계속해서 높아질 거라 생각합니다. 아마 앞으로는 단순히 class hierarchy에 대한 모델링을 넘어 단백질의 입체적인 구조 등 단백질을 분석하는 생명 과학자 입장에서 중요한 특징들에 대해서도 추가적으로 추론할 수 있는 방향으로 여러 알고리즘이 개발될 거라 생각합니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁 드립니다.
저는 서울대학교 컴퓨터공학부 생물정보 및 생명정보 연구실에서 석사 연구를 진행하였습니다. 저희 연구실은 컴퓨터공학부와 생물정보학 협동과정 두 과정에 속해있는 연구실로, 서울대학교 김선 교수님의 지도하에 컴퓨터공학 연구자들과 생명과학 연구자들이 함께 연구하고 있습니다. 머신러닝 기법들을 활용하여 생물 정보 데이터를 분석하는 연구에 집중하고 있으며 딥러닝, 네트워크 기법 등 다양한 머신러닝 알고리즘들을 연구에 활용하고 있습니다. 유전자 발현 데이터를 이용한 질병 예측, 유전자 서열 데이터 분석 딥러닝 알고리즘부터 인공지능을 이용한 신약 개발까지 다양한 주제의 연구를 하고 있는 연구실입니다.
3. 연구활동 하시면서 평소 느끼신 점 또는 자부심, 보람
생물정보학 연구에서는 생명과학적으로 중요한 연구 주제들을 컴퓨터공학 문제로 치환하고 해결하여야 합니다. 그리고 저희가 개발한 알고리즘의 중요도와 의미를 생명과학의 관점에서 설명하고 해석해야 했는데, 위 경험들을 통해 컴퓨터공학적인 문제를 다른 분야의 언어와 지식으로 풀어내는 능력을 키울 수 있었습니다. 다른 분야의 문제를 전산학적인 문제로 가져와서 해결 방법을 찾고 이를 다시 그 분야의 언어로 풀어내고 해석하는 과정이 특히 보람 있었습니다. 이를 통해 저희가 개발한 알고리즘들이 생명과학 연구자 입장에서도 의미있는 방법론으로 만들어낼 수 있었습니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
생명과학 도메인 지식이든 머신러닝 알고리즘이든 전공 학문에 대한 탄탄한 지식이 필요합니다. 그리고 커뮤니케이션을 통해 자신의 지식들을 남에게 설명하고 또 다른 분야의 지식들을 빠르게 배워나가는 능력이 중요합니다. 다양한 종류의 생물정보 데이터가 쌓이고 있고, 이를 분석할 수 있는 알고리즘도 빠른 속도로 발전하고 있다 보니 혼자서 연구에 필요한 모든 지식을 쌓는 것보다 남들과 토론을 하면서 남의 지식으로부터 나의 역량을 발전시키는 것이 더 중요합니다.
이외에도 여러 알고리즘들을 생명정보 문제에 적용시켜보는 과정에서 실패를 두려워하지 않았으면 좋겠습니다. 저희 연구에서는 일종의 trial and error 방식으로 주어진 데이터를 분석하기 위한 가장 좋은 접근법을 찾아 나간다고 느꼈습니다. 그러다보니 적용해보고 싶은 알고리즘이 있을 때, 이 알고리즘이 잘 작동하지 않으면 어쩌나 걱정하는 것보다는 머리에 있는 알고리즘을 최대한 빨리 구현해서 적용시켜본 후 분석 결과와 데이터를 눈으로 확인해보면서 적용한 접근법이 왜 실패했는지 분석하면서 방법을 수정, 보완시켜나가는 과정에서 더 많은 것을 배운다고 생각합니다.
5. 연구활동과 관련된 앞으로의 계획이 있으시다면?
현재는 룩시드랩스라는 회사에서 전문연구요원으로 근무하고 있습니다. 대체 복무가 끝난 이후에 다시 생물정보학 연구에 도전하여 박사 과정을 진행할 계획입니다. 생명과학 등 필요한 지식을 더 쌓아서 더 다양한 문제들에 저의 연구 역량을 적용시키고 싶습니다.
6. 다른 하시고 싶은 이야기들....
연구실에서 보낸 2년이라는 시간 동안 학문적으로, 그리고 연구 외적인 부분에 대해서 저에게 끊임없이 조언해주시고 이끌어주신 김선 교수님께 감사의 말씀을 드립니다. 연구를 함께 진행하면서 많은 것을 알려주신 이상선 박사님과 강민지 연구원에게도 감사의 말씀을 전합니다. 교수님과 동료 연구원 덕분에 연구실에서 2년을 알차게 보낼 수 있었고, 이 시간을 소중한 기억으로 간직하고 있습니다.
#Bioinformatics
#GPCR
#Sequence Analysis
관련 링크
연구자 키워드
관련분야 연구자보기
소속기관 논문보기
관련분야 논문보기
해당논문 저자보기