한빛사 인터뷰
1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
생물정보학 분야에서는 히스톤 단백질 꼬리의 화학적 변이의 조합이 유전자 발현을 조절한다는, 이른바 “히스톤 코드” 가설을 정량적으로 모델링하기 위한 많은 연구들이 있어왔습니다. 이 복잡한 문제를 과연 어떤 방식으로 접근했을까요? 물론 다양한 방법들이 제시되어 왔지만, 그 중에서도 유전체 상의 특정 위치에 대하여, 히스톤 ChIP-seq 실험으로 정량화된 여러 종류의 히스톤 변형 프로파일로부터 주변 유전자의 발현을 예측하는, 일종의 ‘기계 학습’ 문제로 변환하여 푸는 방법이 큰 성공을 거둬 왔습니다. 과거의 연구들은 주로 통계적인 방법론과 전통 기계학습 방법론을 주로 사용하여 좋은 예측 성능을 거두었지만, 이 성능을 월등히 뛰어넘은 것은 역시 AI 기반의 방법론이었습니다. 합성곱신경망(convolutional neural network; CNN) 기반 모델과, 순환신경망(recurrent neural network; RNN) 및 어텐션 기반 방법론이 차례로 성공을 거두면서 그 다음은 무엇일지 깊이 고민하던 참이었죠.
저는 사용하는 AI 모델의 종류와 학습에 사용하는 생물학적 특징의 두 가지 관점 모두에서 기존 방법론들을 개선해보고자 하였습니다. AI 모델 측면에서는 특히 자연어 처리 분야에서 좋은 성과를 보인 트랜스포머(transformer) 모델을 사용하여 모델 예측을 위해 전사 시작 부위에 집중하되, 이를 중심으로 한 넓은 유전체 지역 중 필요한 부분의 정보를 가져오는 방법을 모델이 학습하도록 하였습니다. 생물학적 측면에서는 전사 조절에 있어 중요한 요소인 염색질의 3차원 접힘 정보를 잘 반영하도록 모델 구조를 설계하였습니다. 그 결과 모델 성능의 유의미한 향상을 보일 수 있었습니다.
본 연구와 같은 AI Genomics (혹은 AI Epigenomics) 분야는 AI 기술 발전과 함께 비교적 새롭게 생겨난 분야로 볼 수 있지만, 그 잠재력은 어마어마합니다. 유전체 서열만으로부터 유전자 발현을 예측하는 모델 해석을 통해 개별 염기서열 변이의 효과와 프로모터-인핸서 상호작용을 밝힐 수 있음을 보인 Google DeepMind 사의 Enformer 모델이나, mRNA 서열로부터 스플라이싱의 형태를 예측하는 Illumina 사의 SpliceAI 모델의 예는 이 분야의 기대 가치가 그만큼 높다는 것을 의미합니다. 이러한 AI 기반 유전체 해석 방법론이 점차 개발됨에 따라, 개별 유전 변이의 효과에 대한 예측력이 상승함으로써 결과적으로 개인 유전체 분석 및 정밀의료 시장에 큰 파급을 미칠 것으로 예상하고 있습니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁드립니다.
본 연구는 서울대학교 컴퓨터공학부 생물정보 및 생명정보 연구실에서 지도교수이신 김선 교수님의 지도를 받아 수행하였습니다. 저희 연구실은 소속 연구원이 26명이나 되는 큰 규모의 연구실로, 생명과학, 컴퓨터과학, 약학 등 다양한 전문 분야를 가진 연구원들이 한데 모여 생물정보학 및 계산생물학 전반에 걸친 다양한 연구를 수행하고 있습니다. 저희는 보유한 컴퓨터공학적 기술들을 십분 활용하여 다양한 생물정보 데이터 분석 기법을 개발하기도 하고, 생명과학부 연구실과의 활발한 협업을 통해 새로운 생명과학적 발견에 기여하기도 하며, 여러 병원과의 공동 연구를 통해 환자 조직에서 유래한 오믹스 데이터를 분석하여 어떻게 하면 더 정밀하게 환자의 예후를 예측하여 더 좋은 치료 방법을 제공할 수 있을지를 연구합니다. 최근에는 네트워크 분석법 및 AI를 활용한 신약개발 연구 분야에 적극적으로 관심을 가지고 있습니다.
3. 연구 활동 하시면서 평소 느끼신 점 또는 자부심, 보람
연구 경험이 쌓여갈수록 생물정보학이라는 학문이 점점 더 매력적인 학문임을 느낍니다. 본질적으로 현대의 분자생물학은 눈에 보이지 않는 생명 요소들의 관계를 치밀한 논리 전개를 통해 직·간접적으로 밝히는 분야입니다. 이 과정에서 다양한 실험 기법과 장비들의 활용이 필수적이고, 극단적으로는 실험 기법 및 장비의 유무 혹은 성능이 성공적인 연구에 있어 가장 중요한 요인이 되어버리기도 합니다. 이 점에서, 생물정보학은 어떤 복잡한 실험이든지간에 컴퓨터 프로그램의 형태로, 자기 손으로 일종의 실험 기기를 구상하고, 만들고, 사용하는 분야라는 것이 무척 매력적인 분야입니다. 연구 가설을 보다 자유롭게 세우고, 이를 빠르게 검증해볼 수 있다는 점이 저에게는 큰 재미로 다가왔습니다.
다각도의 깊이있는 연구를 위해서는 공동연구가 필수인 시대입니다만, 특히 생물정보학자에게는 너무나도 많은 공동연구 기회가 열려있습니다. 공동연구라는 우연한 기회로 새로운 분들을 만나 앞에 닥친 문제와 궁금증에 대해 함께 고민하고 한 걸음씩 나아가는 기쁨을 맛볼 때 생물정보학의 길을 선택하기를 잘했다는 생각을 하곤 합니다. 특히 실험적으로 밝혀낸 결과들을 뒷받침하는 독립적인 생물정보학 분석 결과들을 만들어낼 때와, 반대로 생물정보 분석을 통해 새로운 실험 아이디어를 만들어 낼 때 가장 큰 보람을 느낍니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
생물정보학 분야는 생명과학적인 기반 지식과 컴퓨터과학적인 스킬을 모두 필요로 하기 때문에 아무래도 진입장벽이 높을 수밖에 없다고 느낍니다. 저희 연구실에 입학하는 신입생들의 예로 보아도, 생명과학 기반의 학생들은 프로그래밍에 있어서 애를 먹는 경우가 많고, 컴퓨터과학 기반의 학생들은 생물학적인 해석에 있어서 어려움을 느끼곤 합니다. 저는 따라서 생물정보학 연구에 있어서는 더더욱 스스로가 풀고자 하고, 큰 재미와 도전의식을 느끼는 문제를 명확히 정하는 것이 중요하다고 생각합니다. 뚜렷한 목표가 있다면 도중에 길을 잃고 헤매지 않을 수 있으니까요. 생명과학 기반으로 이 분야에 뛰어든 저의 예를 들어 보자면, 처음에는 교과서에서 그동안 막연하게만 다루어 왔던 염기 서열, 혹은 아미노산 서열들을 데이터로 직접 다루고 비교하여 순식간에 정량적인 결과가 나오는 것 자체에 재미를 느꼈습니다. 점점 더 긴 서열들을 다루고 싶었고, 이를 위해서는 더 효율적인 알고리즘이 필요했습니다. 이 과정에서 다양한 알고리즘들을 직접 떠올려보고, 구현해보고, 테스트해보면서 빠르게 실력이 늘었던 것 같습니다. 특히 Rosalind (https://rosalind.info/)와 같은 자율 학습 사이트나 Bioinformatics Contest (https://bioinf.me/en/contest)와 같은 경진대회들이 동기부여와 실력 향상에 도움이 많이 되었습니다.
5. 연구 활동과 관련된 앞으로의 계획이 있으시다면?
저는 생물정보학 혹은 계산생물학 분야에 있어서 AI 라는 도구가 무궁무진한 가능성을 가지고 있다고 확신합니다. 하지만 그에 비해 아직까지는 이 분야의 발전 속도는 비교적 더딘 실정입니다. 이미지나 자연어처리 분야의 AI 기술의 발전 속도와 비교하면 더욱 그렇습니다. 이는 생명과학 분야의 난제들 각각이 너무나도 다루기 어려운 문제들이기 때문인 탓일 테지만, 바꿔 말하면 아직까지 풀리지 않은 흥미진진한 문제들이 많이 있다는 뜻이기도 합니다.
생명과학과 AI의 성공적인 접목을 위해서는 두 가지 큰 요소가 필요하다고 느낍니다. 하나는 문제 해결에 필요한 생명과학 지식을 AI 모델 설계에 반영하는 연구자의 기술이고, 다른 하나는 AI 모델 학습을 위한 충분한 데이터입니다. 어느 하나도 완벽히 갖추기가 쉽지 않지요. 단백질 구조 예측이라는 50년 난제를 해결한 구글의 AlphaFold는 이 두가지가 훌륭히 맞물린 아주 성공적인 사례라고 할 수 있을 겁니다. 다행히도 최근 들어 값싸고 효율적인 고속대량 실험 기법을 통해 AI 모델 학습을 위한 대량의 데이터가 속속 만들어지고 있습니다. 한 예로, 작년 너무나 훌륭한 당시의 연구실 신입생 5명과 팀을 꾸려 출전하여 2위를 차지한 생물정보 분야 경진대회 DREAM Challenge “Predicting gene expression using millions of random promoter sequences” 에서는 80nt 길이의 프로모터 서열이 주어졌을 때 이로부터 발현되는 유전자의 발현량을 예측하는 AI 모델을 설계하여 성능을 겨뤘습니다. 초대량 병렬화 리포터 어세이(Gigantic parallel reporter assay)라고 하는 실험 기법을 통해 약 7백만 개에 달하는 서로 다른 80nt 프로모터 서열과 이에 해당하는 유전자 발현량 데이터를 만들고, 기꺼이 공개하여 더 좋은 AI 모델이 학습될 수 있도록 한 것입니다. 생명과학의 문제 해결을 위해 AI의 활용을 고민하는 저에게는 지금이 더할 나위 없이 좋은 시기라고 생각합니다.
저는 이와 관련하여 크게 두 가지 방향의 연구를 계획 중에 있습니다. 한 방향으로는 “유전체 염기 서열이 어떻게 후성유전체, 그 중에서도 DNA 메틸화의 패턴을 결정하는지”를 학습하여 예측하는 인공지능 모델을 만들고 해석하여 기존에 잘 알려지지 않았던 유전체 염기 서열의 문법 혹은 조절 서열을 발굴해낼 수 있을지 알아보고자 합니다. 다른 방향으로는 AlphaFold 그 이후의 과업으로 지목된 “돌연변이가 단백질 안정성에 미치는 영향”을 예측하는 문제를 풀어 단백체 수준에서 모든 변이의 영향력을 예측한 다음, 암 발생 및 진행과의 연관성 등의 통찰을 얻을 수 있을지 알아보고자 합니다.
6. 다른 하시고 싶은 이야기들.....
가장 먼저 본 연구를 수행함에 있어서 물심양면 아낌없이 지원해주신 부모님께 감사드립니다. 항상 응원해주고 힘이 되어 준 유진이에게도 고맙다는 말 전합니다. 실험 및 논문 작성에 있어서 궂은 일 마다하지 않고 힘써준 양지원 연구원께도 감사드리며, 도움 주신 지도교수님께도 감사드립니다. 일일이 말씀드릴 수는 없지만, 흔쾌히 시간 내어 논의해주어서 연구 내용을 더 풍성하게 만들어 준 모든 연구실 동료 분들께도 감사의 마음 전하고 싶습니다.
끝으로, 연구를 소개할 수 있는 기회를 주신 BRIC에 감사드리며 글을 마치겠습니다.
#히스톤 코드
#인공지능
#3차원 염색질 상호작용
관련 링크
연구자 키워드
관련분야 연구자보기
관련분야 논문보기
해당논문 저자보기