인공지능의 일종인 머신러닝이 찾기 어려운 바이러스의 보고(寶庫)를 파헤침으로써, 미지의 종(種)을 찾는 메타유전체 연구(metagenomic study)에 날개를 달아줄 것으로 보인다.

Many viruses are difficult to study because they cannot be grown in the lab. / @ IFLscience
연구자들은 인공지능(AI)을 이용하여 종전에 알려지지 않았던 바이러스를 약 6,000종(種)이나 발견했다. 지난 3월 15일 미국 에너지부(DOE: US Department of Energy)가 주최한 모임(참고 1)에서 발표된 이번 연구결과는, 지구상에 존재하는 엄청나게 다양한 (그러나 대체로 알려지지 않은) 바이러스를 탐지하는 신무기를 선보인 것으로 평가된다.
바이러스는 인간의 건강에서부터 쓰레기 분해에 이르기까지 삼라만상에 영향을 미치지만, 연구가기가 여간 까다로운 게 아니다. 대부분의 바이러스는 연구실에서 배양할 수가 없고, 그들의 유전자 시퀀스를 해독하려는 시도는 종종 과학자들을 좌절시킨다. 왜냐하면 바이러스의 유전체는 너무 작은 데다 신속히 진화하기 때문이다.
최근 과학자들은 다양한 환경에서 채취한 샘플에서 DNA를 시퀀싱함으로써 미지의 바이러스를 탐지하는 작업을 계속해 왔다(참고 2). 그들은 미생물의 존재를 확인하기 위해 기지(旣知)의 바이러스 및 세균의 유전자발현 패턴(genetic signature)을 탐색해 왔다. 마치 워드프로세서의 '찾기' 기능을 이용하여, 특정한 문자열을 포함하는 단어들을 반짝이게 하는 것처럼 말이다. 그러나 그런 방법은 종종 벽에 부딪치곤 한다. 왜냐하면 애당초 모르는 바이러스는 바이러스학자들의 레이더망을 유유히 벗어나기 때문이다. 그러나 방법이 전혀 없는 건 아니다. 인공지능의 일종인 머신러닝(machine learning)이 산더미 같은 정보의 뭉텅이에서 창발적 패턴(emergent pattern)을 찾아낼 수 있기 때문이다(참고 3). 즉, 머신러닝 알고리즘은 데이터를 분석하여 규칙을 찾아낸 다음, 그 규칙을 이용하여 정보를 자율적으로 분류한다.
"종전에는 바이러스를 제대로 연구할 수 있는 방법이 존재하지 않았다. 그러나 이제 우리는 새로운 바이러스를 발견하는 도구를 보유하게 되었다"라고 USC의 지 렌 박사(계산생물학)는 논평했다.
이번 연구에서, DOE 산하 유전체공동연구소(JGI: Joint Genome Institute)의 사이먼 루 박사(계산생물학)는 컴퓨터를 훈련시켜, 이노바이러스 과(Inoviridae)라는 특이한 과(科)에 속하는 바이러스의 시퀀스를 인식하게 했다. 이 바이러스들은 세균 속에 살며 숙주의 행동을 변화시키는 역할을 하는데, 일례로 콜레라균(Vibrio cholerae)의 독성을 강화한다. 그러나 이번에 JGI가 주관한 샌프란시스코 모임에서 연구결과를 발표한 루 박사의 추산에 따르면, 그가 연구를 시작하기 전까지만 해도 인공지능을 이용해 새로 발견된 바이러스가 100종 미만이었다고 한다.
먼저, 루 박사는 머신러닝 알고리즘에 두 세트의 데이터를 입력했는데, 하나는 기지의 이노바이러스에서 유래하는 805개의 유전체 시퀀스이고, 다른 하나는 세균과 다른 바이러스에서 유래하는 2,000개의 시퀀스였다. 그러자 머신러닝 알고리즘은 자율학습을 통해 두 가지 시퀀스를 구별하는 방법을 스스로 터득했다.
다음으로, 루 박사는 머신러닝에게 방대한 메타유전체 데이터 세트를 제공하고 분석을 의뢰했다. 결과는 놀라웠다. 컴퓨터는 그중에서 1만 개 이상의 이노바이러스 유전체를 찾아내어, 상이한 종을 암시하는 그룹으로 분류하는 게 아닌가! 그중에서 새로 발견된 것은 약 6,000종이었다. "그 그룹들 중 일부의 유전적 차이가 너무 큰 것으로 보아, 이노바이러스는 여러 개의 과로 구성된 것 같다는 생각이 든다"라고 루 박사는 말했다.
바이럴 러닝(viral learning)
이번 모임에 참가한 브라질 사웅파울루 대학교의 데이비드 암가르텡 박사(생물정보학)는 별도의 연구에서, 머신러닝을 훈련시켜 사웅파울루 동물원의 퇴비 더미에서 바이러스를 찾아내게 했다. 그는 바이러스 유전체의 두드러진 특징 몇 가지(예: 주어진 길이의 DNA 가닥에 존재하는 유전자의 밀도)를 찾아내도록 알고리즘을 프로그래밍했다. 그랬더니 훈련을 마친 컴퓨터는 퇴비 더미에서 듣도 보도 못했던 유전체들을 많이 찾아냈다. 암가르텡 박사의 마지막 과제는, 새로 발견된 바이러스들이 무슨 단백질을 만들어내는지를 알아낸 다음, 그중에서 유기물질의 분해속도를 늘리는 단백질을 찾아내는 것이다. "우리의 목표는 바이러스를 이용하여 퇴비화(composting)의 효율을 향상시키는 것이다"라고 그는 말했다.
암가르텡 박사에게 이번 연구의 단서를 제공한 것은, 렌 박사가 이끄는 연구팀이 작년에 발표한 비어파인더(VirFinder)라는 머신러닝 도구였다(참고 4). 비어파인더는 DNA 가닥에서 DNA 글자의 조합(예: AT, CG)를 찾아내도록 프로그래밍되었다. 연구팀은 그 알고리즘을 건강한 사람과 간경화 환자의 대변에서 채취한 메타유전체 샘플에 적용했다. 컴퓨터가 샘플 속의 바이러스들을 분류하고 난 후 연구진이 발견한 것은 '건강한 사람의 대변에는 간경화 환자의 대변보다 특정한 바이러스가 많거나 적다'는 것이었다. 이는 어떤 바이러스들이 간경화 발병에 기여할 수도 있음을 시사한다(간경화는 간염에서부터 만성 알코올중독에 이르기까지 다양한 요인에 의해 초래된다).
렌 박사의 연구결과는 생의학 연구자들이 학수고대하던 것이었다. 그도 그럴 것이, 생의학 연구자들은 오랫동안 특정 바이러스가 많은 불가사의한 질병(예: 만성피로증후군, 염증성장질환)의 증상에 기여할 거라고 생각해 왔기 때문이다. "바이러스는 폭발적 염증반응을 촉발하거나, 마이크로바이옴 속에 있는 세균의 행동을 변화시킴으로써 대사와 면역계를 불안정하게 만드는 것으로 보인다"라고 잭슨 유전체의학연구소의 데리아 우누트마즈 박사(면역학)는 말했다.
"연구자들은 장차 머신러닝을 이용하여 환자의 가검물을 분석하여, 그 동안 베일에 가려져 있었던 속의 바이러스를 찾아내게 될 것이다. 게다다 AI는 방대한 데이터 세트에서 특정 패턴을 찾아내는 능력을 보유하고 있으므로, 이렇게 찾아낸 바이러스를 세균과 연결하는 것은 물론, 환자의 몸속에서 일어나는 단백질 변화와도 연결할 수 있을 것이다. 머신러닝은 우리가 지금껏 생각조차 하지 못했던 지식을 제공할 것이다"라고 우누마즈 박사는 말했다.
※ 참고문헌
1. https://usermeeting.jgi.doe.gov/vega-agenda/
2. https://www.nature.com/news/urban-microbes-come-out-of-the-shadows-1.17818 (한글번역 /myboard/read.php?Board=news&id=261503)
3. https://www.nature.com/news/machine-learning-predicts-the-look-of-stem-cells-1.21769 (한글번역 /myboard/read.php?Board=news&id=282038&SOURCE=6)
4. Ren, J., Ahlgren, N. A., Lu, Y. Y., Fuhrman, J. A. & Sun, F. Microbiome 5, 69 (2017); http://dx.doi.org/10.1186%2Fs40168-017-0283-5
※ 출처: Nature https://www.nature.com/articles/d41586-018-03358-3
|