AI 프로그램이 단백질을 이해함으로써, 의학발달의 새 시대가 열릴 것으로 보인다. 
아타리 클래식(Atari classics)을 격파하고(참고 1), 체스(참고 2)와 중국의 보드게임 바둑(참고 3)에서 인간을 능가하는 성과를 거둔 데 이어, 구글의 딥마인드(DeepMind) 팀은 과학계에서 가장 까다로운 문제 중 하나에 눈을 돌렸다. 사실 그것은 예견된 일이었다. 12월 2일 멕시코의 칸쿤에서 열린 국제 컨퍼런스에서, 조직위원회는 "딥마인드의 최신 AI 프로그램 알파폴드(AlphaFold)가 '특별히 골치아픈 과제'를 해결하는 시합에서 참가자 전원을 격파했다"고 발표했다. 알파폴드가 해결한 '특별히 골치 아픈 과제'란, 생명의 기본적인 분자(fundamental molecule)인 단백질의 3D 형태를 예측하는 일을 말한다. 분자 오리가미(molecular origami)의 상상을 초월하는 형태 - 단백질 접기(protein folding)의 불가사의한 성격은 지금껏 과학계 밖에서 논의된 적이 거의 없었지만, 심오한 중요성을 가진 문제 중 하나였다. 생물의 기구(machinery)는 단백질로 만들어지며, 단백질의 형태가 그 기능을 규정하기 때문이다. 따라서 단백질이 접히는 메커니즘을 이해한다면, 연구자들은 과학과 의학 발달의 새 시대(참고 4)를 열 수 있다. "이것은 우리에게 매우 결정적인 순간이다"라고 딥마인드의 공동창업자이자 CEO인 데미스 하사비스는 말했다. "우리는 등대 프로젝트(lighthouse project)를 통해, 현실세계의 가장 기본적이고 중요한 과학 문제인 '단백질의 3D 형태 예측'에 상당한 인적·물적 자원을 처음 투자하게 되었다." 알파고 프로그램이 2016년 한국의 바둑 챔피언 이세돌을 물리치고 난 후(참고 5), 딥마인드는 단백질 접기에 눈을 돌렸다. 바둑은 딥마인드의 AI 프로그램을 테스트할 좋은 기회였지만, 딥마인드의 궁극적인 목표는 그게 아니었다. "우리의 궁극적인 목표는 바둑이나 아타리를 격파하는 게 아니라, 단백질 접기와 같은 문제를 해결하는 알고리즘을 개발하는 것이었다"라고 하사비스는 말했다. 인체는 - 수만 가지 내지 수십억 가지에 이를 걸로 추정되는 - 엄청나게 다양한 단백질을 만들 수 있다(참고 6). 각각의 단백질은 아미노산으로 구성된 사슬인데, 아미노산의 종류는 모두 20가지다. 하나의 단백질은 아미노산 사이에서 비틀리고 구부러지므로, 수백 개의 아미노산으로 이루어진 단백질은 믿을 수 없을 만큼 다양한 가짓수(세제곱 구골, 그러니까 1에 300개의 '0'이 붙은 수)의 구조를 띠게 된다.
단백질이 채택한 3D 구조는, 그것이 포함하는 아미노산의 유형(type)과 수(number)에 의존한다. 그리고 단백질의 형태는, 단백질이 인체 내에서 수행하는 역할을 결정한다. 예컨대 심장세포의 경우, 혈류 속의 아드레날린이 달라붙어 심박수를 늘리도록 접힌 단백질로 이루어져 있다. 한편 면역계 항체들의 경우, 인체에 침입한 세균에 달라붙을 수 있도록 접힌 단백질로 이루어져 있다. 요컨대 '근육을 긴장시키는 것'을 비롯하여, '빛을 감지하는 것', '식품을 에너지로 전환하는 것'에 이르기까지, 인체의 거의 모든 기능들은 궁극적으로 단백질의 형태와 운동에서 기인한다. 단백질은 통상적으로 '에너지를 가장 효율적으로 이용할 수 있는 형태'를 띠지만 뭉치거나 잘못 접힐 수도 있는데, 그럴 경우 당뇨병, 파킨슨병, 알츠하이머병 등을 초래할 수 있다(참고 7). 따라서 과학자들이 단백질의 화학조성을 보고 그 형태를 예측할 수 있다면, 단백질의 '하는 일'과 '잘못 접혀 해를 끼치는 과정'을 이해할 수 있으므로, 질병과 싸우거나 다른 역할(예: 플라스틱의 환경오염을 해결함)을 수행하는 단백질을 새로 설계할 수 있다. 딥마인드는 알파폴드를 데리고 단백질 구조예측 학술대회(CASP: Critical Assessment of Structure Prediction)에 출전했다. CASP는 1년에 두 번씩 열리는 단백질접기 올림픽(protein-folding olympics)으로, 전 세계의 연구팀들을 불러 모은다. CASP 경연의 방법은, 몇 개월에 걸쳐 며칠 간격으로 팀에게 전달되는 아미노산 목록을 보고 단백질들의 구조를 예측하는 것이다. 그 단백질들의 구조는 최근 (비용과 노력이 많이 드는) 전통적 방법으로 해명되었지만, 그 내용은 공표되지 않았다. 그리하여 그 단백질의 구조를 가장 정확하게 예측하는 팀이 우승을 거머쥐게 된다. 알파폴드는 처음 참가한 CASP에서, 43개의 단백질 중 25개의 구조를 가장 정확하게 예측함으로써 98개의 팀 중 1등을 차지했다(참고 8). 참고로, 같은 부문에서 2등을 차지한 팀은 43개 단백질 중 겨우 3개의 구조를 정확하게 예측했다. 딥마인드는 알파폴드를 설계하기 위해 신경망(neural network)을 맹훈련시켜, 아미노산만 보고 수천 개 단백질의 3D 구조를 예측하도록 만들었다. 그 다음 새로운 단백질 하나를 제시하자, 알파폴드는 신경망을 이용하여 '아미노산 쌍의 거리'와 '그것들을 연결하는 화학결합의 각도'를 예측했다. 마지막으로, 알파폴드는 초벌구조를 조작하여 에너지효율성(energy-efficiency)이 가장 높은 배열을 찾아냈다. 최초의 단백질 구조를 예측하는 데는 2주(週)나 걸렸지만, 이제는 두 시간이면 후다닥 해치울 수 있다. "딥마인드는 올해 안에 알파폴드의 성능을 더욱 향상시킬 것으로 보인다. 나는 그들의 방법을 좀 더 자세히 알고 싶다"라고 이번 대회에서 가장 높은 성적을 거둔 학술그룹의 리더 리암 맥거핀(리딩 대학교)은 말했다. "우리는 그들보다 자원이 부족하지만, 경쟁력은 여전히 높다." "단백질의 형태를 예측하는 능력은 빅딜(big deal)이다. 그것은 21세기의 많은 문제들을 해결하는 데 시사점을 던짐으로써, 건강, 생태계, 환경, 나아가 생명체계(living system)와 관련된 모든 현안들에 영향을 미칠 것이다. 우리를 포함하여 많은 그룹들은 다년간 머신러닝 기반 방법(learning-based method)을 이용해 왔다. 딥러닝(deep learning)과 AI의 발달은 우리의 성과에 영향을 미치는 중요한 변수로 작용할 것이다. 아직은 문제점이 많지만, 2020년대에 가면 궁극적인 문제들이 해결될 것으로 낙관한다"라고 맥거핀은 말했다. 하사비스도 아직 할 일이 많음을 인정한다. "우리는 단백질 접기를 아직 완전히 해명하지 못했다. 그것은 엄청난 도전이며, 우리는 이제 첫걸음을 내디뎠을 뿐이다. 그러나 우리는 훌륭한 시스템을 보유하고 있는 만큼, 지금껏 감히 상상할 수 없었던 아이디어를 구상하고 있다."
※ 참고문헌
1. https://www.theguardian.com/technology/2015/feb/25/google-develops-computer-program-capable-of-learning-tasks-independently
2. https://www.theguardian.com/technology/2017/dec/07/alphazero-google-deepmind-ai-beats-champion-program-teaching-itblank-to-play-four-hours
3. https://www.theguardian.com/science/2017/oct/18/its-able-to-create-knowledge-itblank-google-unveils-ai-learns-all-on-its-own
4. https://www.theguardian.com/commentisfree/2017/apr/19/the-guardian-view-on-protein-modelling-the-answer-to-life-the-universe-and-everything
5. https://www.theguardian.com/technology/2016/mar/12/alphago-beats-lee-sedol-in-third-consecutive-go-game
6. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4889822/
7. https://www.nature.com/scitable/topicpage/protein-misfolding-and-degenerative-diseases-14434929
8. http://predictioncenter.org/casp13/zscores_final.cgi ※ 출처: 가디언 https://www.theguardian.com/science/2018/dec/02/google-deepminds-ai-program-alphafold-predicts-3d-shapes-of-proteins
|