브만사 인터뷰 연구자
단백질 구조 예측 AI 로제타폴드 개발 후 2년, 이젠 구조 예측 넘어선 상호작용 연구해요. 한국행 이유는 학생들에게 다양한 학문적 경험 제공하고 싶어서
서울대학교 백민경 교수
- 연구소개
- 인공지능으로 단백질의 구조와 상호작용을 예측한다는 것의 의미
- 로제타폴드 개발 과정에서의 어려움
- 인공지능 기반 단백질 구조 예측 프로그램의 정확도 검증 방법
- 인공지능으로 단백질 구조를 예측하는데 따르는 한계
- 단백질 구조 예측 프로그램을 신약 개발에 사용하기 위한 접근법
- 로제타폴드 소스 무료 오픈의 특별한 이유
- 미국에서의 포닥생활, 한국과 달랐던 점
- 로제타폴드 개발 이후 한국행을 선택한 이유
- 앞으로의 계획
미국의 생화학자 레닌저(A.L. Lehninger)는 지구에 존재하는 생물은 150만 종이고, 각각 수천에서 수만 종류의 단백질을 가지고 있어 전체 단백질의 종류는 1조가량이나 된다고 말했다. 단백질엔 스무 종류의 아미노산이 연결돼 있고 그 구조는 4차까지 나누어지므로 단백질의 구조를 이해하고 또 관찰한다는 것은 생명의 복잡성을 기반으로 여전히 경이로운 영역에 속한 일이기도 하다. 불과 몇 년 전만 해도 이런 단백질의 구조를 알기 위해선 초저온 전자 현미경 기법(Cryo-EM)이나 X선 결정법과 같은 방법을 통해서만 가능했고, 극저온의 환경을 만들거나, 많게는 수년에 걸리기도 할 만큼 오랜 시간이 걸린다는 제약도 있어 연구의 걸림돌로 작용했다.
당시 워싱턴대 포닥(PostDoc, 박사후 연구원, 이하 포닥)이었던 백민경 교수는 AI 단백질 구조 예측 프로그램인 로제타폴드를 주도적으로 개발하며 단백질 구조 예측 시대를 여는 주역 중 한 명이 되었다. 로제타폴드는 구글의 알파폴드2와 같은 날 공개됐는데 기업이 아닌 학교에서 개발한 점과 무료로 오픈한 점 등으로 주목을 받았다. 생명 현상을 이해하는 데 매우 중요한 생체분자인 단백질 구조예측은 로제타폴드 이후 얼마나 나아갔을까? 서울대에서 연구를 지속하고 있는 백민경 교수를 만났다.
백민경 교수를 서울대 생명과학부에서 만났다 (사진=BRIC)
Q. 안녕하세요. 백민경 교수님의 연구를 소개해 주세요.
저는 화학을 전공하면서 신약 개발하는 게 꿈이었는데, 막상 실험을 해보니 유기합성 실험이 저와 안 맞는다고 느꼈어요. 전공은 선택했는데 앞으로 어떻게 해야 하나 고민하던 때에 마침 계산생물학이란 분야를 알게 됐어요. 실험하지 않고도 분자가 어떻게 생겼는지, 특히 우리 몸에서 가장 중요한 생체 분자가 어떻게 생겼는지 단백질 구조를 연구할 수 있다는 걸 알게 돼서 계산생물학을 선택해 공부했고, 지금은 인공지능으로 단백질의 구조와 상호작용을 예측하는 연구를 하고 있습니다.
Q. 인공지능으로 단백질의 구조와 상호작용을 예측한다는 것은 어떤 의미인가요?
단백질의 구조는 단백질의 서열이 정해지면 어느 정도 정해지거든요. 단백질은 아미노산으로 구성되어 있는데 그 아미노산 사이의 물리적인 상호작용에 따라 특정한 구조를 이루게 됩니다. 기존엔 물리학 원리에 기반해서 단백질의 구조를 예측해 보려 했어요. 하지만 그 방법은 너무 어려워서 지름길이 없을까를 고민하게 됐습니다.
그러다가 미오글로빈과 같은 단백질에서 아이디어를 얻었는데요. 미오글로빈은 근육에 산소를 저장하는 기능을 하는 단백질로 사람에게도 있고 포유류, 참치한테도 있어요. 같은 기능을 하지만 서로 다른 종에 있다 보니 단백질 서열도 많이 달라요. 그런데 다 비슷한 구조를 가져요. 이 얘기는 진화하는 과정에서 기능을 유지하기 위해 구조를 유지할 필요가 있었다고 예상할 수 있어요. 단백질의 기능과 구조는 워낙 밀접하기 때문이에요. 반대로 생각하면 진화적으로 비슷한 단백질의 경우 비슷한 구조를 공유할 가능성이 크고, 비슷한 서열을 가진 단백질들을 쭉 모아놓고 보면 그 안에, 구조에 대한 패턴 같은 게 존재할 것이라는 뜻이기도 해요. 인공지능이 잘하는 것 중 하나가 패턴을 찾는 일이거든요. 진화 정보만 잘 던져주면 그 단백질 진화 정보를 바탕으로 구조에 대한 패턴을 찾아서 구조를 예측할 수가 있는 거예요. 지금의 인공지능 기반의 단백질 구조 예측 방법들은 다 이런 진화 정보에 기반하고 있습니다.
Q. 교수님이 개발을 주도한 ‘로제타폴드’도 같은 방식으로 단백질 구조를 예측하겠군요. 개발 과정에서 어려움이 있었다면 어떤 것이 있었을까요?
컴퓨터 프로그래밍을 할 줄 아는 것과 인공지능을 잘 이해해서 쓰는 건 별개의 문제잖아요. 프로그래밍이 컴퓨터에 ‘너 이런 경우엔 이렇게 해야 하고 저런 경우엔 저렇게 해야 해’라고 모든 논리를 다 짜서 넣어주는 것이라면, 인공지능은 어떻게 하면 학습을 잘할지를 생각해서 인공지능 모델에 레고 블록 쌓듯이 정보를 꿰맞춰 놓아야 이걸 따라서 인공지능이 풀고자 하는 문제에 대해 학습하고 문제를 풀어나가는 개념이라 익히는데 힘들었습니다.
인공지능 쪽이 워낙 핫하고, 연구하려는 사람이 많아서, 매일 새로운 모델, 새로운 알고리즘, 새로운 학습 방법들이 쏟아져 나와서 뭐가 진짜 좋은 건지 옥석을 가려내고, 그중에서도 단백질 문제에 적용할 만한 것이 뭐가 있는지 찾는 게 제일 어렵더라고요.
그래서 워싱턴대 데이비드 베이커 교수 연구실에서 포닥을 할 때 같이 연구하던 구성원들과 저널 클럽을 매주 열었습니다. 단백질과 관련이 있든 없든 뭔가 신기한 게 나오면 매주 같이 논문을 읽어보고, 한 사람의 대표를 정해서 제대로 읽고 설명해 주고, 이걸 단백질에 어떻게 적용할 수 있을까 이런 얘기들을 나누면서 함께 공부했던 게 많은 도움이 됐어요.
사실 많은 연구자들이 공감하실 텐데 기존에 알고 있던 사실만으로 연구를 진행하면 한계가 있습니다. 그래서 뭔가 내 주변 다른 연구자들은 어떤 식으로 연구하고 있는지 팔로우업을 해야한다고 생각합니다. 그런 의미에서 저널 클럽이 많은 도움이 됐습니다.
Q. 최근 학술지 ‘네이처’에서 AI 기반 단백질 구조 예측 프로그램의 정확도에 대한 우려를 표명하기도 했습니다. 정확도에 대한 검증은 어떻게 이뤄지고 있나요?
단백질 구조 예측 능력 평가 대회(CASP)가 2년에 한 번씩 열리는데요. 지금까지 개발된 단백질 구조 예측 방법들이 얼마나 정확한지 평가하는 대회로 저희도 이곳에서 검증받습니다. 대회에서 단백질 구조 예측 문제를 참가자들에게 내주는데, 어떤 문제를 주냐면 구조가 거의 풀렸는데 아직 세상에 공개되지 않은 단백질에 대해 서열을 보내주고, 각자 자신들의 방법으로 구조를 예측해서 제출하는 방식이에요. 그렇게 100문제 정도를 풀어 제출하고 나면 실제 구조와 얼마나 비슷한지 평가하는데, 알파폴드가 나오기 전엔 100점 만점에 50~60점 정도였는데 알파폴드2가 나오면서 100점 만점에 거의 90점에 근접했습니다.
이렇게 단백질 구조 예측이 많이 정확해진 건 사실이에요. 실험을 통해 확인한 구조랑 AI가 예측한 구조랑 진짜 비슷하다 할 정도로 정확도가 높아진 건 맞지만, 그럼 이 구조를 가지고 실험 구조를 대체해서 쓸 정도인가, 즉 신약 개발을 위해 AI가 구조 예측한 것으로 실험 구조를 대신할 정도로 정확하냐고 묻는다면 거긴 약간 물음표가 붙어요.
Q. AI로 단백질 구조를 예측하는 것의 한계가 있겠군요.
인공지능을 사용하는 것에서 오는 한계들이 몇 가지 있어요. 하나는 인공지능은 단백질의 구조를 예측할 수 있어요. 하지만 인공지능이 왜 그런 구조를 예측했는지는 이해할 수 없어요. 저는 원래 화학을 전공했으니까, 원리에 대해 항상 궁금해하는 마음이 있거든요. 그런데 제가 로제타폴드를 만들어서 단백질의 구조를 예측할 수 있게 됐지만 이 단백질이 왜 이렇게 접히는지 아직 그 원리를 수학적으로 명쾌하게 다 설명할 수는 없어요. 실용적이기는 하지만 우리가 정말 새로운 과학 이론을 정립했냐는 것엔 물음표가 아직 붙은 것이죠.
두 번째 한계는 알파폴드, 로제타폴드가 성공하게 된 데는 양질의 데이터가 존재 했기 때문이에요. 데이터가 부족한 상황인데도 인공지능으로 풀 수 있다고 생각하는 것들이 우려스럽기도 해요.
Q. 그렇다면 단백질 구조 예측 프로그램을 신약 개발을 위해 쓰려면 어떻게 접근해야 할까요?
AI로 단백질 구조를 예측한다는 건, 구조가 대충 이렇다고 예측하는 것이지, 거기에 유기 분자가 붙을 때 구조는 이렇다고 예측하는 건 아니에요. 신약 개발에 적용할 정도는 아직 아니고, 알파폴드나 로제타폴드가 그런 예측을 위해 개발된 것도 아닙니다. 로제타폴드도 처음 나왔을 때 언론이나 사람들이 신약 개발 도우미 역할을 할 것이라고 예상했지만, 저는 그런 기사를 보면서도 신약 개발 한 10% 정도 빨라지려나 생각했어요. (웃음) 예전엔 AI 구조 예측을 너무 안 믿으셔서 이런 건 좀 믿어주시라고 말씀드렸는데 요즘엔 너무 믿으셔서 오히려 너무 믿지 마시고 이런 부분을 꼭 검증해서 쓰시라고 말씀드리는 편이에요.
진화 정보가 있는 경우는 굉장히 좋게 예측이 되는데 그런 게 아니라면, 특히 신약 개발과 같은 다른 분자와의 바인딩 같은 것을 예측해야 하는 경우라면 더 많이 검증해 보고 실험과 함께 진행해야 한다고 말씀드리고 있어요.
그리고 이제 단백질 구조에서 더 나아가 이 단백질이 어떤 물질과 붙을지, 또 붙었을 때 구조가 어떻게 변할지 예측하는 게 더 중요해졌어요. 연구도 그런 쪽으로 방향을 많이 옮겨가고 있고 상호작용을 예측하고 응용을 통해 직접적으로 쓸 방법들이 많이 개발될 겁니다.
Q. 로제타폴드 소스를 무료로 오픈하셨어요. 특별한 이유가 있었나요?
저희는 회사가 아니라 학계에 속해 있잖아요. 이걸 공개함으로 다른 연구자들의 연구가 더 빨라지고 촉진될 수 있으면 좋겠다고 생각해서 공개했고요. 지금까지 개발된 인공지능 기술들은 데이터를 먹고 자라요. 근데 그 데이터는 수많은 실험 과학자가 쌓아놓은 것이거든요. 그걸 어딘가 무료로 공개했기 때문에 특히 Protein Data Bank 같은 데이터베이스 센터에 굉장히 잘 정리된 형태로 오픈해 두었기 때문에 저희도 쉽게 개발할 수 있었던 거라서 우리가 오픈을 하지 않는 건 이상하다, 사람들이 사용할 수 있게 오픈을 하자, 이렇게 해서 코드도 공개하고 사용할 수 있게 웹 서버도 공개하게 됐고요.
또 하나의 숨겨진 이유는 저희가 먼저 그렇게 함으로써 구글 딥마인드가 반드시 공개하도록 압박하자는 마음도 있었습니다. 2018년에 구글 딥마인드 알파폴드 초기 버전이 이미 나와 있었는데요. 구글에서 당시에 이걸 논문으로 낼 때 공개하겠다고 했는데 쓸 수 없는 형태로 공개를 한 거예요. 그래서 이번에도 그러면 안 된다, 그들이 공개하겠다는 말을 다 믿지 말고 우리의 행동으로 압박을 좀 넣어보자는 의도도 있긴 했어요. (웃음)
백민경 교수는 로제타폴드로 다른 연구자들의 연구가 더 빨라지고 촉진되길 기대하는 마음으로 무료 오픈했다고 밝혔다. (사진=BRIC)
Q. 구글 얘기하셨지만, 단백질 구조 예측 프로그램을 만들던 중에 구글이 알파폴드 2를 만들고 있다는 걸 알고 있었잖아요. 구글보다 발표가 늦어지면 안 된다는 압박이 상당했을 것 같은데 어땠나요?
사실 2018년도에 알파폴드가 처음 나왔을 땐 개발에 대해 희망적이었어요. 왜냐면 비전공자인 저희도 배워서 할 수 있을 것으로 보였거든요. 단백질을 잘 모르는 사람들이 인공지능으로 이만큼의 구조예측 프로그램을 만들었으면 단백질에 대해 잘 알고 있는 우리는 더 잘 만들 수 있지 않을까 생각했어요. 그러면서 공부를 시작했는데, 구글 딥마인드에서 알파폴드를 개발 중이라고 하고, 단백질에 적합한 인공지능 모델은 하루가 다르게 속속 나오고 있는데 저희는 배우면서 해야 하니 팔로우업이 잘 안되는 느낌이었어요. 아무튼 저희의 목표는 단백질 구조 예측 프로그램을 학계에서도 만들 수 있다는 걸 보여주자는데 있었고요. 또 직접 만들어 봐야지 앞으로도 구조 예측 프로그램을 잘 활용해서 쓸 수가 있을 것이다 생각하기도 했습니다. 직접 만들어 본 경험이 있으면 단백질 디자인이나 다른 연구에 응용하기 편하겠다는 이유도 있었어요. 다행히 같은 날 로제타폴드와 알파폴드2가 발표되면서 감사히 마무리되었죠.
Q. 백민경 교수님은 서울대에서 박사학위까지 받은 후 미국 워싱턴대학 데이비드 베이커 교수 랩에서 포닥 생활을 시작했는데요. 처음 미국에 포닥으로 갔을 때 어떤 점이 한국과 많이 달랐나요?
제가 한국에 있을 때 랩 멤버가 10명이 안 되는 곳이었어요. 그러다가 베이커 교수 연구실에 갔더니 100명이 넘는 사람들이 있었어요. 그러다 보니까 제가 적극적으로 어떤 일이든 하지 않으면 그냥 지나가는 사람이 되는 분위기였어요. 저는 원래 매우 소극적인 성격이었는데 미국에 가서 성격이 많이 바뀌었고요. 먼저 말도 붙이고 적극적으로 나설 만큼 변화됐습니다.
또 데이비드 베이커 교수님은 특별한 철학을 가지고 계시는데요. 보통 랩에선 실험하고 연구하는 일이 우선이라고 생각하는데, 교수님 랩에선 사람들이랑 계속 말을 하게 유도해요. 그룹미팅 끝나면 맥주랑 과자 주면서 서로 얘기하게 하는 시간을 일주일에 3~4번씩 만들어줬어요. 어떤 얘기를 나누라고 정해주는 것도 아니고 그냥 수다 떠는 자리에요. 그런데도 우리가 연구자다 보니까 모여있으면 언젠가 연구 얘길 하게 되고, 아이디어도 공유하게 되고, 그러다 보면 새로운 프로젝트가 시작되기도 하고 이런 경험들이 굉장히 새로운 것들이었어요.
Q. 미국 워싱턴대 베이커 랩에서 로제타폴드 개발이라는 좋은 성과를 낸 다음, 서울대 교수로 한국행을 선택하셨어요. 특별한 이유가 있을까요?
제가 사실 한국에 있었을 때는 계산생물학 분야가 있다는 걸 알기 어려웠어요. 운이 좋게 마침 수업이 생겨서 알게 된 것이지 그 수업이 없었다면 모르고 살았을 거예요. 그래서 제가 한국에 온 이유 중의 하나는 학생들이 대학원을 오든 안 오든 최대한 많은 경험을 해 보게 할 수 있게 하기 위해서이고, 실제로 다양한 경험을 할 수 있게 열린 문으로 기회를 주고 있어요.
또 미국에서 포닥할 때를 생각해 보면 온갖 종류의 백그라운드를 가진 사람들이 랩에 다 모여있었어요. 그래서 함께 얘길 하다 보면 그 자체만으로도 학회에 간 듯한 느낌을 받았거든요. 그래서 저희 랩에도 다양한 백그라운드의 학생들에게 기회를 주고 있습니다. 랩이 생명과학부에 속해 있지만 생명과학전공자는 절반 정도밖에 되지 않고요. 나노공학, 컴퓨터 공학, 화학, 생물공학 등 다양하게 구성돼 있습니다. 앞으로도 저는 오픈 마인드여서 다양한 분야와 함께 융합 연구를 해보고 싶습니다.
Q. 백민경 교수님의 앞으로의 계획이 궁금합니다.
단백질의 단일 구조를 예측하는 건 이제 많이 해결되었다고 생각해요. 알파폴드가 많은 걸 해결해 줬다고 생각합니다. 지금은 단백질의 상호작용 연구 쪽으로 많이 옮겨간 상황이에요. 단백질과 단백질 사이의 상호작용, 그런 결합 구조를 예측하는 것, 또 단백질과 핵산도 굉장히 중요한 생체 분자인데 그런 쪽과의 상호작용을 예측하고 상호작용하는 파트너를 설계하는 그런 연구를 진행하고 있습니다.
저는 30년 뒤에도 제가 재밌어하는 연구를 했으면 좋겠어요. 데이비드 베이커 교수님이 제가 미국 떠날 때 밥을 사주셨는데 그때 교수님이 딱 60세여서 제가 은퇴 생각은 없는지 여쭤봤어요. 그랬더니 교수님께서 그런 생각을 해 본 적이 없다고 말씀하셨어요. 그 모습을 보면서 진짜 연구에 미쳐있구나, 나도 60세에 저럴 수 있으면 좋겠다고 생각했거든요. 교수님께 많이 배운 만큼 저도 좋은 점들을 최대한 본받아서 닮으려고 노력하고 있습니다.
-----------------
백민경 서울대 교수
학력
- 2013.03 – 2018.08 박사: 서울대학교 자연과학대학 화학부
- 2009.03 – 2013.02 학사: 서울대학교 자연과학대학 화학부
경력
- 2019.05 – 2022.07 박사후연구원, University of Washington
- 2018.09 – 2019.03 연수연구원, 서울대학교 화학분자공학사업단
취재 : 생물학연구정보센터 박유미
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다. 관련 문의 : interview@ibric.org