한빛사 인터뷰
1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
EC번호(Enzyme Commission Number)는 효소의 촉매 화학반응에 따라 분류하기위한 체계로 해당 EC번호를 통해 효소의 기능을 예측할 수 있습니다. EC번호의 체계가 형성되기 전까지 효소는 임의적인 방법에 따라 분류되었으며, 특이성에 근거한 합리적인 분류가 매우 어려웠습니다. EC번호의 분류 기준은 효소의 반응특이성과 기질특이성의 차이로 구분되어 있으며, 마침표로 구분되는 4개의 숫자로 구성되어 있습니다.
시퀀싱 기술이 발달하면서 박테리아, 곰팡이, 식물, 동물, 인간 등의 많은 유전자 데이터들이 저비용 및 효과적으로 분석이 가능함에 따라 현재 많은 데이터들이 축적되고 있습니다. 따라서 염기서열이 무엇을 암호화하고, 유전자가 유기체에서 어떻게 발현되는 지와 같은 새로운 생물학적 가설 유도 등 유전체 데이터로부터 새로운 의미를 부여하기 위해 심층적인 기계학습 모델을 필요로 하고 있습니다. 단백질 기능은 몇 천가지로 분류가 가능하고 그 Label 또한 계속 늘어나고 있으면서, 특히 미생물의 경우는 매우 다양한 종이 발견되고 그 변이성이 폭넓기 때문에 Human protein 분석과는 차이가 많습니다. 이러한 의미에서 EC번호를 예측하는 것은 단순히 단백질 기능을 예측하는 것을 넘어 병리학 및 바이오산업 등에 적용할 수 있습니다. 그러나 현재 EC번호를 예측하는 여러 컴퓨터 방법론들이 많은 효소들의 기능을 예상하여 다양한 분야에서 활용되고 있지만, 다중 레이블 분류 예측에 대한 신뢰성이 아직까지 부족한 편입니다.
본 논문의 ECPICK 모델은 단백질 서열로부터 Conserved Sequence으로 예측되는 부분을 대상으로 단백질 서열 부분을 빠르게 예측하여 효소의 기능 예측 기술 성능을 신뢰성 높게 향상시켰을 뿐만 아니라, 기존 다른 모델과 비교하였을 때도 높은 정확도를 확보할 수 있었습니다. 또한, 이번 논문에서는 Evidential Deep Learning이라는 개념을 소개하였습니다. 사용자 입장에서는, 전체적인 정확도(Accuracy)가 높다고 해서 그 모델의 결과를 그대로 믿기 어렵습니다. 따라서, Evidential Deep Learning은 예측된 결과를 비롯하여 그 결과에 대한 Domain?Specific-Evidence를 제공함으로써 신뢰할 수 있는 예측(Trustworthy Prediction)을 가능하게 해줍니다. 또한 해석 가능한 모델을 통해서 기존에 알려지지 않은 Motif/Active Sites 제시가 가능합니다.
결과적으로 ECPICK을 통해 단백질 기능 유사성 또는 미지의 단백질 기능도 유추할 수 있을 뿐만 아니라, 유전체 정보나 단백질 서열에서 효소를 구분하고 높은 신뢰성으로 빠르게 예측할 수 있기 때문에 디지털 헬스와 제약 바이오 산업 등에 응용할 수 있는 많은 장점이 있습니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁드립니다.
본 연구는 선문대학교 4단계 BK21 바이오빅데이터 기반 충남 스마트 클린 전문인력 양성사업단(단장 오태진교수), 선문대학교 소프트웨어중심사업단(단장 이현교수) 및 미국 네바다주립대학교(University of Neveada, Lasvegas; UNLV)의 강민곤 교수님 연구팀과의 협업으로 진행된 공동연구의 결과입니다.
특히, 선문대학교 4단계 BK21 사업단은 바이오빅데이터 융합전공 분야에서 생명공학과 및 컴퓨터공학과 출신 대학원생들이 함께 현존하는 다양한 바이오 관련 데이터들을 수집하고 그들의 패턴을 분석하여 응용 알고리즘 및 플랫폼을 개발하는 융합 인재들을 양성하고 있습니다.
선문대학교 오태진 교수님 연구실(유전체 기반 바이오IT 융합연구소)는 극한환경(극지/네팔/사막) 유래 생물자원(토양/이끼/지의류/미생물/식물)을 활용하여, 2차대사물질 분석을 비롯한 관련 생물의 유전체 분석, 다양한 구조변형 가능 생합성유전자 분리 및 발굴을 통해 환경오염에 대한 문제해결이나, 항바이러스제/항생제/힝암제 등과 같은 신약 후보물질 발견과 개발 등을 연구하고 있습니다. 또한 UNLV 강민곤 교수님 연구실(Data X lab)은 기계학습과 빅데이터 분석을 중심으로 새로운 문제를 해결하고 효율적인 알고리즘 개발과 데이터 분석을 통해 새로운 도메인 지식을 제시하는 것을 목표로 생명공학 중심의 데이터를 다루고 있는 연구실입니다.
3. 연구 활동 하시면서 평소 느끼신 점 또는 자부심, 보람
저는 선문대학교 4단계 BK21 바이오빅데이터 기반 충남 스마트 클린 전문인력 양성사업단 소속으로, 현재는 BK21 사업단의 연구교원입니다. 박사과정일때 정보통신기획평가원(IITP)의 글로벌인재양성 과제와 BK21 사업단의 지원으로 UNLV 강민곤 교수님 연구실에서 방문연구를 수행하였고 지금까지 3년이라는 시간동안 지속적으로 탐구하여 본 논문의 결과를 얻었습니다.
지금 돌이켜 보면, 오랜 시간 생명공학 분야만 전공하던 저에게는 갑자기 인공지능을 공부한다는 것이 너무 도전적이고 아무것도 모르고 오로지 열정만으로 가득했던 시절이었습니다. 서로 다른 두 분야 안에서 주도적으로 융합을 이끌어 간다는 게 결코 쉬운 일이 아니었습니다. 원래 박테리아 유전체 분석을 메인 연구테마로 공부하고 있었기에 자연스럽게 컴퓨터를 통한 예측 모델에 관심은 가지고 있었지만, 단순히 관심만을 가지고는 융합을 주도적으로 이끌어 간다는 것은 자칫하다가 오히려 방황과 포기가 될 수도 있기 때문에 결정적으로 주변의 도움이 많이 필요하였습니다. 연구는 혼자 하는 것이 아니라 다같이 함께 연구의 목적에 대해서 상의하고 협력하여 서로의 이해가 매우 많이 필요하다는 것을 느끼며 얻은 결과가 이 논문이 아닐까 생각합니다. 처음 도전해본 융합분야로 많은 시행착오를 겪었지만 함께한 공동연구자들 서로의 배려와 이해가 있어 도전적이고 흥미로운 결과를 얻을 수 있었습니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
흥미를 가지고 도전하는 것과 목적을 가지고 도전하는 것은 다르다고 생각합니다. 흥미가 나중에 목적으로 바뀔 수 있다면 너무 다행이지만 흥미에서 그치게 된다면 나중에 그 흥미가 후회로 바뀔 수 있기 때문입니다. 생명공학과 컴퓨터공학의 융합적인 학문이기 때문에 두가지 분야를 다 잘해야 된다고 생각할 수 있는데 저는 생명공학에서 바라본 컴퓨터, 혹은 컴퓨터에서 바라본 생명공학이 때로는 더 새로운 걸 많이 발견할 수 있지 않을까라고 생각합니다. 아직 이러한 융합적인 학문 연구 작업이 서로 잘 어울러 지기엔 시간이 필요하다고 생각하기 때문에 처음부터 두 가지를 모두 욕심 내는 것보다는 한 분야에서 또다른 분야로 점차 다가간다는 마인드로 임하다 보면 어느새 융합적인 학문이 더 빠르게 어우러지지 않을까 생각합니다. 또한, 신뢰성 있는 모델을 만들기 위해서는 서로의 도메인 지식을 이해하려고 노력해야 하고 어떻게 활용할 수 있을지를 함께 고민한다면 분명 많은 새로운 분야에서도 좋은 결과가 있을 것이라고 생각합니다.
5. 연구 활동과 관련된 앞으로의 계획이 있으시다면?
지금까지의 연구처럼 현재 선문대학교 BK사업단과 네바다대학의 강민곤 교수님 팀과의 협업으로 ECPICK의 업그레이드 버전을 후속연구로서 진행하고 있으며, 또한 BK21 사업단 후배 연구원과 함께 효소 family 분류 모델과 분해효소 구조 기반 기능 예측 관련 모델 연구 등을 진행하고 있습니다. 물론 개인적으로 관심이 많은 CAZyme 효소군의 분류체계 시스템과 기능 연계 모델 개발 분야와 국내외 극한환경 대상 마이크로바이옴 분포 등의 연구도 꾸준히 수행하려고 합니다. 무엇보다도 앞으로 바이오빅데이터 기반 새로운 컴퓨터 모델링에 대한 연구를 지속적으로 수행하여 개발한 모델의 해석 결과를 통해 유의미한 융복합 연구로 발전시키는 것이 최종적인 목표입니다.
6. 다른 하시고 싶은 이야기들.....
처음 강민곤 교수님을 만났을 때 열정만 앞섰던 시기여서 장황하고 복잡하게 설명해 드린 제 아이디어임에도 불구하고 한번 해보자고 좋은 내용인 것 같다고 단번에 말씀해주신 교수님 덕분에 이러한 결과를 얻을 수 있었던 것 같습니다. 많은 걸 지도해주시고 항상 같이 상의해 주신 교수님께 이 기회를 빌려 다시 한번 더 감사의 말씀드리고, 또한 하고 싶은 연구를 수행할 수 있게끔 격려와 지원을 아끼지 않으시는 이현 교수님과 연구에 대해 막힘이 있었을 때 많은 부분 함께 고민해주시고 격려해 주신 극지연구소의 이준혁 단장님께도 감사의 말씀 전하고 싶습니다. 그리고 같이 오랜 시간 연구하면서 잘 설명을 못해도 찰떡같이 알아듣고 원하는 결과를 만들어 준 같은 공동 주저자인 민규씨에게도 너무 수고했고 고맙다는 말 전하고 싶습니다. 그리고 항상 응원해주는 저희 실험실, 사업단 식구들과 언제나 제 편인 저희 가족들에게도 감사하다고 말하고 싶습니다.
마지막으로 항상 믿어 주시고 그 믿음 아래 아낌없이 지원해주시면서 같이 꽃길만 걷자고 말씀해 주셨던 지도교수님이신 오태진 교수님께 감사의 말씀드립니다. 새로운 분야에 대해서 두려움 없이 도전할 수 있게 저에게 가르침을 주시고 이끌어 주셔서 항상 감사한 마음과 함께 앞으로도 꾸준한 모습으로 옆에서 동행하겠다고 말씀드리고 싶습니다. 또한 관련 기타 연구에 도움을 주신 모든 분들께도 다시한번 이자리를 빌어 진심으로 감사드립니다.
#Evidential deep learning
# Biologically interpretable deep learning
# ECPICK
관련 링크
연구자 키워드
소속기관 논문보기
관련분야 논문보기