1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드- 논문관련 분야의 소개, 동향, 전망을 설명 본 논문은 시스템 생물학(Systems biology)의 원천 기술인 네트워크(Network) 모델 기법을 이용하여 암 및 질병을 포함한 특정 세포 조건에서 단백질의 세포내 위치 정보를 단백체수준(proteome-wide)로 자동적으로 예측할 수 있는 방법을 세계 처음으로 개발하고, 이를 뇌종양에 적용한 후에 실제 환자 샘플을 이용해서 검증한 결과에 관한 논문입니다. 개발된 방법론은 아주대 의과대학 연구실 홈페이지에서 확인할 수 있습니다 (http://nbm.ajou.ac.kr/colp/).
단백질은 기능 (function)을 할 때 세포 내에서 특정 위치로 이동해야만 기능을 제대로 수행 할 수 있거나, 그 위치에 따라서 서로 다른 기능을 할 수도 있습니다. 그런데 이런 위치 정보가 특정 세포 조건(암 등 질병의 발생)에 따라서 달라 질 수 있는데, 그것을 실험으로 전부 확인은 거의 불가능 합니다. 그래서 컴퓨터의 도움으로 자동적으로 특정 조건별 위치정보를 예측 하는 것은 아주 중요한 일입니다.
현재 많은 연구자들이 IT 기법을 이용해서 단백질의 세포 내 위치정보(subcellular localization)를 예측해 오고 있었지만, 아직까지 특정 세포 조건이나 질병 상태에 특이적인 단백질의 위치 정보를 예측하는 방법은 개발 되지 않았었습니다. 그 이유는 일반적으로 기계학습(machine learning) 기반으로 단백질의 위치 정보를 예측 하려면, 이미 알려진 위치정보, 그것도 연구자가 관심 있는 특정 조건에서 알려진 위치정보(학습 데이터라고 불려짐)가 어느 정도 필요합니다. 예를 들어 뇌종양에서의 단백질의 위치 정보를 예측 하려면, 뇌종양 세포에서의 이미 알려진 단백질의 위치 정보가 어느 정도 필요 함을 의미합니다. 하지만 현재까지 단백질의 대표적인 위치 정보도 잘 알려져 있지 않을 뿐 아니라, 특정 조건 마다 특이적인 위치 정보는 거의 잘 알려져 있지 않습니다.
본 연구의 이런 특정 조건에서 선 요구되는 위치정보 없이, 일반적으로 알려진 제한된 위치정보 만을 이용하여 특정 조건에서의 위치 정보를 단백체 수준으로 예측하는 새로운 방법을 제시한 것입니다. 이를 위해 다양한 오믹스(omics) 데이터를 단백질 상호작용 네트워크를 기반으로 통합하였고, 관심 있는 조건에서의 유전자의 발현 패턴 분석을 통해서 그 조건에서의 위치 정보를 예측 하였습니다. 그 후 개발된 방법을 뇌종양에 적용하였고, 그 결과150개 이상 단백질의 위치 변화를 예측 하고, 아주 높은 정확도로 예측 됨을 실제 환자들의 샘플을 이용해서 확인 하였습니다. 특히 이 중에서 RET/GFRA4/PSPN의 동적인 위치변화가 뇌종양 진단 및 치료에 큰 의미를 지닐 수 있음을 추가 실험으로 검증 확인 한 것입니다.
본 연구에서는 뇌종양에 적용한 논문이지만, 실제로 개발된 방법은 암을 포함한 다양한 질병 및 세포의 분화 또는 외부 자극에서의 특이적 단백질 위치 정보를 예측하는데 바로 적용 할 수 있다. 이 때 필요한 데이터로는 특정 조건에서의 유전자의 발현 정보만 있으면 예측이 가능하다. 관련 방법론은 아주대 의과대학 본연구실의 웹사이트에서 무료로 사용할 수 있어서 그 파급효과가 크다고 볼 수 있다.
- 연구과정에서 생긴 에피소드 개인적으로 단백질의 위치정보를 예측 하는 것은 박사과정이었던 2005년으로 거슬러 올라갑니다. 원래 전공이 전산학(정보학)이어서, KAIST 이광형/이도헌 교수님 연구실의 박사과정 때는 단백질의 위치정보를 잘 예측할 수 있는 알고리즘을 개발하였고(Nucleic Acids Res. 2006), 이후 미국 University of California, San Diego의 Dr. Trey Ideker 연구실에서 박사후 연구원으로 있는 동안 DC-kNN 방법으로 불리는 새로운 알고리즘 뿐 아니라, 단백질 상호작용 네트워크를 이용하여 의미 있는 피쳐(feature)를 추가로 만들어 단백질의 위치 정보를 예측 했으며(Nucleic Acids Res. 2008), 현재의 아주대 의대 의료정보학과에서 관련 기법을 애기장대에 적용해서 단백질의 상호작용 및 위치 정보를 예측 했었습니다(Plant Cell, 2010). 하지만 이전 연구들은 모두 특정 조건이 아닌, 대표적인 단백질의 위치 정보를 예측 것에 관한 연구였습니다. 2007년 Dr. Trey Ideker 박사의 제안으로 특정 조건별 단백질의 위치정보 예측 연구를 처음 시작하였고, 그 후 1년 정도 네트워크 기법으로 유전자 발현 정보를 사용해서 특정 조건에서 단백질 위치 정보를 예측하는 방법을 1차적으로 개발해 보았고, 응용 분야를 찾던 중 가천의대 암당뇨 연구원의 이봉희/변경희, 서울의대 백선하 교수님의 도움으로 뇌종양(glioma)에 적용 할 수 있었습니다.
처음 이 논문을 타 저널에 제출했을 때가 2009~10년도 이었는데, 몇 개의 major 논문지에서 revision을 수행 하다 최종적으로 모두 거부를 당해 3년 이라는 시간이 흘렀고, 그 때마다 논문에 대한 많은 보완 작업을 계속 수행 하였습니다. 최종적 거부의 원인은 유전자의 발현정보를 이용해서 단백질의 특정 조건별 위치정보를 예측할 수 있다는 것이 생물학 전공자들의 심사위원들에게는 잘 이해가 되지 않았던 것 같습니다. 또한 제가 교신저자로서의 경험 부족으로 심사위원들의 지적을 기교 있게 적절히 대처하지 못한 것도 하나의 문제점 이었다고 볼 수 있을 것 같습니다. 연구자의 입장에서 보면 크게 의미 없는 지적에 대한 보완 작업을 할 때마다, 또 최종적으로 거부 당할 때 마다 포기 하고 싶었지만, 결국 포기 하지 않았던 것이 최종적으로 Genome Research의 Method 섹션의 논문으로 승인 될 수 있었던 것 같습니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁드립니다. 현재 저의 아주대 의과대학 연구실 홈페이지는 http://nbm.ajou.ac.kr/nbm/입니다. 최근에 연구실 홈페이지를 새로 수정 하는 중이라 조금 어수선합니다. 현재 연구실에는 생물학, 전산학, 수학, 의학 등 다양한 배경을 가지고 있는 10수 명 정도의 학생 및 연구원들이 모여 정보학 기반의 다양한 연구를 수행하고 있습니다. 암을 포함한 질병 중심 및 줄기 세포에 관한 연구를 수행하고 있으며, 또한 최근에는 의료 및 오믹스 데이터 통합으로 시판된 약의 새로운 적응증을 찾는 연구(Drug repositioning) 등 다양한 연구를 수행하고 있습니다. 또한, 작년부터 바이오 실험실을 오픈 하여 예측된 결과를 환자의 샘플을 이용한 검증 및 molecular work도 병행하고 있습니다. 사실 한국에서 바이오정보(bioinformatics) 및 의료정보(medical informatics) 관련 연구를 하기가 쉽지만은 않지만, 아주대 의대에서의 많은 지원과 관심으로 비교적 수월하게 연구를 수행하고 있습니다. 또한 높은 기대치인데도 불구하고 묵묵히 잘 따라와 주는 연구원들이 있어서 가능할 수 있었던 것 같습니다.

연구실 사진 (정보학실/실험실/데이터서버실)
3. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면? 생물정보학 관련 연구자들은 크게 세 부류가 있을 수 있습니다. 저의 경우처럼 정보학을 먼저 전공을 하거나, 또는 생물학을 먼저 전공한 후에, 다른 하나로 연구 분야를 확대하거나, 아니면 처음부터 두 가지 전공을 동시에 배워서 관련 연구를 수행 하는 부류라고 볼 수 있을 것입니다. 저도 아직은 배우는 입장에 있지만, 정보학을 먼저 전공한 자는 어떤 경우이든 간에 최종적으로 해결해야 될 문제는 "생물학적인 문제"라는 것을 명심해야 되는 것입니다. 즉, 생물학에 관한 공부를 게을리 해서도 안되고, 내가 개발하는 알고리즘이나 툴이 어떤 생물학적인 의미가 있을까를 고민하는 것이 도움이 될 것 같습니다. 또한 여러 주제를 수행할 수 있지만, 자신 만의 생물학 분야를 가지는 것도 중요할 것 같습니다. 현재 한국에서 정보학을 먼저 전공한 자가 생물정보학 분야로 연구를 확대하는 연구자의 수가 많이 빈약합니다. 이 흥미진진하고 의미 있는 분야로 많은 정보학 관련 전공자의 수가 늘어나기를 기대합니다.
반대로, 저의 다수의 대학원생들처럼, 생물학 관련 전공을 먼저 배운 연구자의 경우에는 지금 내가 사용하고 있는 툴에 대한 원리나 방법론에 대한 공부를 항상 병행해야 하고, 또한 특정 하나의 툴을 맹신해서도 안될 것입니다. 그리고 기존의 연구방법에만 의존하기 보다는 항상 새로운 방법들에 대한 도전이 중요할 것 같습니다. 궁극적으로 지금의 생물학 시대에서는 정보학이라는 분야와 동떨어질 수 없는 시대임을 부정할 수는 없습니다. 새로운 것을 항상 받아들이려는 자세가 무엇보다도 중요할 것 같습니다.
마지막으로 두 개의 전공을 동시에 접근하는 연구자는 본인의 가장 큰 장점에 대해 생각을 하면서 연구나 공부를 하면 도움이 될 것 같습니다. 두 가지 분야를 동시에 배우면서, 같은 시간에 두 가지를 모두 잘 하면 더 없이 좋겠지만, 현실적으로는 쉽지가 않을 수 있습니다. 그래서 어떤 경우에는 두 분야 중 어느 것에 나와 더 잘 맞는지, 내가 더 잘 할 수 있는 부분은 무엇인지를 정하는 것이 바람직할 수 있습니다. 그리고 그 선택 분야에 대해선 전공자와 같은 수준의 연구가 필요할 것 같습니다.
4. 연구활동과 관련된 앞으로의 계획이 있으시다면? 현재 개발된 방법론은 특정 암이나 질병에 국한 된 것이 아닙니다. 관심 있는 조건에서의 유전자 발현 프로파일이 있으면 그 조건에서의 단백질의 위치 정보를 예측할 수 있습니다. 그래서 현재 뇌종양 이외의 다른 암이나 질병에 대해 적용하고 있는 중입니다. 또한 세포의 분화에 따른 위치 정보의 변화에 대한 연구도 수행하고 있습니다.
5. 다른 하시고 싶은 이야기들.... Never, never, never give up! 이 논문을 쓰면서 너무나 뼈저리게 느낀 문구입니다.