한빛사 인터뷰
1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
국가생명연구자원정보센터(KOBIC)에 오기 전에 저는 WGS 분석파트는 주로 미생물 데이터나 공용 데이터를 활용해 연습하는 수준이었습니다. KOBIC에 와보니 이미 수만 명 규모의 인간 WGS 데이터를 분석하고 있었고, 이는 국가 바이오 빅데이터 구축 시범사업의 일환으로 진행 중이었습니다. 한국인 유전체 데이터 생산이 본격적으로 시작되고 있었죠. 개인적으로 데이터 품질을 확인했을 때, 1K Genome project의 30X보다 훨씬 깔끔하고 품질 좋은 데이터를 보고 큰 충격을 받았던 기억이 KOBIC 에서의 시작이지 않았나 합니다.
사업이 활발히 진행되던 중, 당시 센터장님이셨던 김선영 박사님께서 한국인 롱리드 시퀀싱 데이터를 생산했는데 이를 분석할 수 있겠냐는 연락을 주셨습니다. “일단 해보겠다”는 답을 드렸고, 곧바로 연구팀이 꾸려졌습니다. 지금 돌이켜보면 제가 마지막으로 합류한 멤버였던 것 같습니다.
롱리드 시퀀싱으로 우선 당시 숏리드로는 한계가 있었던 구조변이에 초점을 맞췄습니다. 우선 두가지 방식을 고민했었는데 assembly 를 만드느냐 read-mapping 방식이냐 였고, 당시 김준교수(현 충남대)님께서 만들기 수고스럽더라도 assembly 방식을 추천했고, 한국인 3명(6개의 assembly)에 대하여 contig 들이 만들어졌습니다. 제 기억으론 이때쯤 CHM13 genome 논문이 아카이브에 공개되기 시작했고, 저희가 한국인 구조변이를 구축해 갈 때쯤 사이언스지에 T2T genome assembly 관련 논문 5편 정도가 한번에 실리더군요. 이미 CHM13 을 참조서열로 고려하고 있었기 때문에 큰 문제는 없었지만 바빠지기 시작했던 것 맞는 것 같습니다.
이후 확실한 구조변이를 찾고 Annotation 하고 논문 틀을 만들고 추가 한국인 숏리드 데이터 및 공용데이터로 논문에 대한 증거를 만드는 작업을 했습니다. 사실 저는 데이터를 보는 사람, 분석하는 사람은 맞지만 생물학적 의견은 여러 박사님들과 교수님들께서 도와주셨습니다. 해당 구조변이가 어떤 의미를 갖을지 왜 변이가 생겼는지 수차례 미팅하고 세미나 했던게 지금 생각하니 그립기도 하네요. 이후, 꽤 과한 리비전을 받았나 싶었지만 결국 논문은 완성되었습니다. 사실 생명정보 연구를 하면서 이렇게 인간 유전체를 자세히 들여다본 것은 처음인 것 같고 많이 배웠습니다. 논문이 완성되기 까지 사실 많은 분들이 보이지 않는 곳에서 도움 주셨고, 특히, 양진옥 실장님, 김종환 박사님, 전종범 박사님, 임일권 박사님, 조광훈 선생님, 전연수 박사님, 함기옥 박사님, 김지민 박사님 그리고 지금은 아주대에 계시지만 논문 시작부터 끝까지 함께해주신 박지환 교수님을 포함해 모든 바이오빅데이터실원분들께 고맙다고 전하고 싶습니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁드립니다.
KOBIC은 한국생명공학연구원(KRIBB) 내에서도 가장 큰 규모의 센터 중 하나로, 국내 바이오 데이터 분석 분야에서 꽤나 독보적인 위치를 차지하고 있다고 봅니다. 건물도 아름답고, 연구 인프라는 국내 어디에서도 비교할 수 없을 만큼 잘 마련되어 있습니다.
현재 KOBIC(https://kobic.re.kr/)은 한국인 유전체 데이터 구축을 위한 국가통합바이오빅데이터구축사업을 비롯해 다양한 국책사업을 수행 중입니다. 바이오 데이터 통합 플랫폼인 국가 바이오 데이터 스테이션(K-BDS, https://kbds.re.kr)을 운영하여 국내외 연구자들이 바이오 데이터를 쉽게 이용할 수 있도록 지원하고 있고, 이와 함께, 소재자원은행은 BioOne 플랫폼(https://bioone.re.kr/)을 통해 바이오소재 정보 통합 서비스를 제공하고 있습니다. 아마 지속적인 인프라 확장과 관리로 생명정보분석분야에서는 국내 제일의 탄탄한 센터로 계속되지 않을까 합니다.
3. 연구 활동 하시면서 평소 느끼신 점 또는 자부심, 보람
이번 논문에서는 롱리드 시퀀싱 기반의 데이터를 처음 접하기도 했고 새롭고 신기한 부분이 많았습니다. 대학원때 나름 이것저것 많이 해보았다고 생각했지만 여전히 모르는 분야가 많았던 겁니다. 생물학적 지식뿐아니라, 시퀀싱 기술이라던가, AI 기술들은 끊임없이 발전하고 있어서 지속적인 공부를 해야 할 필요성을 느낍니다. 그럼에도, 여러 새로운 연구자 분들을 만나고 내가 했던 연구, 그분들이 했던 연구, 함께할 연구 등을 이야기할 때가 가장 재밌는 시간들인 것 같습니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
위에서도 잠깐 이야기했지만 지금 생각해보면 혼자서 하는 연구보다는 다른 분야의 여러 교수님들과 박사님들과 만나서 시야를 넓히는 게 중요한 것 같습니다. 지금은 센터 사업도 하고, 시간을 쪼개어 연구도 하면서 지내다 보니 가끔씩 대학원 시절 지도교수님과 열심히 연구했던 시절이 그립기도 합니다. 하지만 확실히 다양한 연구, 최신 트렌드들을 따라가려면 세미나, 학회 등에 참여하여 여러 연구자들이 어떤 연구들을 하는지, 함께 할 수 있는게 무엇이 있는지를 알아보면 훨씬 더 연구가 재미있어지고 풍부해 지는 건 틀림없습니다. 이번 논문때도 느꼈지만 연구를 하다 보면 나랑 잘 맞는(?) 연구자들을 만나게 되고 같이 연구를 한 후에도 또 다른 연구가 진행되고 이런게 선순환 되는게 바람직하지 않을까요.
5. 연구 활동과 관련된 앞으로의 계획이 있으시다면?
일단은 최근 생명연 박사님들과 롱리드시퀀싱 데이터들을 추가 생산하여 만든 한국인 Pangenome graph를 조만간 공개하려고 하고 있습니다. 더 앞으로를 생각해본다면 한국인 유전체 데이터도 분명히 쌓일 것이지만 세계 유전체 시장도 역시 살펴볼 필요가 있다고 봅니다. 이미 미국, 영국, 중국, 싱가포르 등 여러나라에서 국가수준의 유전체 데이터 생산 프로젝트는 시작된 지 오래고, 이번 논문에서 최신기술이라고 했던 롱리드시퀀싱데이터까지 각국의 국책 프로젝트에 포함시키고 있습니다. 아마 롱리드 기반 새로운 Pangenome 프로젝트들도 국가별로 조만간 구축되겠지요. 저는 당분간은 한국인 유전체 관련 사업이든 연구든 집중하지 않을까 합니다. 물론 당장은 국가통합바이오빅데이터구축사업을 통해 한국인 유전체 데이터를 잘 만들어드리는게 우선입니다. 그리고 방대한 WGS데이터가 앞으로 쌓일 텐데 이러한 데이터들을 빨리 공개해 여러 연구자들과 함께 재밌는 연구도 해보는게 바람입니다.
6. 다른 하시고 싶은 이야기들.....
국가통합바이오빅데이터구축사업은 규모가 워낙 크다보니, 생명연 내 직원분들까지 일당백으로 일을 해야 할 때가 많습니다. 전면에서 항상 발로 뛰어 주시는 정해영 센터장님부터 KOBIC 및 생명연분들, 과기부 이혜라 사무관님. 이외에도 매주 함께 고생해주시는 여러 부처, 사무국, 정책지정기관분들에게도 고마움을 전합니다. 끝으로 이제 막 첫걸음이지만 향후 길게는 2032년까지 국가통합바이오빅데이터구축사업(https://www.biobigdata.kr/)이 잘 진행될 수 있도록 국내 병원, 교수님, 연구원, 일반인분들도 모두 관심있게 봐주셨으면 좋겠습니다.
#한국인 유전체
# 롱리드 시퀀싱
# 구조변이
관련 링크
연구자 키워드
연구자 ID
관련분야 연구자보기
소속기관 논문보기
관련분야 논문보기