한빛사 인터뷰
1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
사람의 6번 염색체 6p21 부근의 약 3~5Mb 범위의 영역에는 Human Leukocyte Antigen(HLA) 유전자들이 위치하고 있습니다. 이 HLA 유전자들은 Major Histocompatibility Complex(MHC, 주조직 적합성 복합체) 단백질을 인코딩하며 사람의 면역 시스템과 아주 밀접한 관계를 이룹니다. 예를 들어, 이 MHC 단백질은 체내에서 self marker로써 self와 non-self를 구분하는 데 활용되기도 하며, Macrophage가 T-cell에게 antigen presentation을 할 때도 활용됩니다. 이렇게 사람의 면역 시스템에서 매우 중요한 역할을 하기 때문에 자가 면역 질환, 장기 이식, 바이러스 감염, 암 면역치료, 약물 반응 등 다양한 면역 관련 phenotype들과 연관되어 있습니다.
이렇게 다양한 면역 phenotype들과 연관되어 있는 HLA region에서 구체적으로 "어떤 유전자", "어떤 variant", 혹은 "어떤 amino acid position"이 연관되는지를 알아내는 것이 중요할 것입니다. 일반적으로 이에 대한 답을 구하기 위해서는 GWAS와 Fine-mapping 분석을 수행합니다. 하지만, HLA region에 GWAS와 Fine-mapping 분석을 수행하는 일은 매우 어렵습니다.
이는 HLA region의 두 가지 특성과 관련이 있습니다. 첫 번째로, HLA region은 여타 유전체 영역과 달리 매우 polymorphic(다형) 합니다. 예를 들어, HLA-A 유전자 locus의 경우 현재까지 발견된 allele(유전자형)만 수천 개에 달하며 이를 중복조합으로 계산해보면 이론상 약 천만여 개의 genotype이 가능합니다. 이렇게 극심한 polymorphism을 보일 경우 일반적인 기술로는 정확한 Genotyping이 힘들어지는 문제를 낳습니다. 실제로, Genotyping을 위해 가장 많이 활용되는 방법인 DNA microarray(SNP array)의 경우 HLA region 상에서는 intergenic SNP만 정확히 genotyping이 가능하며, Next Generation Sequencing(NGS)의 경우 HLA region의 reference genome이 완벽하지 않기 때문에 정확한 Genotyping이 불가능합니다. 현재로서는 Sanger sequencing에 기반한 HLA typing 혹은 NGS-based typing기법을 활용해야 하지만, 모두 가격이 상당히 높은 문제가 있습니다. 두 번째로, HLA region은 넓은 범위로 높은 수준의 Linkage Disequilibrium(LD)을 보입니다. 이렇게 될 경우 GWAS에서 True signal을 구분하기 힘든 문제 등이 발생하기 때문에 최대한 많은 수의 sample이 필요합니다. 실제로, HLA fine-mapping 분석을 위해서는 최소 수천여 명의 sample이 필요하다고 알려져 있습니다. 정리하면, 극심한 Polymorphism 때문에 sample 당 큰 Genotyping 비용이 필요할 뿐만 아니라 sample 수도 매우 많이 필요합니다. 이러한 이유 때문에 HLA fine-mapping 분석을 수행하는 일은 기본적으로 매우 어렵습니다.
이런 문제를 해결하기 위해 저의 지도 교수님인 한범 교수님께서는 박사 후 연구원 과정에서 SNP2HLA(http://software.broadinstitute.org/mpg/snp2hla/) 컴퓨터 알고리즘을 개발하셨습니다. SNP2HLA는 상대적으로 가격이 저렴한 GWAS SNP array 데이터를 input으로 하여 HLA region 상의 intergenic SNP과 reference data를 비교함으로써 HLA 유전자형 정보, amino acids, 그리고 SNP들을 imputation 해줍니다. 결과적으로, 비싼 HLA typing을 받지 않더라도 많은 sample들의 HLA 유전자형 정보를 확보할 수 있게 해주어 Large scale로 fine-mapping 분석을 가능하게 해줍니다. 이후, SNP2HLA는 전 세계적으로 많은 연구자들의 HLA 연구에 활용되었고 특히 자가 면역 질환의 strong한 causal variant들을 규명해냈습니다.
하지만, SNP2HLA도 아직 개선되어야 할 문제점들이 남아있었습니다. 첫 번째로 HLA imputation의 error rate가 3~6%로 Academic research 용으로는 충분하지만, Clinical research에 활용되기에는 아직 부족했습니다. 또, sample 수가 약 1만 명이 넘어갈 때 computation time이 크게 증가하는 문제가 있었고, 이 외에도 Rare HLA allele은 accuracy가 훨씬 낮은 점과 reference panel의 의존성 때문에 ethnicity가 다른 reference panel로 imputation 했을 때 accuracy가 대폭 감소하는 문제 등이 있었습니다.
이런 SNP2HLA의 문제점들을 해결하고자 한범 교수님께서는 CookHLA 프로젝트를 시작하셨고, 저도 이제 이 프로젝트에 참여하여 연구를 진행하였습니다. CookHLA는 앞서 언급한 문제점들을 잘 해결했을 뿐만 아니라 SNP2HLA의 장점들은 그대로 잘 상속한 새로운 HLA imputation method입니다. CookHLA는 (1) 최신 imputation engine을 도입함으로써 100만 명의 sample들에 대해서도 거뜬히 imputation 할 수 있게 되었으며, (2) Local embedding technique을 활용해 특히 polymorphic하기로 유명한 각 HLA 유전자의 exon 2, 3, 4영역의 polymorphism을 더 잘 반영할 수 있게 되었고, (3) Adaptive genetic map을 만들어 활용함으로써 Data specific한 LD structure를 반영할 수 있게 되었습니다. 결과적으로, CookHLA는 SNP2HLA와 비교하여 error rate을 약 2배 가까이 줄였으며 경쟁 method들보다 더 나은 성능을 보여주었습니다. Rare allele의 imputation 성능 또한 개선된 모습을 보여주었고, Ethnicity가 다른 reference panel을 활용할 때의 cross-imputation 성능 또한 향상됨을 확인하였습니다.
CookHLA가 성취한 accuracy는 앞서 언급한 Sanger sequencing에 기반한 HLA typing 기술과 비슷한 수준이기 때문에 임상 연구에서도 활용 가능할 것으로 전망됩니다. 일부 rare HLA allele은 clinical implication이 잘 알려져 있기 때문에 관련 rare allele 연구에도 기여할 수 있을 것으로 예상되며, African population과 같은 underrepresented population의 HLA 연구에도 이바지할 수 있을 것으로 전망됩니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁드립니다.
저는 서울대학교 의과대학 의과학과에 소속되어 한범 교수님의 유전체 생물정보학 연구실에서 통합과정을 진행하고 있습니다. 저희 연구실은 GWAS, 다양한 오믹스 데이터 분석 그리고 이와 관련된 통계 모델 기반 방법론 개발을 위주로 하고 있으며 Computing resource를 주로 활용하여 연구하는 dry lab입니다. 학생들은 한범 교수님과 함께 주제를 정해 프로젝트를 진행하게 되고 교수님께서는 학생들을 지도하는 데에 늘 관심을 가지고 애써 주십니다. 저희 연구실에 대한 더 자세한 정보는 홈페이지(http://hanlab.snu.ac.kr/)에서 확인하실 수 있습니다.
3. 연구 활동 하시면서 평소 느끼신 점 또는 자부심, 보람
개발에 참여한 메소드들이 다른 연구자들의 질병 연구, 진단, 치료 등에 활용되어 유의미한 결론을 도출하는 데 기여하기를 바라는 마음으로 연구하고 있습니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
도메인 지식으로는 유전학과 유전체학을 중점적으로 공부해야 합니다. 만약 알고리즘, 방법론 개발까지 염두하고 계신다면 통계/수학도 심도 있게 공부해 놓아야 하고(특히 통계학) 컴퓨터 프로그래밍 또한 어느 정도 능숙하게 하실 수 있어야 합니다. 프로그래밍 언어는 Python 혹은 R을 잘 다룰 수 있으면 좋고 Linux 시스템에 친숙해지셔야 합니다.
또한, 영어를 잘 준비해야 합니다. 사실 위에서 언급한 것들 통틀어 영어가 가장 중요할 수도 있습니다. 아무리 좋은 학술적 아이디어나 연구 결과도 결국 저널에 투고해서 최종 accept을 받아야 하는데, 영어로 글 쓰는 게 안되면 다른 사람들의 도움을 받지 않는 한 이게 절대 불가능합니다. 자신의 생각을 영어로 정리하여 논문 하나를 처음부터 끝까지 완성할 수 있어야 합니다. 직접 한번 경험해보니 절대 쉬운 일이 아니더라구요.
5. 연구 활동과 관련된 앞으로의 계획이 있으시다면?
CookHLA는 기본적으로는 SNP array 데이터를 input으로 활용합니다. 여기서 NGS 데이터도 활용할 수 있도록 CookHLA를 확장해보고 싶습니다. 더 나아가, HLA fine-mapping 분석과 관련하여 좀 더 advanced된 approach도 만들어 보고 싶고, 이를 바탕으로 HLA disease phenotype을 예측할 수 있는 Polygenic risk score도 개발해 보고 싶습니다. 추후 박사 과정을 잘 마무리하고 기회가 된다면 박사 후 연구원 과정에 도전하여 이와 관련한 더 심도 있는 연구에 도전하고자 합니다.
6. 다른 하시고 싶은 이야기들.....
늘 한결같이 학생 지도에 관심 가져 주시고 힘써 주시는 한범 교수님께 감사드립니다.
그리고 무엇보다도 공부에 온전히 힘쓸 수 있도록 늘 응원하고 신경 써주는 가족들에게 사랑한다고 전하고 싶습니다.
#Bioinformatics
#Genomics
#HLA Imputation
관련 링크
연구자 키워드
관련분야 연구자보기
관련분야 논문보기