한빛사 인터뷰
1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
최근에 유전학자들은 많은 수의 전장 유전체 연관성 분석(GWAS)을 진행했고, 이 결과를 통해 질병 또는 특성과 연관된 다수의 유전자위(associated loci)를 식별했습니다. 여기서 식별된 유전자위들의 일부는 여러 특성이나 질병에 동시에 연관성을 가지고 있는데, 이를 다면발현유전자위(pleiotropic loci)라 부릅니다. 다면발현유전자위의 식별은 임상적 측면에서 큰 가치를 지닙니다. 이들은 여러 질병의 공동의 약물표적(drug target)이 될 수 있으며, 인간의 생리적 기작이 공유되는 방법을 이해하는데 중요한 정보를 줍니다. 이러한 배경에서 진행된 선행연구에서, 다면발현유전자위들의 효과크기는 특성(또는 질병)들 사이에 많은 이질성(heterogeneity)을 가지고 있다는 것이 발견되었습니다. 다면발현유전자위를 식별할 수 있는 통계적 방법론을 개발하기 위해서는 이들이 가지는 이질성을 정교하게 모델링하는 것이 필요합니다.
다면발현 유전자를 식별하는 방법론인 플레이오(PLEIO)는 전장 유전체 연관성 분석에서 얻어진 요약통계를 입력으로 사용하여 다면발현유전자위가 가진 이질성을 특성 사이의 유전율(heritability)과 유전적 상관관계(genetic correlation)로 모델링 합니다. 여기서 유전율과 유전적 상관관계는 각 유전자위가 가진 유전적인 효과의 크기와 방향의 기대치를 설명합니다. 아래에는 제안된 통계모델을 사용하기 위해 추가적으로 고려해야할 점들에 대해 설명합니다. 첫번째로, GWAS 요약통계를 플레이오 분석의 입력으로 사용하기 위해 data normalization를 진행했습니다. 이것은 연관성 분석에서 얻어진 효과크기(effect sizes; log odd ratio와 유사)의 선형변환을 적용하여 사용된 샘플의 유전자형(genotypes) 및 표현형(phenotypes)이 표준정규분포(standard normal distribution)를 따르도록 만듭니다. 이러한 방법으로 특성(요약통계)들간 존재하는 차이들을 설명할 수 있습니다. 다음으로 각 특성 사이에 존재하는 환경적(유전적 요인이 아닌) 상관관계를 설명할 수 있도록 모델을 수정했습니다. 많은 경우 이러한 유형의 상관은 GWAS에 사용된 샘플의 중첩된 사용으로 생기는데, 이는 실제로 같은 사람이 두 연구에 동시에 참여해서 생기거나, 유전정보가(숨겨진 가족관계) 비슷한 연구참여자들이 여러 연구에 나뉘어 참여할 때 생기게 됩니다. 이를 적절히 고려하지 못하면 통계분석에 부풀려진 false positive를 만들게 됩니다. 마지막으로 만들어진 알고리즘의 최적화 과정이 필요합니다.
플레이오는 분산성분을 추정하는 로그우도비 통계치(log-likelihood ratio statistic)를 사용하는데 이 통계치는 귀무가설 아래 분포(null distribution)에 점근하는 함수식(asymptotic distribution)을 가지지 않습니다. 한번의 플레이오 분석을 진행하기 위해 필요한 통계검사의 수를 백만번으로 가정할 때(백만개의 유전자위에 대한 검사), 이 분석에서 통계치의 정확한 유의성(p-value) 을 구하기 위해 사용되는 Monte Carlo sampling 등의 샘플링 방법은 분석에 필요한 시간을 크게 증가시킵니다 (적어도 한 분석에 10일이 필요함). 분석 시간을 줄이기 위한 방법으로, 플레이오는 eigen decomposition과 importance sampling등의 수학적 기교를 사용합니다. 여기서 전자는 로그우도비 통계치를 구하는데 필요한 시간을 줄여주고, 후자는 통계치의 유의성을 계산하는데 필요한 simulation 에서 사용될 샘플의 수를 크게 줄여줍니다. 결과적으로 일반적인 분석의 시간보다 적어도 1000배 빠르게 분석을 진행할 수 있고, 이 최적화 알고리즘의 효율은 특성의 수에 선형적(8% per number of GWAS sumstats)으로 증가합니다.
통계 유전학 분야에는 방법론을 개발하는 재능을 가진 연구자들이 많습니다. 그래서, 학문적 관심이 높은 연구주제에 대한 연구자들의 경쟁이 치열합니다. 플레이오는 연구기간 중 Nature Genetics에 성능이 뛰어난 경쟁 방법론(MTAG)이 발표되는 어려움 속에서 만들어졌습니다. 지난 3년간의 연구가 좋은 연구성과로 마무리 되어 진심으로 만족하고 있습니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁 드립니다.
방법론에 대한 기초는 울산의대 재학 중에 지도해주신 한범 교수님과 같이 도출했습니다. 이 후, 서울의대 서울대 유전체 생물정보학 연구실에서 박사과정을 진행하며 나머지 연구들을 진행했습니다. 서울대 유전체 생물정보학 연구실은 울산의대에 재직중이던 한범교수님이 2017년 서울의대에 임용되어 가시며 만들어졌습니다. 연구실에서는 다양한 오믹스(유전체, 전사체, 후성유전체, 단백질체, 대사체)데이터를 분석하는데 필요한 여러 방법론들을 개발하고 있습니다.
3. 연구활동 하시면서 평소 느끼신 점 또는 자부심, 보람
제가 개발해온 그리고 개발할 방법론들이 앞으로 진행될 연구에서 임상적으로 의미가 있는 결과를 만들어 인간 질병 치료의 가능성을 열어 주길 바라고 있습니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
다양한 생명정보학 분야들 중 방법론 개발에 관심이 있으시다면 통계 및 컴퓨터 프로그래밍에 대한 깊은 이해가 필요하고, 이를 생물학적 물음에 적용할 수 있으셔야 합니다.
5. 연구활동과 관련된 앞으로의 계획이 있으시다면?
최근에는 여러 오믹스 데이터를 분석하여 임상에서 도움이 되는 정보를 얻어내는 다양한 방법론을 개발하는 중입니다.
6. 다른 하시고 싶은 이야기들....
경제적으로 어려웠던 시기에 장학금으로 학업과 연구에 온전히 집중할 수 있게 도움을 주신 아산장학재단의 관계자 분들과 정몽준 이사장님께 이 지면을 빌어 깊은 감사의 말씀을 드립니다. 재단이 추구하는 이념처럼, 앞으로 이웃과 사회에 이로움을 주는 연구들을 계속 진행하겠습니다. 곁에서 항상 제가 더 나은 연구자가 될 수 있도록 지도해주신 한범 교수님께 진심으로 감사드립니다. 마지막으로, 저를 인도하시고 귀한 깨달음을 주시는 주님께 감사드립니다.
관련 링크
연구자 키워드
관련분야 연구자보기
소속기관 논문보기
관련분야 논문보기
해당논문 저자보기