1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
전장 유전체 (whole genome sequencing; WGS) 기술이 보편화 되면서, 비 암호화 유전체 영역(noncoding genome)에서 발생하는 유전 변이(genetic variant)가 질병에 기여하는 정도를 직접적으로 측정할 수 있게 되었습니다. 해당 연구는 자폐성 범주 장애(autism spectrum disorder)로 진단 받은 사람들에게서 관찰되는 비 암호화 영역의 유전 변이들을 조사했습니다. 자폐성 범주 장애는 30년이 넘게 진행된 유전 역학 (genetic epidemiology) 연구들에서 유전력이 높게 관찰되었고, 이를 근거로 제2형 당뇨와 함께 유전학/유전체 연구가 현재까지 가장 많이 진행된 주제입니다. 이미 2000년대 중반부터 마이크로어레이(microarray)를 통한 5kb 이상의 복제수 변이(copy number variation)와 common variant 연구가 큰 규모의 코호트들에서 이뤄졌고, 동시에 지난 7년간 next-generation sequencing (NGS)을 바탕으로 한 엑솜 시퀀싱(exome sequencing) 연구들은 자폐성 범주 장애의 de novo variant 그리고 homozygous variant 등을 활발히 연구하였습니다. 이러한 결과를 바탕으로 자폐성 범주 장애의 유전적 조성(genetic architecture)을 이해하게 되었고 (Gaugler et al. 2014), 자폐성 범주 장애와 연관된 유전자 65개를 robust한 통계적 검정을 통해 산출 할 수 있었습니다 (Sanders et al. 2015).
해당 65개 유전자들은 임신 중기부터 3세 이전의 발달 과정과 prefrontal cortex와 cortical layer 5에서 높게 발현되는 시공간적 수렴(spatiotemporal convergence)을 보입니다. 이러한 양상을 더 잘 이해하고자, 전사 조절의 시공간적인 양상을 갖는 비 암호화 유전체의 역할에 주목하게 됩니다. 2014년 말, 사이먼즈 자폐증 연구 재단(Simons Foundation Autism Research Initiative)은 자폐성 범주 장애로 진단 받은 가족의 whole genome sequencing (WGS) 데이터 8천여명을 연구자들에게 공개하면서, 비 암호화 영역이 자폐성 범주 장애에 기여하는 방식에 대하여 이해하는 연구를 시작하도록 권장했습니다.
이 연구는 사이먼즈 재단의 WGS 데이터 2,076명을 이용하여, 비 암호화 영역에서 발생하는 유전변이들을 조사했습니다. WGS는 엑솜 시퀀싱과 다르게, 분석에 몇가지 어려움이 있습니다. 먼저는 데이터 사이즈입니다. 수천명의 WGS를 처음부터 끝까지 분석할 때 발생하는 데이터의 사이즈를 고려하면, 페타 바이트 규모의 공간을 필요로 하며, 분석 처리를 위한 엄청난 규모의 컴퓨팅이 요구됩니다. 따라서 저희는 아마존 클라우드를 이용한 파이프라인 개발에 많은 시간을 투자했고, 공동 연구자들이 이용할 수 있는 범용적인 토대를 마련했습니다. 또한 WGS 데이터의 유전 변이 탐색의 정확도를 높이고자, 당시 가능했던 모든 종류의 변이 탐색 알고리즘들을 이용했고 각 그룹들 간에 cross-validation을 시도했습니다. 해당 연구는 현재까지 이뤄진 가족 기반 WGS 중에서 변이 탐색 및 분석에 관하여 가장 포괄적이고 엄격한 접근입니다.
하지만 WGS 연구의 가장 큰 난제는 비 암호화 영역을 통해 설정하는 "가설들이 너무 다양하다는 것" 입니다. 엑솜 시퀀싱은 triplet codon이라는 강력한 사전정보(a priori)를 통해, loss-of-function, missense, synonymous라는 세가지 그룹으로 변이의 예측값을 나누게 됩니다. 그러나 비 암호화 영역은 이와 같이 아주 분명한 사전정보가 존재하지 않습니다. 따라서 지난 비 암호화 영역의 연구들은 전사(transcription) 정보에 관한 근사치를 후성유전학(epigenomics)적인 방법으로 예측하거나 혹은 비 암호화 영역의 기능을 추정하기 위한 종간 보존(conservation)을 조사했습니다. 이와 같은 노력들은 유효했지만, 비암호화영역에 대한 수 많은 가설들을 양산했고, WGS 연구들은 (연구자들이 선호하는) 일부의 가설만을 선택적으로 이용했습니다.
이에 따라, 해당 연구는 비암호화영역에 대하여 가능한 모든 가설들을 수합하고 다중 비교(multiple comparison)이 가능한 방식, CWAS (Category-wide association study)을 제안했습니다. 이러한 접근은 비 암호화 영역에서 파생된 수많은 가설들 간의 효과 크기(effect size)를 동시에 비교하면서, 단백질 암호화 유전체 영역 (coding genome)과 비 암호화 영역에 대한 직접적인 비교가 가능하게 됩니다. 이와 같은 접근이 없다면, 탐험적인 WGS 연구에서 찾은 결과들이 후속 WGS 연구들에서 재현될 지에 대한 근거가 없습니다. 동시에 유전체 연구의 결과가 animal study등의 후속 연구에서 효과적인 가설인지, 진단을 위한 연관성 검정에 대한 근거를 제공하지 못합니다. 이 우려는 이미 현실로 등장했습니다. 해당 연구에서 이용한 사이먼즈 재단의 WGS 데이터는 여러 연구자들에게 공개되었고, 동일한 데이터를 이용하여 학술지 Cell, AJHG, Science 등에 결과가 보고되었습니다. 각 연구들은 비 암호화 영역에 대한 한,두가지 가설들 만을 검정하고, 서로 다른 결론들을 도출하였고, 일부 그룹은 후속 연구에서 결과 재현성을 얻지 못했습니다.
이는 초기 90년대 말부터 2000년대 초반까지 이뤄진 association study에서 흔하게 관찰되던 현상입니다. 그 시기는 유전체 기술(e.g. microarray)의 발전에도 불구하고 분석과 검정을 위한 robust한 방법론이 부재했습니다. 이후 GWAS가 등장하고, 연관성 검정에 관한 여러가지 방법론이 등장하기까지 수년의 시간이 소요되었습니다. 이는 WGS라는 강력한 데이터 생산 툴이 나온 현재도 마찬가지입니다. 따라서 여러가지 코호트를 분석하고, 다양한 관점에 접근하는 논의가 충분히 이뤄져야 합니다. 해당 연구에서 제시한 다중 비교 방법론은 그에 대한 한가지 의견을 제시합니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁 드립니다.
저는 UCSF에 일차적으로 속해있지만, WGS연구는 자폐증 유전체 컨소시엄(autism sequencing consortium)을 통해 공동으로 진행하고 있습니다. 이 컨소시엄은 정신질환 유전학 컨소시엄 (Psychiatric Genomic Consortium)과 함께 자폐성 범주 장애 연구에 관한 세계 최대 규모의 연구 컨소시엄 입니다. 여러 기관들과 대학들이 참여하여, 매주 월요일 오후 컨퍼런스 콜을 통해 한 주 동안 얻은 결과들을 서로 논의합니다. 컨소시엄에 참여하는 10여명의 PI들과 공동 연구자들이 토론하며 여러가지 조언을 해주는데, 저와 같이 배우는 과정에 있는 사람들에게는 많은 도움이 됩니다.
특히 통계적 방법에 대한 유효성을 지속적으로 검증해주시고 조언해주신 Bernie Devlin과 Kathryn Roeder 교수에게 특별한 감사의 말을 전합니다. 이 두 분은 30년이 넘게 여러가지 유전학 컨소시엄들에 참여한, 통계 유전학자들입니다. 이들은 실험 디자인과 통계 방법의 엄격성에 대한 조언을 하고, 간혹 연구자들이 결과를 유리하게 해석하려는 시도에 대하여 엄중하게 경고합니다. 이 두 분은 대부분 논문의 저자 순서에서 중간에 위치하지만, 저는 이분들의 엄격하고 정직한 의견이 연구의 질을 향상시킨다고 생각합니다.
3. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
지난 한세기의 유전학 연구는 사회에서 일어나는 현상을 유전적 요인들을 이용하여 기술했습니다. 초기의 시도는 이론에 가까운 주장이었지만, 실증적인 데이터를 증명하기엔 한계가 있었습니다. 대표적으로 찰스 다윈이 관찰한 근교 약세(inbreeding depression)가 이에 해당합니다. 그러나 지난 20년동안 유전체 기술이 비약적으로 발전하고 동시에 데이터 공유가 확대되면서, 이론으로만 존재하던 주장들을 실증적인 데이터로 보여주는 연구들이 등장하고 있습니다. 유전학에 뜻이 있는 분들에겐 현재 이뤄지는 유전체 컨소시엄이 좋은 기회가 될 것이라고 생각합니다.
유전체 컨소시엄의 연구들은 데이터 분석에 많은 시간을 할애합니다. 따라서 높은 수준의 코딩 능력이나 통계 방법과 컴퓨팅에 대한 이해가 필요합니다. 그러나 이와 함께 가장 중요한 것은 유전학에 대한 너른 접근입니다. 현재 대규모 유전체 컨소시엄 연구들은 아이러니하게 수십년 혹은 한세기 이전에 존재하던 가설들을 검정하는 것으로 회귀하고 있습니다. 이유를 소고하자면, 앞서 언급한 것과 같이, 이전의 논의들을 실증적 데이터를 만나며 기술되기 때문입니다. 유전체 연구가 데이터 처리를 얼마나 효율적으로 하는가?에 대한 전산학적인 접근도 중요한 부분입니다. 그러나 현대 유전학/유전체의 고갱이는 관찰된 유전형이 집단에서 일어나는 현상(형질이나 질병 포함)을 어떻게/얼마만큼 기술하는가?에 대한 오래된 유전학 논의들에 있다고 생각합니다. 이에 대한 폭넓은 설명은 Statistical Genetics(2012; Benjamine Neale 외; Garland Science)에 잘 정리되어 있습니다.
4. 다른 하시고 싶은 이야기들....
연구를 지도해주신 UCSF의 Stephan Sanders 교수님과 MIT/Harvard Broad 연구소의 Michael Talkowski 교수님에게 감사의 말을 전합니다. 박사 후 연수 기간 동안, 긴 호흡으로 여러 연구들을 공동으로 작성한 동료 Donna Werling 박사에게 특별한 감사의 말을 전합니다. 연구자로 성장하는 데, 길섶에서 조언을 늘 해주시는 경희대 김광표 교수님과 서울대 최무림 교수님께 감사의 말을 전합니다.
마지막으로 이 연구는 수십명의 박사 후 연구원들과 학위생들이 참여했습니다. 우리는 Slack이라는 커뮤니케이션 툴을 열어놓고, 밤낮으로 토론하고, 서로가 작성한 코드를 서로 봐주거나 도움을 주며 연구를 진행했습니다. 수십명의 사람들이 원고를 작성하고 100여번에 가깝게 교정하며 진행한 이번 논문은 정말 잊을 수 없는 순간이 될 것 같습니다. 고되고 지루한 과정에서 서로가 서로에게 물음이 되는, 그리고 지적 자극이 되어, 서로를 격려할 수 있는 동료와 일한다는 것은 큰 행운입니다.