다양한 스토리를 담고 있는 연재를 만나보세요.
[당신의 논문 동료] 알아두면 유용한 여러 대사질환 유전체 포털들
Bio통신원(쿼카(필명))
1. 들어가며
GWAS (Genome-Wide Association Studies)는 유전체, 특히 특정 SNP(single nucleotide polymorphism)와 특정 표현형이 어떤 관련을 맺는지를 연구합니다. GWAS에 대한 소개를 논문의 글을 번역해서 소개하면 다음과 같습니다.
“GWAS는 여러 유전체에 걸쳐 수십만 개의 유전자 변이를 테스트하여 특정 형질이나 질병과 통계적으로 연관된 변이를 찾아냅니다. 이 방법론은 다양한 형질과 질병에 대한 무수히 많은 강력한 연관성을 생성했으며, GWAS 샘플 크기가 증가함에 따라 관련 변이체의 수는 꾸준히 증가할 것으로 예상됩니다. GWAS 결과는 표현형의 기본 생물학에 대한 인사이트 확보, 유전성 추정, 유전적 상관관계 계산, 임상적 위험 예측, 약물 개발 프로그램 정보 제공, 위험 요인과 건강 결과 사이의 잠재적 인과 관계 추론 등 다양한 용도로 활용됩니다.” (출처: https://doi.org/10.1038/s43586-021-00056-9)
동물 모델을 대상으로 연구를 하는 저는 항상 사람 데이터에 목이 말라 있습니다. 제가 하는 연구가 결국 사람의 생리 또는 병리를 설명해 주는 핵심 데이터이기를 바라죠. 하지만 사람 시료나 데이터를 얻는 것은 매우 어려운 일입니다. IRB 심의를 마친 연구기관 및 연구자의 협조가 반드시 필요하죠. 무엇보다 제가 원하는 때에 원하는 시료를 만들 수 있는 동물 실험과 달리 사람 시료는 제가 원하는 때에 적절한 시료를 얻는 것이 매우 어렵습니다.
2. Common Metabolic Disease Knowledge Portal, CMDKP
이러한 어려움을 극복하는 우회로가 있습니다. 제가 애용하는 공통대사질환 지식포털(CMDKP, https://hugeamp.org/)과 그 하위에 있는 2형 당뇨병 유전체 포털(type 2 diabetes data portal, https://t2d.hugeamp.org/)입니다. 이 포털에는 Nature, Nature Genetics, Genome Biol, The American Journal of Human Genetics와 같이 사람 유전체를 연구한 데이터들을 연구자들이 쉽게 접근하고 가공할 수 있게 모아놓았습니다. 유전자만 검색하면 유전자의 기능과 특성, 특정 SNP와 표현형과의 관계에 대한 plot, 그리고 특정 질병 또는 표현형과 관련된 SNP를 보여주는 Manhattan plot 등을 쉽게 볼 수 있는, 정말 유용한 사이트입니다.
이 데이터 포털에는 총 488개의 phenotype에 대한 GWAS 정보가 담겨 있습니다. 예를 들어 특정 SNP를 가진 사람들에게서 2형 당뇨병 유병률이 높은지 또는 낮은 지를 조사할 수 있습니다. CMDKP에서 다루는 488개의 표현형은 크게 심혈관(cardiovascular, https://cvd.hugeamp.org/), 뇌혈관(cerebrovascular, https://cd.hugeamp.org/), 수면장애(sleep disorder, https://sleep.hugeamp.org/), 1형 당뇨병(https://t1d.hugeamp.org/) 및 2형 당뇨병(https://t2d.hugeamp.org/)으로 나눌 수 있습니다. 각 질병을 위주로 보고 싶다면 Disease-specific portals에 들어가서 자료를 살펴보시면 됩니다. 이외에도 Neurodegerative disease (https://ndkp.hugeamp.org/), reproductive system (https://reproductive.hugeamp.org/), ocular (https://ocular.hugeamp.org/), autoimmune disease (https://autoimmune.hugeamp.org/), musculoskeletal (https://msk.hugeamp.org/), lung disease (https://lung.hugeamp.org/) knowledge portal이 있습니다. 그리고 특이하게도 지질소체 (lipid droplet)에 대한 정보를 다룬 lipid droplet knowledge portal (https://lipiddroplet.org/)도 있습니다. 자세한 사항은 그림 하단에 보이는 Association to function knowledge portal (https://a2f.hugeamp.org/)에 들어가시면 확인하실 수 있습니다.
3. 2형 당뇨병 포털
3.1. 유전자 🡺 표현형
저는 당뇨병, 그중에서도 2형 당뇨병에 관심이 많습니다. 그래서 흥미로운 유전자를 연구하게 되면 먼저 2형 당뇨병 지식 포털 (https://t2d.hugeamp.org/)에서 유전자를 검색합니다. 예를 들어 제가 항상 관심을 가지는 SREBF1 (SREBP1의 gene symbol)을 검색해 보겠습니다. SREBF1의 기능, gene ontology와 pathway에 대한 간단한 설명을 볼 수 있습니다. 그리고 아래쪽에는 HuGE Scores가 있는데, 이건 최근에 도입된 것으로 아직 저도 어떤 것인지 파악은 덜 되었습니다.
제가 가장 많이 보는 화면은 Common variant gene-level associations입니다. 아래 표에서 볼 수 있듯, 수십만 ~ 수백만 명의 데이터를 모아서 SREBF1 유전자 및 근방에 존재하는 SNP와 특정 표현형이 관계가 있는지를 보여줍니다. 다양한 곳에서 수행된 GWAS 데이터를 모은 것이기 때문에 sample size가 및 인종적 다양성이 매우 큰 장점을 지닙니다.
더 아래에는 tissue-specific gene expression이 나와 있습니다. GTEx data 뿐만 아니라 public RNA-seq 및 microarray data를 모두 모아서 SREBF1의 발현량을 보여주는 것 같습니다. 예컨대 adipose tissue에는 GTEx data, METSIM data 등이 합쳐져 있습니다.
그 아래에는 최근 발표된 논문에서 SREBF1이 특정 표현형에 미치는 영향을 보여줍니다. 발표된 논문을 기반으로 했기 때문에 정보의 출처 및 상세 분석에 용이할 것으로 생각됩니다.
지금까지는 SREBF1의 기능과 표현형을 참고하는 공부를 했다면, 이제는 실제 논문에서 사용할만한 데이터를 찾아보겠습니다. 즉, SREBF1의 SNP와 특정 표현형이 관련되어 있는 그림을 찾아볼 것입니다.
다시 위로 올라가서 Explore region을 클릭하면 위의 그림을 볼 수 있습니다. 기본적으로 SREBF1의 gene body에 존재하는 SNP와 표현형과의 관계를 보여줍니다. 여기에서 Expand region by를 클릭하면 upstream과 downstream의 SNP를 더 살펴볼 수 있습니다. 저는 ± 50kb를 눌러서 promoter/enhancer와 3’ downstream까지 살펴보겠습니다.
SREBF1 근방에 있는 SNP와 가장 관련이 있는 표현형은 당화혈색소인 HbA1c입니다. 이외에도 키, 혈중 TG 농도, 허리둘레 비율(BMI 조정) 등이 SREBF1 근방에 있는 SNP와 관련을 맺습니다. SREBF1가 lipogenesis에 중요한 유전자들의 발현을 촉진하는 전사인자임을 생각하면 혈중 TG 농도와 SREBF1가 관련을 맺는 것은 당연해 보이기도 합니다. 반대로 그만큼 SREBF1이 지질생합성에 중요한 유전자라는 뜻도 되겠지요.
아래에는 각 표현형과 관련된 Lead variant, 즉 가장 p value가 낮은(가장 유의미한) SNP가 보입니다. hg19 (GRCh37) genome build로 정의된 염색체 및 SNP의 위치, Reference allele, Alternative allele 및 dbSNP 정보가 나옵니다.
아래쪽에는 논문에 사용할만한 그림이 나옵니다. 기본적으로는 가장 p value가 낮은 표현형인 HbA1c와 SREBF1 근방 SNP 그림이 제공됩니다. 표현형을 변경하고 싶으시다면 Add Phenotypes에서 원하는 phenotype을 검색하시거나, 위쪽 표에서 원하는 phenotype 위에 마우스를 올리신 후 Add phenotype below를 선택하시면 됩니다.
마지막으로는 각 variant 들에 대한 상세한 설명이 제공됩니다. 대부분의 SNP들은 non-coding region에 존재합니다. 따라서 이 SNP가 정확히 어떻게 표현형에 영향을 미치는지 연구하는 것은 쉽지 않은 (사실 매우 어려운) 일입니다. 예컨대 저는 5’ UTR 또는 promoter의 SNP가 SREBF1의 발현을 조절하는지 여부를 알고 싶고, 실제로 SNP가 SREBF1의 발현과 관련을 맺는다면 그 기전은 무엇인지 연구하고 싶은 것이 제 목표입니다.
3.2. 표현형 🡺 유전자
지금까지는 유전자 🡺 표현형을 살펴봤다면, 이제는 반대로 표현형 🡺 유전자를 살펴보겠습니다.
관심 있는 표현형 위에 마우스를 올려놓으신 후 Go to phenotype page를 클릭합니다. 여기서 저는 Waist-hip ratio adj BMI를 클릭해 보겠습니다.
표현형 페이지의 첫 그래프로 Manhattan plot이 우리를 반겨주고 있네요. 6번 유전자의 SNP들이 waist-hip ratio와 가장 관련을 맺는 것으로 보입니다.
그 아래쪽에는 Manhattan plot에서 가장 높은 위치를 차지한 SNP부터 내림차순으로 정보를 보여줍니다. WNT signaling에 중요한 RSPO3의 intron variant가 가장 높은 위치를 차지한 것을 볼 수 있네요. 제가 한창 피하지방과 내장지방의 크기 증가에 대해 연구할 때는 이 유전자 목록 전체를 다운받아서 하나하나 다 살펴봤습니다. 그때 눈에 띄었던 것이 WNT 관련 유전자들이었고, 특히 WNT2와 downstream 유전자인 CCND1이 waist-hip ratio와 관련을 맺는 것에 흥미를 가졌었습니다.
아래에는 데이터셋의 출처가 표기되어 있습니다. 2형 당뇨병 유전학 연구는 UK Biobank의 도움이 정말로 큽니다. UK Biobank에 항상 감사해 하고 있습니다.
4. Exome 연구 - genebass
T2D portal이든 CMDKP든, 대규모의 GWAS 연구는 SNP 연구이고, 이는 대부분 non-coding region에 대한 정보를 담고 있습니다. 그렇다면 exon에 존재하는 SNP에 대한 연구는 어디서 찾을 수 있을까요? 이에 대한 해답을 주는 사이트를 소개합니다. https://app.genebass.org/
Genebass는 UK biobank 시료를 대상으로 exome sequencing을 수행한 약 40만 개의 exome에 대한 데이터를 올려놓은 사이트입니다 (논문 출처: Systematic single-variant and gene-based association testing of thousands of phenotypes in 394,841 UK Biobank exomes. Cell Genomics, (2022). 출처: https://doi.org/10.1016/j.xgen.2022.100168). UK Biobank에서 제공하는 약 4500 가지의 phenotype과 exon SNP에 대한 정보가 제공됩니다.
예를 들어 waist-hip ratio adj BMI를 살펴보겠습니다. waist라고 검색을 하니 다양한 표현형 정보가 제공되는 것을 볼 수 있습니다. 이 중에서 저는 WHRadjBMI를 선택했습니다.
LoF, 즉 loss-of-function mutation이 WHRadjBMI와 관련을 맺는 SNP 들을 보여줍니다. 데이터는 지질소체 (lipid droplet)를 형성하는 주요 단백질인 PLIN1과 PLIN4가 망가졌을 때 WHRadjBMI가 변할 가능성을 보여줍니다. 그리고 이화작용을 조절할 수 있는 PDE3B, 동화작용에 중요한 INSR, 발생과정에서 중요한 HOXC9 등의 유전자가 눈에 띕니다. 이 유전자의 LoF가 무엇인지, 그리고 어떤 작용을 하는지는 Details를 눌러보면 볼 수 있습니다.
이 그래프들을 어떻게 해석하는지는 저도 공부가 필요합니다. 일단 여기서 제 역할은 이러한 사이트를 소개하고 같이 공부할 사람들을 찾는 일이 아닐까 합니다.
5. Rare SNP 연구: https://gnomad.broadinstitute.org/
Deep Exome sequencing을 통해 사람 단백질의 rare mutation을 모두 검출한 데이터를 제공하는 포탈입니다 (출처: https://doi.org/10.1038/s41586-020-2308-7).
SREBF1을 검색하면 다음과 같은 여러 SNP들을 볼 수 있습니다. Deep exome sequencing을 했기 때문에 기존에 잘 연구되지 않은 SNP들도 검색할 수 있습니다. 흥미롭게도 p.Arg557 ~ p.Leu560이 pathogenic 하다는 의학적 소견(?)이 나왔습니다.
연결되어 있는 ClinVar 사이트에 가보니 이 region이 가보면 IFAP Syndrome과 관련되어 있다고 나오네요.
이 단백질 region이 어떤 곳인지 조금 더 보기 위해 다음 글에서 소개할 Human Protein Atlas (https://www.proteinatlas.org/ENSG00000072310-SREBF1/structure)에 있는 Structure를 통해 단백질 구조를 보았습니다. 이 region은 S1P와 S2P에 의해 잘리는 사이트의 중간에 있는 것을 볼 수 있었습니다. S1P와 S2P에 의해 단백질이 잘리는 사이트가 중요한 것은 충분히 짐작할 수 있는데, 그 중간에 있는 단백질 부위가 심각한 영향을 주는 것은 굉장히 흥미롭네요. 이 region이 SREBF1의 기능과 조절에 있어 어떤 영향을 주는지 이제 공부해봐야겠습니다.
6. 나가며
사실 제가 직접 사람 시료를 분석하지 않는 한, 유전체 전문가가 아닌 저로써는 이러한 데이터를 사용하는 것은 연구의 직접적인 도움이 되지 못하는 한계가 있습니다. 그럼에도 불구하고 제가 이러한 데이터베이스를 꾸준히 접속하는 것은, 제가 연구하는 유전자나 신호전달경로가 특정 표현형에 중요하다는 나름의 확신을 얻기 위해서입니다. 위에 언급하였듯 이전 연구에서 저는 Wnt 경로가 GWAS 데이터셋에서 유의미하게 waist-hip-ratio와 관련을 맺는다는 것을 보고 제 실험 결과에서 얻은 여러 후보들 중 Wnt를 먼저 검증해 보기로 생각한 적이 있습니다. 그리고 실제 실험 결과도 Wnt가 중요하다는 것을 뒷받침해 주었습니다(출처: https://doi.org/10.1016/j.cmet.2021.11.014). 또 제가 lipogenesis 관련 글을 작성할 때도 도움이 되었습니다. 그 글을 쓸 때 많은 사람들이 'lipogenesis가 실제 지질대사에 미치는 영향이 적은 것 아니냐, 다른 지질대사 경로가 지질항상성에 훨씬 더 중요하다'라는 이야기를 꽤 많이 들었었습니다. 그때 GWAS로 lipogenesis 관련 유전자들과 지질 항상성 표현형과의 관계를 살펴보았는데, 어쩌면 제 예상보다 훨씬 더 lipogenesis가 지질 항상성과 큰 관련을 맺는 것을 보고 저조차도 lipogenesis의 역할을 과소평가했다는 생각을 했었습니다. 그래서 열심히 GWAS 자료를 표로 정리해서 논문으로 발표했습니다 (출처: https://doi.org/10.1038/s42255-023-00786-y). 부족하지만 제 글이 여러분의 연구를 조금이나마 풍요롭게 만드는 팁이 되기를 희망하며 글을 마치겠습니다. 감사합니다.
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다.
[기사 오류 신고하기]