[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보  |  e브릭몰e브릭몰 회원가입   로그인
BRIC홈 동향
실험복 제공
스폰서배너광고 안내  배너1 배너2 배너3 배너4
전체보기 뉴스 Bio통신원 Bio통계 BRIC이만난사람들 웹진(BioWave)
BRIC View
최신자료 동향리포트 학회참관기 리뷰논문요약 BRIC리포트 외부보고서
질병 연구를 위한 오믹스 통합 분석
질병 연구를 위한 오믹스 통합 분석 저자 박상민 (KAIST 바이오및뇌공학과)
등록일 2019.07.16
자료번호 BRIC VIEW 2019-R17
조회 2903  인쇄하기 주소복사 트위터 공유 페이스북 공유 
요약문
유전체학(genomics), 전사체학(transcriptomics), 단백질체학(proteomics), 대사체학(metabolomics)과 같은 오믹스(omics) 기술의 발전은 매우 상세한 분자 수준에서 환자맞춤형 의학(personalized medicine)을 가능하게 만들었다. 이들 기술은 임상시험에 들어가기 시작하면서 점차 의학적 발전에 기여하고 있다. 그러나 각각의 기술 단독으로는 인간 질병에 대한 전체적인 생물학적 복잡성을 포착할 수 없다. 보다 포괄적인 관점을 제공하기 위해 이러한 기술들을 통합하는 접근법이 등장했다. 본 총설 논문에서는 다양한 유형의 데이터를 결합한 분석의 잠재력과 이 접근방식이 가진 인간의 건강과 질병에 대한 유용성을 논의한다. 우리는 암과 같은 질병이나 장기이식에 필요한 생물학적 지식을 이해, 진단, 치료하기 위한 데이터 통합의 예를 제공한다. 마지막으로 통합 오믹스의 임상적 구현에 대한 기술 및 기타 과제에 대해 논의한다.
키워드: Omics, Bioinformatics, Genomics, Transcriptomics, Proteomics
분야: Bioinformatics, Genomics, Proteomics

본 자료는 Integrative omics for health and disease. Nat. Rev. Genet., 19, 299–310 (2018).의 논문을 한글로 번역, 요약한 자료입니다.

목차

1. 서론
2. 질병의 유전적 구조 분석
3. 인과관계 분석
4. 암
5. 결론


1. 서론

대규모 시퀀싱(sequencing) 및 질량분석법(mass spectrometry)과 같은 대량의 병렬 처리 기술의 비용이 급속하게 감소하면서, 임상 연구 및 실습에서도 이러한 기술들의 사용이 가능하게 되었다. 엑솜(exome) 혹은 게놈(genome) 시퀀싱은 이미 진단에 도움을 주기 위해 사용되고 있다. 특히 암과 같은 특수한 질병의 발병과 치료 정보를 얻으려는 노력이 계속되고 있다. 또한 건강한 개인을 대상으로 질병의 예측 모델을 만들기 위해 수많은 기업들이 유전자 발현 및 게놈 전반에 걸친 유전적 프로파일 연구에 집중하고 있다. 게놈 전반에 대한 연관성 연구는 일부 질병의 위험 인자를 식별하는 데 성공했다. 그러나 많은 경우에는 아직까지 질병의 원인이 되는 유전자를 식별하지 못했다. 여기서 다른 오믹스 기술은 그 질병의 정확한 병리생리를 볼 수 있는 유용한 기회를 제공할 수 있다. 단백질체와 같이 표현형에 더 가까운 데이터를 생성하는 실험은 비용이 많이 들 수 있고, 아직 총체적인 분석이 어렵기에 질병의 인과적 원인을 구별이 어렵다는 과제가 남아 있다. 게다가 마이크로바이옴(microbiome)과 같은 오믹스 데이터도 질병의 바이오마커로 사용될 수 있다. 따라서 개별 기술로는 인간 질병으로 이어지는 분자 사건의 복잡성을 포착할 수 없다.

서로 다른 기술을 결합하여 인간의 유전적 표현형과 질병에 대한 전체적인 그림을 만들어 질병을 진단하고 치료하는 데 도움을 준다면 아주 이상적일 것이다. 그러나 멀티오믹스(multi-omics) 데이터의 구현은 아직까지 생물정보학 분야의 도전적인 과제이다. 특히 상이한 데이터 집합을 표준화하여 결합하기 위해서는 새로운 분석 및 통계 방법이 요구된다. 또한 이 분야는 분자 수준의 복합적 작용이라는 난제를 다루어야 하며, 그에 따라 임상적 활용으로 기여할 수 있는지 여부를 고려해야 한다.

본 총설 논문에서는 통합 오믹스를 활용하여 질병을 진단하고 치료하는 것뿐만 아니라 건강 관리에 도움을 줌으로써 의학 전반에 영향을 미칠 수 있는 방법을 설명한다. 우리는 다양한 질병에 대한 임상적 응용과 임상적 응용에 대해 논한다. 그리고 암 진단과 치료에 다양한 수준의 오믹스 기술을 사용하는 사례를 살펴본다. 전체적으로, 우리는 질병의 메커니즘에 대한 통찰력을 제공하기 위해 한 기술이 다른 기술의 단점을 보완할 수 있도록 여러 데이터를 통합하는 것의 이점에 대해 논한다. 또한 우리는 여러 기술의 데이터를 최적으로 결합하고 해석하는 데 있어 당면한 과제와 인간 질병의 메커니즘을 해명하는 데 성공한 몇 가지 유망한 예에 대해 논의한다.

2. 질병의 유전적 구조 분석

당뇨, 비만, 정신분열증, 자폐증과 같은 대부분의 일반적인 질병들은 복잡하고 여러 유전적 요인들과 환경적 요인의 조합의 결과물이다. 지금까지 수천 개의 게놈 좌위(loci)가 인간의 질병과 상당히 연관되어 있다고 밝혀졌다. 그러나 일단 진정한 의미의 연관성으로 확립되면, 서로 상호작용하는 유전자들이 그 질병의 분자 병리학에서 어떤 역할을 하는지 이해할 수 있어야 한다. 이를 위해 네트워크 분석 및 과발현 분석(enrichment analysis)을 포함한 다수의 오믹스 데이터 세트를 분석하는 여러 가지 방법이 등장했다.

2.1 네트워크 분석

다수의 데이터 유형을 통합하여 질병 유전자의 검색 공간을 좁히고 질병의 원인 메커니즘을 식별하는 데 사용할 수 있다. 구체적으로는 단백질-단백질 상호작용, 규제 및 공동표현 네트워크를 포함한 네트워크 모델이 질병 유전자와 경로에 우선순위를 정하고 식별하는 데 유용한 기술임이 여러 연구를 통해 입증되었다. 이러한 네트워크는 SNP (single-nucleotide polymorphism) 또는 유전자 발현 데이터를 포함한 모든 게놈 규모의 데이터와 함께 사용되며, 특히 적은 빈도로 변이가 나타나는 유전자와 질병의 연관성에 대한 위상학적 특성을 조사할 수 있다. 유전자 변이(variation) 데이터의 경우 SNP를 영향을 받는 유전자에 매핑하는 데 어려움이 존재한다. 크론 질환의 면역 반응 관련 유전자 NOD2처럼 변이의 효과가 명백한 경우도 있으나, 대부분의 경우 변이의 영향은 모호할 수 있다. 그리고 SNP를 유전자와 같은 그룹으로 분류하여 분석하는 경우에도 연결 불균형 패턴은 반드시 다루어져야 한다.

이러한 어려움에도 불구하고 네트워크 분석은 인간 질병에 대한 성공적인 통찰력을 제공한다. 예를 들어 자폐 스펙트럼 장애(autism spectrum disorder, ASD) 환자의 단백질-단백질 상호작용 네트워크에서는 이전에 ASD에 의해 유발된 유전자와 높은 수준의 연결성을 가진 유전자가 풍부하게 존재한다. 이처럼 분석 결과로 나타난 네트워크에서 허브 유전자를 찾아내어 그 기능적 영향을 제안하거나, 이전에 질병과 관련되었던 유전자들과의 관계를 통해 질병 유전자 중에서 우선순위를 정하는 메커니즘을 제공한다.

또한 유전체, RNA-seq, 전사체 데이터를 통합한 최근 두 가지 연구는 자폐증에 관련된 새로운 유전자와 복합체를 식별하고 그 기능을 특징지었다. 특히 단백질-단백질 상호작용 네트워크를 분석한 결과, 자폐증에 관련되어 있다고 알려진 유전자들이 많이 포함된 모듈을 발견할 수 있었다. 이들과 상호작용하는 유전자의 공동체에서는 복제 수 변이 및 기존 자폐증 사례에서 보기 드문 유전자 변이도 발견되었다. 이 모듈은 시냅스 전달에 관여하는 유전자들이 풍부하게 포함되어 있었다. RNA-seq 데이터는 ASD를 가진 많은 개인이 대조군보다 작은 뇌량(corpus callosum)을 가지고 있다는 관찰 결과에 분자적 설명을 제공하였다. 그중 하위 모듈의 많은 유전자들이 ASD를 가진 환자의 뇌량에서 다르게 발현되었다는 것을 밝혀냈다. 마찬가지로 자폐증 환자의 희귀한 변형을 단백질 복합체에 매핑한 결과, HDAC(histone deacetylase) 염색질 리모델링 복합체와 기타 단백질 복합체를 포함한 자폐증에 관련된 새로운 단백질과 새로운 분자 기계가 밝혀졌다. 이처럼 단백질 상호작용 데이터를 WGS (whole-genome sequencing) 및 WES (whole-exome sequencing) 데이터와 통합하면 자폐증, 제2형 당뇨병, 심장병 등 중요한 질병에 대한 새로운 통찰력을 제공할 수 있다.

 

upload_image
그림 1. 희귀 질환을 가진 환자군과 관련된 인과적 변이를 진단해낼 수 있는 멀티-오믹스 분석 방법

 

2.2 인리치먼트 분석

최근에는 DNA에서 생리학으로의 정보가 전달되는 총체적인 메커니즘을 이해하기 위해 수많은 대규모 인리치먼트(enrichment) 분석이 이루어지고 있다. 단백질-코딩(coding) 변이는 많은 형질에 기본적으로 나타나며, 이와 같이 특징에 대한 GWAS (Genome Wide Association Study) 분석으로 관련 좌위를 밝힐 수 있었다. 그러나 이 범주에 속하는 연관성은 극히 일부에 불과하다. 따라서 비코딩 조절관계 데이터와 기능에 대한 주석(annotation) 데이터를 질병 관련 데이터와 통합하는 것은 질병 유전자를 식별하는 데 유용할 수 있다. 특히 RNA-seq를 통한 유전자 발현 측정에 대한 평가는 물론 ChIP-seq 으로 밝혀진 유전자 발현을 통제하는 부위, 전사인자 결합 부위의 순서, 그리고 DNase-seq를 사용한 열린 염색질 부위에 대한 검출도 조직(tissue) 특이적인 유전자 조절 관계를 특징짓는 데에 중요한 역할을 했다. 질병 관련 변이 eQTL (expression quantitative trait loci)과 전사인자 결합 부위 사이에서 풍부하므로, 유전자 조절관계 신호에 따라서 다양한 메커니즘으로 질병이 작용할 가능성이 있다. 실제로 정신분열증과 관련된 108개 좌위에 대한 최근 연구에서는, 적어도 그 연관성을 부분적으로 설명할 수 있는 유전자 발현에 변화를 가진 20개 좌위를 정신분열증 질환의 증거로 제시했다.

최근에 GWAS 요약 통계와 기능 주석 데이터를 사용하여 코딩과 조절관계의 상대적 기여를 설명하여, 많은 유전적 공통 특성이 다수가 유전자 조절 영역의 변이에서 비롯됨을 시사하였다. 또한 많은 세포 유형별 풍부한 유전자를 새롭게 특징지었다. 그러한 인리치먼트 정보는 각각의 특징에 특정한 기능적 주석들의 가중치를 증가시킴으로써, 질병과 특징에 대한 새로운 유전자를 식별하는 데 사용될 수 있다. 아직까지 임상에서 실제로 적용된 사례가 많지는 않으나, 많은 질병의 병리학을 밝히는 데 있어 매우 귀중한 도구가 될 것이다.
 

3. 인과관계 분석

앞서 언급한 바와 같이 GWAS는 통계적으로 질병과 관련된 좌위를 식별하는 데는 성공했지만, 인과적 관계를 식별하는 경우는 거의 없다. 유전자 기능에 관한 주석 데이터와 같은 다수의 데이터 유형을 통합한다면, 특정 질병 관련 변이의 잠재적 기능에 대한 통찰력을 제공할 수 있다.
 

3.1 개인 간 간접 통합

형질(trait)과 관련된 변이의 인과관계를 확인하는 효율적인 방법은 생물학적 증거가 있는 후보 좌위들 중에서 인과 메커니즘을 정확하게 식별하기 위해 여러 개의 독립적인 데이터 집합을 사용하는 것이다. 이러한 과정은 GWAS에서 시작할 수 있으며, 그 후에는 기능적 후속 조치를 위해 게놈 전체에 걸친 유의한 좌위 집합을 분석한다. 구체적인 실험은 확인된 위치의 유형이나 질병의 유전적 구조에 따라 달라질 수 있다. 코딩 변형의 경우, 단백질 구조나 기능에 미치는 변이의 영향을 확인하는 후속 실험을 이상적으로 수행하여 인과관계를 입증한다. 비코딩 변이의 경우, 그 효과를 해석하기 더 어려운 경우가 많다. 하지만 ENCODE (Encyclopedia of DNA elements)와 같은 최근의 대규모 후생유전학 연구는 후속 실험을 위한 전사 인자는 물론 조절 메커니즘도 제안할 수 있다. 예를 들어 전신 홍반성 루푸스(systemic lupus erythematosus, SLE)와 관련된 변이에 대한 자세한 연구는 그 변이가 NF-κB (nuclear factor‑κB) 결합에도 영향을 미치고, mRNA와 단백질 수준 모두에서 TNFAIP3 (tumour necrosis factor‑α induced protein 3)의 발현과 관련이 있다는 것을 보여주었다.
 

3.2 개인 내의 직접 통합

다수의 이질적인 기술로 생성된 데이터를 결합하는 것은 생물학적 메커니즘의 계층들 사이에 연계를 만들 수 있다. 나아가 한 개인에서 다수의 오믹스 프로필을 결합하는 것은 생리적 표현형으로 이어지는 분자적 효과를 전체론적 관점에서 파악하는 강력한 도구가 될 것이다. 그러나 이러한 접근법은 동일한 개인에 대한 지속적인 관리와 기술이 필요하며, 따라서 지금까지는 비용 문제로 인해 분석 표본 크기가 제한되어 왔다. 한 개인을 7년 이상 추적한 연구에서 게놈 분석을 통해 제2형 당뇨병의 위험이 높아질 것으로 예측했으며, 이는 이후 전사체학, 단백질체학을 포함한 상세한 오믹스 분석을 통해 밝혀졌다. 특히 인슐린 신호 전달과 반응에 관여하는 유전자는 RNA-seq와 LC–MS/MS (liquid chromatography–tandem mass spectrometry) 프로테오믹스에 의해 밝혀졌다. 그 유전자의 발현 패턴은 당뇨병 수준에 따른 혈당 농도의 증감에 맞춰 변화하였다. 이러한 접근방식은 GWAS에 의해 식별된 질병 관련 유전자의 차등 발현과 같은 분자 사건의 진행을 따라 RNA와 단백질 수준 및 그에 상응하는 대사물의 차이로 이어질 수 있기 때문에, 여러 기능적 수준에 걸친 연결고리를 추적하는 데 유리하다.
 

4. 암

다중 오믹스 분석은 암 프로파일링, 진단 및 치료에 있어 이미 큰 영향을 미쳤으며 앞으로도 그 영향은 확대될 것이다. 앞서 논의한 네트워크 방법은 암의 유전적 메커니즘을 식별하는 데 효과적이다. 그러나 암에는 분석을 복잡하게 하는 특별한 요소들이 존재한다. 체세포 돌연변이(somatic mutation)를 알아내는 기술적 문제를 극복하더라도, 찾아낸 대부분의 돌연변이가 양성이며 암세포 성장을 촉진하지 않는다는 문제가 있다. 따라서 어떤 변이가 원인인지 또는 어떤 경로와 관련이 있는지 결정하는 것은 여전히 어렵다. 일부 암은 개인 간에 유전적 돌연변이가 비슷하지만, 같은 암종 내에서도 여전히 높은 수준의 다양성이 존재하며, 이는 예후와 치료법의 차이로 이어질 수 있다.
 

4.1 발암 유전자 돌연변이 탐색

발암 유전자에 존재하는 변이를 식별하는 일반적인 과정은 여러 암에 대한 WGS 분석 결과를 활용하는 것이다. 암에서 공통적으로 많이 나타난 변이의 경우 암에 기여하는 기능을 가진 돌연변이일 가능성이 높기 때문에, 기능적 데이터를 중첩하여 분석하는 것은 원인 유전자를 찾는 우선순위를 정하는 데 도움이 된다. 예를 들어 CNV (copy number variation), 유전자 발현량 데이터, RNA-seq 데이터를 사용한 WES를 통해 EGFR–SEPT14 유전자의 융합(fusion)을 식별했으며, 이는 신경교종(glioma) 성장에 영향을 미치는 것으로 기능적으로 검증되었다. 유사한 기술을 사용한 다른 분석에서, 개인 내의 다중 전이 기초가 되는 프로세스와 핵심 돌연변이는 전이 과정 전반에 걸쳐 거의 유사한 것으로 나타나 단일 전이성이 다운스트림 분석에 충분함을 시사했다. 이와 같이 추가적인 오믹스 데이터를 사용하면 유전 데이터를 보완하여 기능적으로 관련되는 인과적 변이들에 대한 유전적 변동의 범람을 필터링할 수 있는 메커니즘을 제공한다.
 

4.2 암의 분자적 특징

발암 유전자 돌연변이를 확인하는 것 외에도 여러 종류의 오믹스 데이터는 개별 암에서 활성 상태인 생화학 경로를 밝히고 이를 유형으로 분류하는데 사용될 수 있다. 특히 비코딩 돌연변이는 그 간접 효과를 특성화하기 어렵다. 따라서 환자 내에서 유전자 검사를 통해 강력한 암 유발 돌연변이 후보가 감지되지 않더라도, 다른 어떤 신호전달경로를 치료 대상으로 할지를 확인하는 데 귀중한 도구가 될 수 있다. 예를 들어 전사체학의 군집과 DNA 메틸화 패턴이 다양한 암의 하위 유형의 예후를 예측하는 데 사용되었다. 최근 CPTAC (Clinical Proteomic Tumour Analysis Consortium)에서 수행된 세 가지 연구는 단백질 발현량에 기초한 대장암, 난소암, 유방암의 암 하위 유형을 식별하기 위해 단백질체 접근법을 사용했다. 그 결과 단백질체 데이터가 유전체 데이터와 경향성이 비슷하기는 하지만 상관관계가 동일하지 않다는 것이 밝혀져, 데이터 유형별로 서로 다른 특징적인 정보를 포함하고 있다는 것을 보여주었다. 이 연구들은 단백질의 변화로 바뀌는 뚜렷한 유전적 과정을 입증했다. 마지막으로 영상정보와 오믹스 정보의 통합은 암 진단과 예후에서 중요한 역할을 할 것으로 예상된다.

유전자 발현을 조절하는 비코딩 영역의 연구에서 이룬 최근 발견들은 암의 특성을 이해하는 데 점점 더 가치가 있게 되었다. 조절 관계 정보의 참조 데이터 집합과 TCGA (The Cancer Genome Atlas)의 WGS 데이터를 통합한 연구에서는 암에 걸린 환자에서 돌연변이가 많이 분포한 조절 영역을 알 수 있었다. 이러한 경우에도 비코딩 영역의 인과적 유전적 변이는 여전히 정확히 파악하기가 어려우며, 변이들의 우선순위를 정하는 연구의 지속적인 필요성을 강조한다. 그럼에도 불구하고 동일한 암을 가진 개인 간에 공유하는 네트워크 구조는 서로 다른 예측과 치료 전략을 가질 수 있는 암 하위 유형을 알려줄 수 있다. 마지막으로 대사 변화에 대한 암 성장의 강한 의존성을 고려할 때, 대사학은 향후 암 진단이나 예후에도 중요한 역할을 할 가능성이 있다.

5. 결론

현재 오믹스 기술 중에 게놈 시퀀싱과 RNA-seq 정도가 기존의 임상시험보다 우수한 것으로 나타났다. 여전히 이러한 기술을 임상 실무에 통합하는 데에는 상당한 기술적, 규제적 장애물이 존재한다. 그러나 다수의 기술을 활용하면 건강과 질병에 대한 명확한 그림을 얻을 수 있기 때문에, 향후의 임상 사례에서는 이러한 기술의 통합이 일반적이 될 가능성이 있다. 영국 바이오뱅크(Biobank), Million Veterans 프로젝트 및 All of Us와 같은 최근 대규모 데이터베이스에서 생물학적 데이터를 수집하고 수백만 명의 개인에 대한 다중 계층의 오믹스 분석을 수행하고 있다. 이들은 앞으로 인간 질병에 대한 깊은 통찰력을 제공하고, 추가 연구와 임상 적용을 위한 귀중한 참조 데이터베이스 역할을 할 것이다.

예측과 조기 진단 외에도 통합 오믹스의 역할은 질병 치료와 예후에 있어 점점 더 강력해질 것으로 예상된다. 전사체, 후성유전체(epigenome), 마이크로바이옴, 단백질체 및 이미징 데이터까지 모두 질병의 해석에 도움을 주어, 예후를 용이하게 하고 그에 따라 적절한 치료를 유도한다. 암에서 종양-정상 쌍의 DNA와 RNA 배열을 통해 변환과 유전자 발현 서명이 확인되었고, 이는 질병 퇴행을 초래한 표적 치료법을 제안했다. 미래에는 다중 오믹스 데이터 측정으로 수많은 질병의 예후와 관련성이 밝혀질 것이다. 이러한 데이터 기반 패러다임은 의학 연구를 위한 강력한 도구가 될 가능성이 있으며, 임상 진단과 치료를 용이하게 할 것이다.

 

  추천 2
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
Citation 복사
박상민(2019). 질병 연구를 위한 오믹스 통합 분석. BRIC View 2019-R17. Available from https://www.ibric.org/myboard/read.php?Board=report&id=3277 (Jul 16, 2019)
* 자료열람안내 본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다. 내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(member@ibric.org) 바랍니다.
 
  댓글 0
등록
목록
(주)루미나노
위로가기
동향 홈  |  동향FAQ  |  동향 문의 및 제안
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의 member@ibric.org
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
머크