[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 동향
웨비나 모집
스폰서배너광고 안내  배너1 배너2
전체보기 뉴스 Bio통신원 Bio통계 BRIC이만난사람들 웹진(BioWave)
BRIC View
최신자료 동향리포트 학회참관기 리뷰논문요약 BRIC리포트 외부보고서
길이가 긴 리드를 이용한 염기서열분석의 응용
길이가 긴 리드를 이용한 염기서열분석의 응용 저자 김준 (서울대학교)
등록일 2019.01.03
자료번호 BRIC VIEW 2019-R01
조회 1845  인쇄하기 주소복사 트위터 공유 페이스북 공유 
요약문
최근 다양한 방식으로 DNA를 가능한 길게 분석할 수 있는 방법이 발전하고 있다. 특히 리드(read) 길이가 긴 염기서열분석법이 빠르게 발전하고 동시에 저렴해지고 이를 다룰 수 있는 다양한 생물정보학 도구들이 새롭게 만들어지면서, 기존에 쉽게 접근하기 어려웠던 분야에 대한 문턱이 점차 낮아지고 있는 추세이다. 이번 논문에서는 긴 리드 길이 염기서열분석법을 이용한 다양한 활용법 중 유전체 이어붙이기(de novo genome assembly), 염색체 연결(chromosome scaffolding)과 빈 공간 메우기(gap filling), 구조 변이 발견과 분석(structural variation identification and analysis), 하플로타입 추정(haplotype phasing), 아이소폼 분석 및 유전자 정량화(isoform resolution and gene quantification), 후성유전 변화 곧장 분석(direct sequencing of epigenetic modifications) 등을 살펴보고 있다.
키워드: long-read sequencing, de novo genome assembly, structural variations, haplotype phasing, isoforms, direct sequencing
분야: Genetics
본 자료는 Piercing the dark matter: bioinformatics of long-range sequencing and mapping. Nature Reviews Genetics, volume 19, 329–346의 논문을 한글로 번역, 요약한 자료입니다.

목차

1. 먼 거리의 DNA 정보를 분석하는 데 쓰이는 염기서열분석법 종류 및 특징
2. 유전체 이어붙이기와 염색체 연결 및 빈 공간 메우기
3. 구조 변이 확인 및 분석
4. 하플로타입 추정
5. 아이소폼 분석 및 유전자 정량화
6. 후성유전 변화 곧장 분석
7. 앞으로 할 일


※참고: 본문에서 [ ]의 내용은 저자가 덧붙인 내용입니다.

1. 먼 거리의 DNA 정보를 분석하는 데 쓰이는 염기서열분석법 종류 및 특징

1) 팩바이오 SMRT 염기서열분석(PacBio single-molecule real-time sequencing)

리드 길이는 평균 10 kb 최대 100 kb로 짧은 길이의 리드보다 수 배쯤 비싸다. [이라고 하는데 실제론 같은 양의 데이터를 얻을 때 수십 배쯤 비쌉니다. 베이스당 품질은 더 떨어지고요.] 유전체 이어붙이기, 구조 변이 발견, 유전자 아이소폼 분석 및 후성유전 변화 확인에 쓰인다. 주로 삽입(insertion)으로 인한 리드 오류가 높고 얼라인먼트(alignment)와 오류 보정 알고리즘 향상 필요하다.

2) 옥스포드 나노포어 염기서열분석(Oxford Nanopore sequencing)

리드 길이는 10 kb 이상 최대 1 Mb로 짧은 길이의 리드보다 수 배쯤 비싸다. 유전체 이어붙이기, 구조 변이 발견, 유전자 아이소폼 분석 및 후성유전 변화 확인에 쓰이고, 주로 결실(deletion)이나 호모폴리머(homopolymer)로 인한 오류가 높으며 [팩바이오보다도 베이스당 오류가 훨씬 더 높습니다.] 얼라인먼트(alignment)와 오류 보정 알고리즘 향상 필요하다.

3) 10X 지노믹스 크로뮴(10X Genomics Chromium)

연관 리드(linked read) 이용 시 짧은 리드 끌어 모아서 100 kb까지 대충 추정 가능하다. 짧은 길이의 리드보다 좀 더 비싸다. 유전체 이어붙이기 및 염색체 연결, 하플로타입 추정, 10 kb 이상의 큰 구조 변이 발견 등에 쓰이고, 100 kb 전체 염기서열분석이 되는 게 아니고 그 중 부분부분만 읽히며 긴 길이 리드보다 반복 서열 분석하기 어렵다.

4) Hi-C 기반 분석

크로마틴(chromatin) 상의 물리적 거리가 가까운 DNA끼리 크로스링크(crosslink)된 DNA에서 만들어진 짧은 길이의 리드보다 좀 더 비싸다. [이라고 적혀 있는데 실제로는 실험이 워낙 어렵고 필요한 자료 양이 커서 훨씬 비쌉니다.] 염색체 연결, 하플로타입 추정되고 양쪽으로 읽은(paired-end) 두 리드 사이 거리의 변이가 크고(1 kb~1 Mb 이상), 크로마틴 상에서 멀리 떨어져 있을수록 크로스링크될 가능성이 낮아서 먼 거리 정보를 필요로 할 때에는 굉장히 많은 리드를 필요로 한다.

5) 바이오나노 지노믹스 광학 지도 작성(BioNano Genomics optical mapping)

짤은 길이 리드보다 더 쌈; 염색체 연결, 10 kb 이상의 큰 구조 변이 발견; 광학 지도 정보와 유전체 염기서열 정보를 통합해서 하나로 합쳐주는 알고리즘 정확도가 떨어진다. [DNA를 가능한 길게 추출한 뒤 미세유체장치(microfluidic device)에 넣고, 제한효소(restriction enzyme)로 처리합니다. 그 뒤 잘린 DNA 분자를 형광으로 표지하고 각각의 길이를 읽어내서, 그 길이 패턴을 이용해 유전체 지도를 작성합니다. 예컨대 200 kb짜리 DNA 분자 3개의 순서를 알고 싶어 이 실험 방법을 사용했더니 하나는 100 50 30 20으로 잘리고 다른 하나는 20 20 70 90으로 잘리고 다른 하나는 50 90 60으로 잘렸다면, 100 50 <30-20> <70-90> 60 순으로 연결할 수 있을 겁니다.]

먼 거리 염기서열분석법은 짧은 리드를 이용한 염기서열 분석법과 다음과 같은 차이가 있다. 짧은 길이의 리드를 이용하는 염기서열분석법인 일루미나 HiSeq이나 베이징 유전체 연구소(Bejing Ge-nomics Institute)의 BGISEQ 등은 한쪽 리드 길이가 100-150염기쌍(base pair)이며, 보통 양쪽으로 읽어(paired-end) 염기서열 정보와 품질(base quality) 정보를 함께 저장한다. 팩바이오 SMRT와 옥스포드 나노포어는 1개 리드를 아주 길게 읽을 수 있지만, 개별 염기의 품질은 현격히 떨어진다. 10X 지노믹스 크로뮴과 Hi-C 기반 분석법은 긴 길이의 리드를 통째로 읽는 게 아니라서 결과가 드문드문 나온다는 단점이 있고, 그래서 매우 많은 자료를 얻어야만 하는 경우가 종종 흔하다. 특히 Hi-C는 실험 자체가 되게 까다로워서 더 큰 문제가 되고 있는데, 최근에 다양한 방식으로 물리 지도(physical map)를 작성하려는 시도가 이어지고 있다.

2. 유전체 이어붙이기와 염색체 연결 및 빈 공간 메우기

현존하는 기술로는 염색체 시작부터 끝까지 읽어내는 것이 불가능하고, 잘려나간 DNA 서열만 읽어내는 것이 가능하다. 이 때문에 이 리드들을 이어붙여 염색체의 염기서열 정보를 추정해 복구하는 과정이 필요하며, 이를 유전체 이어붙이기라고 부릅니다. 리드를 염색체에 가깝게 이어붙일수록 품질이 좋아지는 셈인데, 이어붙인 길이가 길면 길수록 연관을 이용한 후보 유전자자리를 검출하는 일(association mapping)이나 유전자를 예측하는 정확도가 더 좋아진다.

유전체를 이어붙이는 일은 논문에 나오듯 퍼즐 맞추기와 비슷한데, 맞는 모양을 찾아 끼워넣는다기보다는 리드끼리 겹치는 부분을 찾아 그걸 합치는 일에 가깝다. 짧은 길이의 리드로도 이어붙이는 일은 충분히 가능하지만, 길이가 100-200염기쌍밖에 되질 않다보니 그 길이를 넘는 반복서열(repetitive sequence)이 있을 때에는 겹치는 부분을 찾을 수 없어 문제가 생긴다. 설원을 찍은 퍼즐을 맞추는데 다 하얗다 보니 제자리를 찾을 수 없는 것과 비슷하다. 긴 길이의 리드를 이용하는 팩바이오 SMRT나 옥스포드 나노포어를 사용하면 반복서열 전체 길이를 전부 읽어내는 것도 가능하기 때문에, 10 kb가 넘어가는 엄청난 길이의 반복서열이 아니고서야 짧은 길이 리드를 이용할 때 생기는 문제점을 상당히 개선할 수 있다. 실제로 유전체 품질을 비교해보면 길이만 놓고 따졌을 때 100배 정도 더 길어진다(N50이 수십 kb에서 수 Mb 정도로 늘어남). 이렇게 리드를 이어붙인 덩어리를 컨티그(contig)라고 부른다.

upload image

이어붙이는 방법에는 크게 두 가지가 있는데, 하나는 정확도 높은 짧은 길이의 리드를 이용해 정확도가 낮은 긴 길이 리드의 오류를 보정한 뒤 이어붙이는 것이고, 다른 하나는 정확도 낮은 리드에 특화된 알고리즘을 이용해 긴 리드끼리 겹쳐서 오류를 보정한 뒤 이어붙이는 것이다. 전자에 쓰이는 프로그램으로는 PBcR, Nanocorr, Spades, MaSuRCA 등이 있고, 후자에는 HGAP, PBcR, Canu, MARVEL, FALCON 등이 있다. 전자는 긴 리드에 오류가 심각하게 쌓여있다든지 반복서열 부분이 있다든지 하면 짧은 길이 리드를 이용한 오류 보정이 어려워진다는 단점이 있고, 후자는 오류를 보정할 수 있을 만큼 긴 길이의 리드를 많이 확보해야 한다는 단점이 있다. [저는 주로 후자를 쓰는데, Canu랑 miniasm (LI 2016)이 초보자에겐 좋습니다. 설치나 사용법 모두 간편해요. FALCON, MECAT (XIAO et al. 2017)은 설치랑 실행부터 어렵고, MARVEL은 반복서열 높은 유전체 특화로 만든 거라 그런지 제가 분석했을 때는 품질이 더 떨어졌습니다. 자원이나 시간은 Canu보다 훨씬 많이 요구하는 데도 말이죠.]

안타깝게도, 긴 길이의 리드를 이용한다 한들 현재로선 컨티그를 염색체 수준으로 만드는 일이 거의 불가능하다. 보통 수 Mb 내외로 만들어지게 되는데, 이 때문에 유전 지도(genetic map)이나 물리 지도 정보를 컨티그 정보와 합쳐 컨티그의 방향을 맞추고 순서대로 배열하고 빈 칸을 메우는 일이 이어지곤 한다. 이런 과정을 염색체 연결과 빈 공간 메우기라 부르며, 그 생산물을 스캐폴드(scaffold)라 부른다. 연관 리드를 이용할 때는 Supernova, Architect, ARCS, fragScaff 등의 프로그램을 이용할 수 있다. 연관 리드나 Hi-C 기반 방법은 모두 짧은 길이의 리드를 생산하기 때문에, 정확도가 떨어질 때도 있고 GC 비율이 높은 곳은 염기서열분석이 잘 안 되는 등의 단점도 지니고 있다.

upload image

3. 구조 변이 확인 및 분석

길이가 50염기쌍 이상되는 구조 변이는 길이가 짧은 리드로는 판별하기가 상당히 어렵다. 염기서열분석이 끝난 뒤 리드를 표준유전체(reference genome)에 붙여보면, 같은 유전 정보를 지닌 생물에게서 나온 리드라고 하더라도 제대로 안 붙는 경우가 매우 많다. 반복서열 등에는 리드가 골고루 분포하는 게 아니라 한쪽에 몰리는 일도 흔하고, 제 위치를 못 찾아 붙지 않는 리드도 많이 쌓인다. 유전 정보가 다른 생물의 염기서열을 분석하고 50 bp 이상의 결실이나 삽입을 찾으려고 한다면 표준유전체에 리드가 붙지 않는 부분을 결실로, 표준유전체에 안 붙은 리드를 삽입으로 판정할 수 있을 텐데, 애초에 위양성(false positive) 결과가 나올 가능성이 무척 높은 셈이다. 짧은 변이(variant)를 판별하는 데에는 정확도 높은 짧은 길이의 리드가 더 유용할 테지만 긴 구조 변이를 판별하는 데에는 오류를 감안하더라도 길이가 긴 리드가 더 유용한 경우가 많다.

구조 변이를 판별하는 데에는 크게 두 가지 방법이 있는데, 하나는 유전체 이어붙이기를 마친 컨티그를 표준유전체와 비교하는 것이고, 다른 하나는 길이가 긴 리드를 표준유전체에 붙인 뒤 분석하는 것이다. 전자는 컨티그 내에 있는 변이를 더 정확하게 찾아낸다는 장점이 있지만, 컨티그를 만드는 과정에서 훨씬 더 많은 양의 자료를 필요로 하기 때문에 그만큼 비싸고 분석도 오래 걸린다. 전자는 보통 MUMmer나 LAST 등을 이용해 두 유전체를 얼라인하고, AsmVar나 Assemblytics를 이용해 구조 변이를 찾아내는 과정을 거친다. [Assemblytics는 웹 기반으로 빠르게 분석해줘서, MUMmer + Assemblytics 조합은 많이 쓰입니다. 하나 주의할 점은 스캐폴드에 포함된 N도 구조 변이로 판정하는 일이 흔하기 때문에, 스캐폴드 대신 컨티그를 표준 유전체와 얼라인한 결과를 이용해야 한다는 것입니다.] 바이오나노 지노믹스 광학 지도를 이용해 제한효소가 자르는 패턴이 바뀌는 걸 이용할 수도 있다. 후자는 팩바이오 SMRT를 이용한다면 PBHoney나 SMRT-SV, Sniffles, 옥스포드 나노포어를 이용한다면 Sniffle 등을 활용할 수 있고, 연관 리드를 사용한다면 LongRanger과 GROC-SVs, Hi-C 기반이라면 HiCup을 쓸 수 있다. 이 경우에는 얼라인 방법도 다양해서 팩바이오는 BLASR, BWA-MEM, Minimap2, NGMLR 등을, 나노포어는 이 중 BLASR만 빼고, 연관 리드는 Lariat을 이용한다고 한다.

upload image

4. 하플로타입 추정

하플로타입을 확인하는 일은 이형접합(heterozygous) 유전체에서 특히 중요하다. 리드 길이가 짧으면 100-200염기쌍 이내에 있는 변이가 아니라면, 한 개체의 하플로타입을 추정할 때 부모의 유전체 정보까지 필요하다. 부모 유전체에서 넘어온 변이를 비교하는 것이다. 길이가 긴 리드나 연관 리드, Hi-C 기반의 방법론을 이용하면 해당 개체의 유전체 정보만 분석해도 먼 거리에 있는 변이 정보도 확보할 수 있기 때문에 하플로타입 추정이 가능해진다. 다만 길이가 긴 리드는 오류가 너무 많아 변이가 진짜 맞는지 확인하기 어려울 수도 있어서, 기존에 다양한 변이가 많이 알려져 있을수록 좋다.

upload image

5. 아이소폼 분석 및 유전자 정량화

유전자가 이미 잘 확정된 표준유전체라고 할지라도 아이소폼은 일부만 알려져 있는 경우가 많다. 알려진 아이소폼이 수십에서 수백 개에 달하는 경우도 있지만, 추정되는 아이소폼은 평균 수천 개에 달한다고 한다. 이렇게 밝혀지지 않은 아이소폼이 특정 기능에 관여하거나 서로 다른 조직, 시간, 상황에서 작동하는 게 아닐까 예상하는 이들도 있어, 정확한 아이소폼을 알아내고자 하는 시도도 많이 진행되었다. 이 경우에도 짧은 길이의 리드로는 어려움이 컸지만, 길이가 긴 리드를 이용하여 큰 진전을 가져온 경우가 많다. 수억에서 수십억 염기쌍에 달하는 유전체와 달리, 유전자에서 발현되는 RNA는 그 길이가 보통 수천 염기쌍 수준이기 때문에 현존하는 길이가 긴 리드를 이용하면 전체 전사물을 통째로 복원할 수 있기 때문이다. 이 과정에는 주로 TAPIS나 ToFU 등이 사용된다. [또 RNA 발현 양을 측정하는 데에도 큰 장점이 있는데, PCR을 거치지 않기 때문에 PCR로 인한 편향을 크게 줄일 수 있고 아이소폼 수준으로 발현 양을 정량할 수 있다는 것이 그것입니다(GARALDE et al. 2018). 다만 아직까진 한번에 산출할 수 있는 자료의 양이 짧은 길이의 리드를 이용한 기법에 비해 적고 비싸서 용도가 제한적입니다.]

upload image

6. 후성유전 변화 곧장 분석

짧은 길이의 리드를 이용한 염기서열분석은 PCR을 기반으로 하기 때문에, DNA든 RNA든 전체 분자에서 똑같이 증폭될 수 있는 염기서열밖에 읽어내지 못한다는 한계가 있다. 그러나 팩바이오 SMRT와 옥스포드 나노포어는 모두 단분자(single-molecule)를 이용해 염기서열을 읽어내기 때문에, 해당 DNA 또는 RNA 분자에 존재하는 후성유전 변화라는 또 다른 정보도 읽어낼 수 있다. 가장 대표적인 것이 메틸화(methylation)된 핵산(nucleotide)을 확인하는 것으로, 이런 후성유전 변화가 유전자 발현 등에 끼치는 영향으로 인해 그 중요성이 부각되고 있다.

현존하는 바이설파이트(bisulfite) 염기서열분석방법은 좋은 방법론이지만 몇 가지 문제점을 안고 있는데, 그 중 하나는 바이설파이트가 메틸화되지 않은 사이토신(non-methylated cytosine)을 타이민(thymine)처럼 읽히도록 바꿔주는 것이라는 점에서 발생합니다. 바이설파이트 처리 후 짧은 길이의 리드를 이용해 염기서열을 읽으면 많은 리드에는 아데닌(adenine), 타이민, 구아닌(guanine), 사이토신이라는 4개의 염기 중 사이토신이 거의 존재하지 않는 상황이 벌어지고, 이런 리드는 표준유전체에서 쉽게 제자리를 찾지 못한다는 문제에 부딪히게 된다.

팩바이오 SMRT와 옥스포드 나노포어는 직접 분자를 읽어내기 때문에 이런 한계를 극복할 수 있다. 6-메틸사이토신(6-methylcytosine)뿐만 아니라 메틸아데닌(6-methyladenine)까지 읽어냈다는 보고가 있다. 다만 현재로서는 방법론이 완전히 정착된 상태는 아니라서 엄청난 양의 리드 정보를 확보해야만 메틸레이션 정보를 신뢰할 수 있는 수준으로 추정할 수 있기 때문에 너무 비싸서 실용성이 그리 높진 않다. [옥스포드 나노포어는 원리만 보면 DNA는 물론 RNA에 생긴 온갖 변화를 모두 전기 신호를 통해 읽어낼 수 있습니다만, 아직 누구나 할 수 있을 만큼 정착됐다고 보긴 이른 듯 합니다. 내다보기는 단백질 서열 분석까지 할 거라고 말하던데 과연 언제 현실화될지 모르겠네요.]

7. 앞으로 할 일

발전해야 할 것이 아직 매우 많습니다. 특히 옥스포드 나노포어는 기술이 급격히 발달하고 있어 유전체 이어붙이기를 포함한 몇몇 분야에서는 품질과 가격을 고려했을 때 상당한 효용을 나타낼 것으로 보인다. 그러나 기술이 발달한다고 해도 아직까지 이를 다룰 수 있는 생물정보학 도구들이 많이 부족하거나 효율성이 떨어지는 편이다. 인간 유전체를 다룬다고 하면 수만 CPU (central pro-cessing unit) 시간이 드는 것은 물론이고, 선충처럼 유전체 크기가 30분의 1밖에 되지 않는 경우에도 수백에서 수천 CPU 시간이 소요되며, 식물처럼 배수성이 높은 생물에서는 1백만 CPU 시간을 들여야 초기분석이 끝나기도 한다. 또 아직까지는 사용하는 사람 수가 매우 적기 때문에 소수 전문가가 쓸 것이라 생각하고 편하게 개발한 도구들이 많아서, 설치부터 복잡한 경우도 허다하고 아예 관리가 되지 않는 도구도 많다. 현재 길이가 짧은 리드를 이용한 방법론들이 거의 최적화를 이뤄 누구나 할 수 있는 분석법을 갖추게 되었듯이, 길이가 긴 리드를 이용한 컴퓨터 도구들도 더 많은 발전을 이뤄 해당 분야에 대한 진입장벽이 더욱 낮아지길 기대한다.


※ 참고문헌
(본 논문에서 제시된 reference 외에 저자가 참고한 자료입니다.)
==> PDF 참조


  추천 1
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
Citation 복사
김준(2019). 길이가 긴 리드를 이용한 염기서열분석의 응용. BRIC View 2019-R01. Available from http://www.ibric.org/myboard/read.php?Board=report&id=3149 (Jan 03, 2019)
* 자료열람안내 본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다. 내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(member@ibric.org) 바랍니다.
 
  댓글 0
등록
목록
영국문화원
위로가기
동향 홈  |  동향FAQ  |  동향 문의 및 제안
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의 member@ibric.org
트위터 트위터    페이스북 페이스북    RSS서비스 RSS
다윈바이오
1552939994 0.09292400
1552939994 0.48153900
0.38861489295959 초 소요