안녕하세요.
제가 human genome 을 직접 다뤄본 적은 없지만, 아무도 답을 안 하시니 아는 것을 적어보겠습니다.
우선 reference human genome 들에 대해 알아봅시다. 많은 사람들 중 누구를 reference 로 삼았을까 또한 heterozygosity 는 어떻게 처리했을까 저도 궁금했습니다.
가장 최근에 나온 T2T (Telomere-to-telomere) 유전체의 경우, 아주 쿨하게 그냥 CHM13hTERT이라는 “near-complete homozygosity” 를 가진 cell-line 을 시퀀싱 했습니다. Heterozygosity 는 문제가 되지 않죠.
https://sites.google.com/ucsc.edu/t2tworkinggroup/chm13-cell-line
…
T2T 이전에는 어떻게 했을까. NIH/DOE 의 Human Genome Project (HGP) 에서 나온 reference genome 은 여러 인종의 익명 자원자들로부터 혈액을 채취해서, 아예 샘플 레이블을 도중에 없애는 식으로 철저하게 익명성을 보장하려 했다고 합니다. Human reference 는 일개 개인의 것이어서는 안 된다는 생각인가 봅니다.
https://www.nature.com/scitable/topicpage/dna-sequencing-technologies-key-to-the-human-828/#
위 링크 그림 2, 3번을 보시면 아시겠지만, HGP 의 경우 직접 사람 염색체를 시퀀싱한 것이 아니라, 일단 염색체들을 잘게 부숴서 BAC library 로 클로닝합니다. 이 BAC library 클론들을 전세계 여러 연구실에서 나누어서 시퀀싱을 하는데, 지금처럼 시퀀싱을 대량으로 많이 싸게 할 수 있는 시대가 아니었으니까 그림 3번과 같이 fingerprinting 을 해서 이미 시퀀싱한 부분에 더했을 때 새로운 정보를 얻을 수 있는 클론들만 골라 시퀀싱합니다. (이렇게 하지 않고 랜덤으로 아무 클론들을 고르면, 어느 정도 이상 시퀀싱 한 이후 계속 같은 부분만 여러번 시퀀싱하게 될 확율이 커집니다)
BAC library 를 만들때 염색체를 아예 따로 분리해서 만드는 과정이 있었는지 잘 모르겠습니다만, 어쨌든 BAC library 에 여러 사람의 heterozygous 염색체 조각들이 섞여 있었더라도, 서로 조금씩 overlap 이 되는 클론들을 선택해서 겹치는 부분의 consensus (아마 여러 클론에서 가장 자주 나오는 nucleotide 선택) 를 이어가는 방식을 overlap consensus assembly 라고 합니다. 이 방식을 주로 쓴 HGP reference genome 은 여러 사람들로부터 나온 양쪽 쌍 염색체들의 완벽한 모자잌이라고 할 수 있겠습니다.
그리고 HGP 가 한창 시퀀싱을 할 수록 남은 갭들을 채울 수 있는 BAC 클론을 찾기 힘들어져 괴로워하고 있을 즈음 Craig Ventor 의 Celera Genomics 에서, 이전에는 박테리아 유전체 조립에서나 쓰던 whole genome shotgun assembly 를 시도합니다 (위 링크 그림 4). 이 때는 Craig Ventor 개인을 시퀀싱했고, 따라서 여기서 나오는 SNP 등은 Ventor 개인의 양쪽 쌍 염색체에서 나온 것이 됩니다 (위 링크 그림 5). 다만 어느 서열이 어느쪽 염색체인지 알 수 있는 방법은 전혀 없습니다.
이 당시 HGP 와 Celera Genomics 사이의 경쟁과 신경전이 상당히 재미있는데, 다루고 있는 책들이 여럿 있으니 읽어보시기 바랍니다.
…
이제 reference 가 아닌 personal genome sequencing 은 어떨까.
23andme 같은 서비스에서는 아래와 같은 식으로 개인 유전체의 allele 들을 보고하는가 보네요:
https://customercare.23andme.com/hc/en-us/articles/212196868-Accessing-Your-Raw-Genetic-Data
위 링크 안의 screenshot에서 genotype: AA GG CC .. 하다가 CT GT 이런 것이 나오면 두 쌍의 염색체가 disagree 하는 부분이 되겠죠. 다만 이미 알려진 human reference genome (GRCh37 을 썼다고 screenshot 에 나오네요) 과 비교해서 알 수 있는 SNP, indel 들만 보고하는 듯 합니다.
이 경우에도 부모님들을 genotyping 하지 않는 이상, 어느 서열이 어느쪽 염색체에서 나왔는지는 알 길이 없습니다.
…
최근 PacBio HiFi, Nanopore 같은 long read sequencing 기술의 발달로, 요즘은 “phased” genome assembly 라고 해서 실제 어떤 서열이 어느 haploid 에 속하는지까지 밝혀내려는 시도를 합니다. “Phased human genome” 이나 "haploid-resolved genome" 등으로 검색해보시면 최근 논문이나 정보가 나오리라 생각합니다만, personal genome sequencing 서비스까지 가려면 시간이 필요할 듯 합니다.