실험Q&A를 통해 여러분의 지식을 나누어 주세요. 답변을 등록하시려면 로그인 해주세요.
본 정보는 네티즌에 의해 작성된 정보로, 내용 중 중요하다고 생각되는 부분은 추가적인 사실 확인을 반드시 하시길 바랍니다.
genome sequencing에서는 동일 개체 반복이 필요없습니다.
RNA-seq 처럼 샘플마다의 측정량의 오차가 있는 경우는 반복이 필요합니다만, 단일개체의 유전체는 반복 간의 유전체 서열 차이가 없기 때문입니다.
만약 반복의 개념을 다른 개체로 고려한다면, 반복의 의미가 있습니다. 그렇지만 대개 한 세트의 연구에서 반복을 두는 경우가 거의 없습니다. 그 이유는 유전체 시퀀싱은 시간과 비용이 많이 들기 때문에, 결과가 거의 유사할 것이 확실한 좁은 범위의 분류군을 늘리는 것보다 더 넓은 범위의 다양한 분류군을 포함시키기 위해서 입니다. 유전체에 포함된 변이는 넓은 분류군 안의 관계 속에서 해석될 때 의미를 갖게 됩니다.
보통 whole genome sequencing을 할때는 최소 4X genommic coverage를 요구합니다.
그 이유는 sequence의 정확도 뿐만 아니라 genome에 퍼져있을지 모르는 paralog들 때문이기도 합니다.
oeganelle genome은 크기가 genomic DNA에 비해서 상대적으로 작기 때문에 2X coverage만 되도 정확하다고 봅니다. 특히 양방향으로 sequence를 읽었다면 정확하다고 봅니다.
실제로는 sequencing을 2X 만 하려고 하다보면 특정 부분이 random하게 여러번 읽히지만 다른 부분은 전혀 읽히지 않는 부분도 나옵니다. 그런 부분을 읽으려고 하다보면 자연스럽게 4X 정도를 읽게 됩니다. 그래서 최소 2번 정도 읽힌 부분을 포함해서 전체 organelle DNA sequencing이 되면 완료합니다.
위 논문들이 모두 NGS whole genome sequencing으로 분석한 거라서 덧붙이자면,
Sanger 시퀀싱과 달리, NGS로 엽록체를 시퀀싱할 때는 최소 20X-100X정도가 필요하다고 보고 있습니다. Illumina 플랫폼이 현재 정확도가 가장 높지만, 그래도 만의 하나 랜덤하게 발생하는 에러를 제거하기 위함입니다(20X에서 1개의 에러라면, 95% consensus가 되겠네요. 통계적인 개념으로 5% 유의확률과 상통합니다). 또 Illumina 서열은 길이가 짧기 때문에 (예전에는 300bp의 MiSeq도 사용했지만, 비용대비 데이터 생산량이 낮고 에러가 높아 최근에는 hiseq 기반으로 150bp를 통상적으로 사용합니다), 서열 조립에 많은 양의 데이터가 필요합니다. 현재 시퀀싱 비용이 무척 낮아졌기 때문에, 실제로는 100x-수천x 이상이 일반적입니다.