> 1. NCBI에서 BLAST search를 진행했을 때 맨 위 항목이 제일 유사하게 나온 결과라고 배웠는데 그렇게 보는게 맞나요? 아니면 여러 값(Max score, Total score, Query coverage, E value, Max ident) 중에 어떤 값을 우선으로 두고 결과를 봐야하나요? (처음엔 Max score가 높은순으로 나옴)
> 2. NCBI BLAST에서 per.ident가 해당 서열과의 유사도고 이게 높을수록 유사한 종이라고 판단했었는데, BLAST 시 per.ident가 높은게 낮게 배치됩니다. 이럴 경우 뭐가 더 유사한 종이라고 판별해야하나요? (사진 첨부)
> 3. BOLD에서는 원래 생각했던 종과 100% 또는 거의 100% 일치율로 제일 위에 나오는데 NCBI에서는 나오지 않는 이유는 무엇인가요?
> 4. 3번의 경우처럼 서로 결과가 다른 경우 뭘 우선으로 봐야하고, 한쪽에 100%가 나왔으면 그 종으로 판단해도 괜찮을까요?
안녕하세요.
1+2 에서, Per.Ident 가 높은 alignment 가 낮게 배치된 이유는, alignment length (Acc.Len) 가 짧기 때문입니다. 전체적으로는 덜 비슷한 서열도 일부는 더 높은 per.ident 를 보일 수 있죠. Acc. Len 와 Per.Ident 를 다 고려해서 종합적으로 판단한 것이 Score 가 되겠습니다. Max 와 Total 이 따로 있는 것은 같은 서열 쌍 사이에 짧은 alignment 가 여러 번 발견될 수 있기 때문이라고 생각하는데, 여기서는 문제가 되지 않네요. Score 가 높은 편이 더 유사한 서열이라고 할 수 있겠습니다. 여기를 봐주세요: https://www.ncbi.nlm.nih.gov/books/NBK62051/
서열들이 단순 point mutation 뿐 아니라 fusion 이나 duplication 같은 것들을 겪었다면 짧은 조각에서 더 높은 Per.Ident를 보이는 alignment 가 의미가 더 있을 수도 있겠지만, 그런 경우는 아닌 듯 합니다.
3+4 에 대해서, 첨부하신 NCBI BLAST 결과는 "nt" database 를 검색한 결과를 보여줍니다. "nt" database 는 전세계 연구자들이 지금까지 NCBI 등 db (정확히 말하면 GenBank+EMBL+DDBJ+PDB+RefSeq) 에 제출한 서열들을 모두 모아 (유전체나 전사체 전체를 제출한 경우 등은 제외) 그 중 겹치는 것들을 정리해 둔 것입니다. 그런데 여기에 있는 서열들은 모든 분자생물학 연구 결과들을 망라한 것이고, 딱히 종의 동정을 위해 일부 유전자의 Barcode 만을 중점적으로 분석한 서열을 모아놓은 것은 아닙니다.
그에 반해 말씀하신 BOLD 는 자연사 박물관 급의 샘플들을 DNA barcoding 을 통해 모으고 정리하는 데에 특화된 프로젝트인 듯 합니다. 이 경우 BOLD 에 있는 더 자세한 종/아종 서열이 NCBI nt 에는 없는 것이 전혀 놀랍지 않습니다. BOLD 에서 100% 일치하는 동정 결과를 얻으셨다면 그 결과를 따라가시면 되리라고 생각합니다.
-
KJS1
(비회원)
-
22.06.23 16:53
자세하고 친절한 답변 감사합니다.
또 다른 질문이 하나 있습니다. 글을 작성한 이후 제일 상위에 나타난 서열들과 per.ident가 높은 서열을 다운 받아서 원래 서열과 같이 Neighbor joining 트리를 작성해 보았는데,
사진에서 보이는 것처럼 원래 서열(4514)이 per.ident가 높은 서열과 묶이는 것을 확인할 수 있었습니다.
이런 경우라도 첫 번째 서열(JF859735.1)이 제일 유사한 서열이라고 보면 될까요?
> 또 다른 질문이 하나 있습니다. 글을 작성한 이후 제일 상위에 나타난 서열들과 per.ident가 높은 서열을 다운 받아서 원래 서열과 같이 Neighbor joining 트리를 작성해 보았는데,
> 사진에서 보이는 것처럼 원래 서열(4514)이 per.ident가 높은 서열과 묶이는 것을 확인할 수 있었습니다.
> 이런 경우라도 첫 번째 서열(JF859735.1)이 제일 유사한 서열이라고 보면 될까요?
트리도 결국 alignment 에서 시작됩니다. 이 경우 alignment 의 길이가 각 서열 pair 들마다 조금씩 다를 텐데, 정확히 어떤 방법을 쓰셨는지 모르겠지만 트리를 그릴 때 alignment 가 존재하지 않는 부분 (alignment gap)들은 전부 쳐내고 alignment 가 있는 부분들만 고려하는 경우가 많습니다. 그렇다면 alignment 길이보다는 alignment 가 존재하는 지역에서 서열 identity 가 높은 것들끼리 묶일 수도 있겠습니다.
트리는 결국 모든 서열들이 indel 이나 큰 규모의 variation 은 겪지 않고 substitution 만 일정한 빈도로 일어난다고 가정하고 서열들을 분류 (clustering) 하는 과정일 텐데, 지금처럼 모든 서열이 거의 고만고만하게 비슷하면서 alignment length 가 다른 경우 트리로부터 의미 있는 insight 를 얻을 수 있을 지 잘 모르겠습니다.
만약 100% 일치하는 서열이 어딘가 있다면 그게 맞는 답이겠구요. 그 외 위의 NCBI 결과에서 어느 쪽이 다 비슷한가를 따진다면 결국 alignment mismatch 를 일으키는 subtitution 과 alignment gap 을 일으키는 indel 들이 일어나는 빈도를 어떻게 모델링 하느냐에 따라 다르겠습니다.
Default BLAST 모델에 따르면 말씀하신 첫 번째 서열이 가장 비슷하겠습니다. (하지만 그게 또 꼭 맞다고 말할 수 있는 지는 ... 잘 모르겠네요 :) )