[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 실험
MCI
배너광고안내
이전
다음
스폰서배너광고 안내  배너1 배너2 배너3 배너4
BioLab 장재봉 교수
전체보기 안전점검 LABox
 전체 > Bioinformatics
조회 3920  스크랩 인쇄하기 주소복사 트위터 공유 페이스북 공유 
질문 Taxon specific BLAST Database를 만드는 방법에 대해 문의드립니다.
박기범  | 2015.01.15 17:12
답변있는 질문은 수정/삭제 불가(☞문의)
성능좋은 컴퓨터가 없어서 리눅스 환경 데스크톱으로 RNA seq analysis를 수행중입니다.
De novo assembly까지는 잘 수행하고
현재 1만 7천개의 contig를 annotation하는 단계입니다.
처음에는 근연종의 nucleotide 서열과 protein 서열만을 이용해서 BLAST를 수행하였으나 데이터가 부족해서 NCBI FTP에서 받은 preformed nr blast database를 다운받아서
BLASTX를 시도하고있습니다.
현재 4일째 작동중인데  출력파일 size를 보니 25%정도 완료된 것으로 예상됩니다.

BLAST 속도가 너무 느려서 좀 더 작은 size의 subset database
taxon specific하게 만들어보려고

NCBI  genbank에서 entrez검색으로 fasta 형식으로 보내기 하여 받는 중인데
예상 사이즈가 약 4GB정도 되는지라 속도가 너무 느려서 그런지 연결이 계속 끊기거나 불완전하게 다운로드가 완료됩니다.

현재 nr, nt fasta 파일을 다운받아서 추출해보려고하는데 방법을 몰라서 이렇게 질문드립니다..


현재 만드려고하는 database는 Arthropoda protein/nucleotide database입니다.
#blast
 
#database
 
#taxon
답변하기
답변 본 정보는 네티즌에 의해 작성된 정보로, 내용 중 중요하다고 생각되는 부분은 추가적인 사실 확인을 반드시 하시길 바랍니다.
박기범  |  2015.01.15    
알아서 찾았습니다. 

NCBI genbank 에서 등재되어있는 모든 단백질 서열이 포함된 nr (fasta form)을 ftp에서 받는다.(13.3GB)
이 파일을 가지고 곧바로 BlastX를 하기엔 CPU cost가 높으므로 target으로 하는 생물종(eg. Arthropoda)의 protein 서열 GI code를 genbank의 entrez 검색도구를 이용해서 다운로드 받는다. (Arthropoda protein 개수 = 2573715개)
nr.fasta에서 위의 GI code를 갖는 list를 추출해서 subset blastDB를 만들고 싶다면 blastdbcmd를 이용한다.
command shell을 실행시키고 다음과 같이 입력

$ blastdbcmd -entry_batch (target GI list).txt -db nr파일경로 -outfmt "%f" -out 출력물이름.txt or fasta -target_only

이후 추출된 fasta를 가지고 makeblastdb를 이용하여 Local blastDB를 만든다.


Preformatted nr blastDB에는 없는 GI code도 같이 받아져서 OID not found라고 나오기도하는데 그냥 켜놓고 계시면 알아서 출력됩니다. 이 파일에 없는 서열은 실제 ncbi web blast에서도 안나옵니다.

김희수  |  2015.11.06    
blastp나 blastx를 수행할 경우 word size를 늘리면 blast 속도가 2-3배까지 빨라집니다.
다만 그에 맞게 threshold는 설정해줘야 합니다. 이 부분은 관련 논문을 찾아보시면 됩니다.
제 경우에는 18 근처를 이용합니다.
그리고 경우에 따라서는 gnu parallel을 활용하면 좀더 빠르게 작업 수행이 가능합니다.
ncbi blast+ 패키지의 multi thread 기능은 좀 성능이 떨어지기 때문에 gnu parallel을 이용해서
각 thread에 일정 junk의 서열을 stdin으로 던져주는 식으로 작업하면, 노는 cpu를 좀더 줄일 수 있습니다.
시간이 많이 지난 질문이라 도움이 되실지는 모르겠지만, 다른 분들을 위해서 답글을 답니다.
답변하기
할인행사/신제품신기술 광고 검색광고
모아바이오 모아바이오
[AFG Scientific] *새해맞이* 20% 특가 할인 프로모션! 2만가지이상의 모든 ELISA Kit.. (2.28까지)
그린메이트바이오텍 그린메이트바이오텍
[TECAN한국공인대리점] TECAN 자동화장비 신년맞이 상담 이벤트 (3.31까지)
코람바이오텍 코람바이오텍
[Cell Signaling Technology] Primary Antibody 전제품 20% 할인 행사 (2.28까지)
필코리아테크놀로지 필코리아테크놀로지
효율적인 Genome Editing의 필수조건은?
인성크로마텍 인성크로마텍
[Fluidic Analytics] Complex background 에서의 농도(conc.) 및 결합 친화..
그린메이트바이오텍 그린메이트바이오텍
[TECAN 한국공인대리점] TECAN Microplate reader/ IMPLEN Nanophotomet.. (4.11까지)
최근등록   더보기 >
식품의 프로테아제 시험법중 folin 시액 만들때, 히팅맨틀 온도문의   02.01
면역염색이나 wb 실험시 2차 antibody관련 질문   02.01
세포동결 할 때 vial 안으로 들어가는 액체 질소   02.01
TLC 질문 드립니다.   02.01
normal cell line   02.01
HPLC peak 재현성(나오다 안나오다 함)   02.01
vero/hslam cell counting 질문   02.01
계산법 맞을까요??   01.31
동물세포 관찰이나 사진촬영을 위한 염색 방법   01.31
carrier 단백질 사용 농도가 궁금합니다.   01.31
최근답변자 우수답변자
대왕개구리SPEED

대왕개구리강시

알지이

알클로나

개구리AstV

알Tathion

알둘둘

알yeaharrr

개구리cslee

개구리Q.E.D.

개구리냥냥아빠

꽃개구리Jake

개구리별숲

개구리빛초롱

개구리미맹

개구리남녀칠세마동..

실험관련연재
세오 연재중실전 실험 프로토콜 101
세오 (필명) (Cincinnati Children’s Hospital Medical Center)
곽민준 연재중랩노트
곽민준 (POSTECH 생명과학과)
신코 연재중분석장비 이야기
분석장비 탐험가 (필명) ((주)신코)
박은총 연재마감후배에게 주고 싶은 면역학 노트
박은총(Duke University)
Mr.S 연재마감의학계의 Spectaculum: 임상시험
Mr. S (필명) (연세대학교)
에스프리 연재마감실험을 해봅시다
에스프리 (필명)
이제욱 연재마감생명과학자 기초체력 다지기
이제욱 (오송첨단의료산업진흥재단, 신약개발지원센터)
위로가기
실험 홈  |  실험FAQ
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
필코리아테크놀로지 광고