[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 실험
필코리아테크놀로지
배너광고안내
이전
다음
스폰서배너광고 안내  배너1 배너2 배너3 배너4
BioLab 정래동 교수
전체보기 안전점검 LABox
 전체 > Bioinformatics
조회 244  스크랩 인쇄하기 주소복사 트위터 공유 페이스북 공유 
질문 FPKM으로 DEG를 하려고 하는데 질문이 있습니다.
개구리토라(대학원생)  | 06.24 15:44

안녕하세요,

이번에 RNA-seq를 처음 시작한 대학원생입니다.

 

일단 이 실험에 관해서는 BIoinfomatics를 전문적으로 하는 실험실과 콜라보를 하고있어서 사실 분석에는 크게 문제되진않는데.. 지도교수님께서 제가 이에 대해서 좀 배워서 직접 하시길 원합니다...

그래서 작년 연말즘에 이 실험실에서 타 대학 교수님들을 모셔서 3개월정도 진행한 수업을 들었는데 거의 이론설명없이 바로 실전으로 넘어가다시피해서.. 중간과정을 다 뛰어넘고 진행하다시피해서 모르는게 많아서 찾아서 공부하기가 어렵네요.

일단 FastQC-Trim-galore를 돌리는 것 까지는  실험실 컴터가 그렇게 사양이 좋지가않아도 문제없지만 STAR는 램을 많이 잡아먹다보니 자꾸만 뻑가서 STAR를 쓰지않는 tuxedo pipeline으로 셋업해서 연습삼아 해보려고 시도는 하고있는데, 이 부분은 거의 정형화된 명령어들만 기입해주면 되다보니 크게 어렵지않은것 같습니다. 에러가 떠도 거의 왠만하면 대처가 가능할만큼 솔루션이 있는 거 같습니다.

근데 cufflinks 후에 이 결과물을 바탕으로 DEG를 할 때가 문제입니다.

기본적으로 수업에서 배운데로 FPKM 값을 Log2 값으로 변환해서, A샘플과 B샘플간의 발현량의 차이를 보려고하고있습니다. 수업에서 배운데로 median centering을 해서 1차적으로 normalization을 해주고 있습니다.

A샘플은 2마리, B샘플이 1마리밖에 없어서 일단 p-value는 계산 할 수 없고 그냥 단순히 나오는것만 가지고 보려고합니다. 

근데 막상 찾아보니 대부분의 DEG는 read count로 하느라, DEseq2, EdgeR등은 사용이 불가능한 것 같더라구요....? ㅠ.ㅠ

그래서 일단 두 프로그램은 사용이 불가능할 것 같고 limma-trend? limma-voom?은 아무튼 Limma는 가능한 것 같은데 이거를 막상 쓸라니까 뭐 마땅한 example이나 샘플이 없어서 어떻게 진행을 해야할지 모르겠습니다.

일단 그 실험실분들은 여쭤보니 저런 프로그램없이 자기 서버내에 별도로 normalization tool을 구축해놔서 그걸 쓴다고하고, 저 median centering 외에도 QAC? QAD?인가 하는거랑 aggregator?인가 하는걸로 세차례 normalization 한다는데 두 방식을 제가 만들어보긴 힘들거같고 인터넷을 찾아서 직접해보라...하셔서 찾은게 limma네요..

근데 이것도 막상 직접해볼라니까 감이 안잡힙니다...limma-voom은 또 뭐 FPKM,RPKM으로 쓰시면 안된다 하고 limma-trend를 하면 된다는 것 같은데 여기저기 찾아보니까 다들 read count 값을하지만 이거는 micro array 때부터 쓰던 기능이라 log2 CPM 값을 log2 FPKM 을 바꿔서 하면 된다...라는것 까진 알겠는데 정작 뭐 아무 예시가 없으니 어떻게 해야하나싶습니다..

 

아무래도 그 실험실 선생님께서 하신 세차례 normalization한 DEG와 

제가 한차례 normalization한 DEG의 fold change값이 좀 다릅니다.

예를 들면 저는 DEG에서 UP-regulation된 gene이 1254, down이 387개면

그 선생님은 UP이 773개, down이 659개네요...ㅋㅋ;;

제가 더 많이 발현한다고 보이는것도 있고 저한테는 안 뜬 gene이 감소한다고 뜨는 것도 있습니다..

 

혹시나 예시를 참조할만한 사이트가 있다면 알려주시면 감사하겠습니다.ㅠ.ㅠ...

 

 

 

 

#RNA seq
 
#DEG
 
#DGE
답변하기
답변 본 정보는 네티즌에 의해 작성된 정보로, 내용 중 중요하다고 생각되는 부분은 추가적인 사실 확인을 반드시 하시길 바랍니다.
개구리크옷  |  06.24 22:24  
채택답변: 질문자가 채택한 답변입니다.

안녕하세요?

우선 RNA-seq 을 수행하려는 reference 는 어떤 것을 쓰시나요?  유전체 또는 전사체에서 나온 gene model (feature) 들일 텐데, 이들 중에서 isoform 들은 가능한 한 제거해주시는 편이 좋습니다.  Primary transcripts 만 추출하거나 정 안 되면 isoform 들 중 longest ORF 를 코딩하는 것만 모으는 방법도 있겠습니다. STAR 는 아마 isoform 들을 다 뭉뚱그려 각 유전자들의 genomic coordinates 안에 떨어지는 read 들을 전부 고려하는 방식이었던 기억이 있네요. 

STAR를 돌리기 힘드시다면 Salmon 이나 Kallisto 를 써보시길 추천합니다. Bowtie(2)-cufflinks 는 좀 오래되어서 개발하신 분들이 아 이제는 hisat2-stringtie2 를 대신 써달라고 하고 있습니다. 

Salmon, Kallisto, stringtie 모두 "estimated" raw reads 를 (TPM, FPKM과 함께) output 으로 출력합니다.  (Stringtie 는 prepDE.py 라는 스크립트 제공)

그런데 읽어보니 RNA-seq replicates 가 1개? 2개 라는 게 문제네요.  DESeq2 등은 replicate 가 없는 경우 사용할 수 없습니다.  NOIseq 같은 걸 써야 할까요? 

단순 Fold change 를 보시려면 FPKM (또는 TPM) 끼리 비율을 구하는 것이 문제가 없어 보입니다.  이론상으로는 FPKM (또는 TPM) 자체가 이미 normalization 된 상태이므로 더 normalization 이 더 필요한지도 모르겠습니다.  다만 replicate 갯수가 너무 적으므로 Fold change 값이 큰 것, 그리고 양쪽다 발현량이 어느 정도 되는 것만 믿어야 하겠습니다. 예를 들어 M-A plot 을 그려보았을 때 발현량이 적을수록 fold change 값 분포는 부채살 처럼 퍼져가는 걸 볼 수 있는데 이 부분은 믿을 수 없습니다.

 

 

개구리토라  |  06.27 01:41  

크읏//

안녕하세요 선생님,

먼저 답변 주셔서 감사드립니다.

reference로 사용한 것은 gencode에서 받은 마우스 Comprehensive gene annotation CHR GRCm38.vM25.annotation.gtf 파일입니다.  제가 수업에서 배운데로는 protein coding gene만 필터링 해서 하긴하는데, 그럼에도 불구하고 isoform은 아닌 것 같은데 언급한 실험실의 선생님들께서 해주신 gene에는 제가 한것에서 나온 gene들이 없는 것도 있었습니다

RNA-seq을 옛날에 실험실과 콜라보하기 전에는 M업체에 quantification까지 맡긴적이 있는데 stringtie를 쓰더라구요. 한번 말씀해주신데로 세팅도 해보도록 하겠습니다.

일단 eegc인가..하는것도 받아보고..이것저것 시도는 해보고있는데
대조군 2개 / 실험군 1개 샘플이라 자꾸 에러가 떠서 진행이 안되긴하더라구요...;; 그리고 찾아보니 저도 FPKM RPKM 등이 이미 normalization된 값인데 왜 여긴 세차례나 더 normalization하는거지? 의문은 들긴 들었는데 그것도 여쭤봐야겠네요..

답변 주셔서 감사합니다.

답변하기
할인행사/신제품신기술 광고 검색광고
그린메이트바이오텍 그린메이트바이오텍
[TECAN한국공인대리점] 22주년 TWO-TWO 맞이 할인이벤트_liquid handler 실험실 자동화.. (12.31까지)
코람바이오텍 코람바이오텍
[Cell Signaling Technology] Carrier-free/Cunjugated 항체 및 Cus..
인성크로마텍 인성크로마텍
[Newomics] M3 Emitter®: LC-MS 감도 향상을 위한 마이크로플로우 LC-나노스프레이 이온..
필코리아테크놀로지 필코리아테크놀로지
실험 목적에 따라 Comptent cell type을 고르시고 Tranformation 효율을 높일 수 있는.. (12.28까지)
그린메이트바이오텍 그린메이트바이오텍
[TECAN 한국공인대리점] TECAN Microplate reader/ IMPLEN Nanophotomet.. (12.31까지)
필코리아테크놀로지 필코리아테크놀로지
Celloger Mini Plus를 사용하여 세포 수준의 모든 실험을 처리해보세요!
최근등록   더보기 >
transfer O/N할때   08.16
RNA 전기영동   08.16
약물농도와 관련하여 문의드립니다.   08.16
Oil Red o Staining 관련하여 질문이 있습니다.   08.16
실험용 항우울제 구매 방법   08.16
갑자기 생장이 느려진 박테리아......왜그럴까요ㅠ   08.16
Bradford Protein 단백질 정량하는법   08.16
Aptamer SELEX 관련   08.16
PCR nonspecific band 외   08.15
Virus plaque assay agarose 제거   08.15
최근답변자 우수답변자
알소람

대왕개구리SPEED

알하윰

뒷다리더잘하고싶다

알jw1129

개구리범수리

앞다리prot

올챙이jyun1009

대왕개구리안재진

꽃개구리TX

개구리별숲

개구리ryan

개구리무광

개구리미맹

꽃개구리착한사람

개구리secu

실험관련연재
세오 연재중실전 실험 프로토콜 101
세오 (필명) (Cincinnati Children’s Hospital Medical Center)
곽민준 연재중랩노트
곽민준 (POSTECH 생명과학과)
신코 연재중분석장비 이야기
분석장비 탐험가 (필명) ((주)신코)
박은총 연재마감후배에게 주고 싶은 면역학 노트
박은총(Duke University)
Mr.S 연재마감의학계의 Spectaculum: 임상시험
Mr. S (필명) (연세대학교)
에스프리 연재마감실험을 해봅시다
에스프리 (필명)
이제욱 연재마감생명과학자 기초체력 다지기
이제욱 (오송첨단의료산업진흥재단, 신약개발지원센터)
위로가기
실험 홈  |  실험FAQ
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
써모피셔사이언티픽 광고