FPKM으로 DEG를 하려고 하는데 질문이 있습니다. | 답변 > 실험 Q&A > 커뮤니티

실험 Q&A > Bioinformatics

FPKM으로 DEG를 하려고 하는데 질문이 있습니다.

레벨5 토라 (대학원생)

등록일 22.06.24 15:44
조회3116

안녕하세요,

이번에 RNA-seq를 처음 시작한 대학원생입니다.

일단 이 실험에 관해서는 BIoinfomatics를 전문적으로 하는 실험실과 콜라보를 하고있어서 사실 분석에는 크게 문제되진않는데.. 지도교수님께서 제가 이에 대해서 좀 배워서 직접 하시길 원합니다...

그래서 작년 연말즘에 이 실험실에서 타 대학 교수님들을 모셔서 3개월정도 진행한 수업을 들었는데 거의 이론설명없이 바로 실전으로 넘어가다시피해서.. 중간과정을 다 뛰어넘고 진행하다시피해서 모르는게 많아서 찾아서 공부하기가 어렵네요.

일단 FastQC-Trim-galore를 돌리는 것 까지는 실험실 컴터가 그렇게 사양이 좋지가않아도 문제없지만 STAR는 램을 많이 잡아먹다보니 자꾸만 뻑가서 STAR를 쓰지않는 tuxedo pipeline으로 셋업해서 연습삼아 해보려고 시도는 하고있는데, 이 부분은 거의 정형화된 명령어들만 기입해주면 되다보니 크게 어렵지않은것 같습니다. 에러가 떠도 거의 왠만하면 대처가 가능할만큼 솔루션이 있는 거 같습니다.

근데 cufflinks 후에 이 결과물을 바탕으로 DEG를 할 때가 문제입니다.

기본적으로 수업에서 배운데로 FPKM 값을 Log2 값으로 변환해서, A샘플과 B샘플간의 발현량의 차이를 보려고하고있습니다. 수업에서 배운데로 median centering을 해서 1차적으로 normalization을 해주고 있습니다.

A샘플은 2마리, B샘플이 1마리밖에 없어서 일단 p-value는 계산 할 수 없고 그냥 단순히 나오는것만 가지고 보려고합니다.

근데 막상 찾아보니 대부분의 DEG는 read count로 하느라, DEseq2, EdgeR등은 사용이 불가능한 것 같더라구요....? ㅠ.ㅠ

그래서 일단 두 프로그램은 사용이 불가능할 것 같고 limma-trend? limma-voom?은 아무튼 Limma는 가능한 것 같은데 이거를 막상 쓸라니까 뭐 마땅한 example이나 샘플이 없어서 어떻게 진행을 해야할지 모르겠습니다.

일단 그 실험실분들은 여쭤보니 저런 프로그램없이 자기 서버내에 별도로 normalization tool을 구축해놔서 그걸 쓴다고하고, 저 median centering 외에도 QAC? QAD?인가 하는거랑 aggregator?인가 하는걸로 세차례 normalization 한다는데 두 방식을 제가 만들어보긴 힘들거같고 인터넷을 찾아서 직접해보라...하셔서 찾은게 limma네요..

근데 이것도 막상 직접해볼라니까 감이 안잡힙니다...limma-voom은 또 뭐 FPKM,RPKM으로 쓰시면 안된다 하고 limma-trend를 하면 된다는 것 같은데 여기저기 찾아보니까 다들 read count 값을하지만 이거는 micro array 때부터 쓰던 기능이라 log2 CPM 값을 log2 FPKM 을 바꿔서 하면 된다...라는것 까진 알겠는데 정작 뭐 아무 예시가 없으니 어떻게 해야하나싶습니다..

아무래도 그 실험실 선생님께서 하신 세차례 normalization한 DEG와

제가 한차례 normalization한 DEG의 fold change값이 좀 다릅니다.

예를 들면 저는 DEG에서 UP-regulation된 gene이 1254, down이 387개면

그 선생님은 UP이 773개, down이 659개네요...ㅋㅋ;;

제가 더 많이 발현한다고 보이는것도 있고 저한테는 안 뜬 gene이 감소한다고 뜨는 것도 있습니다..

혹시나 예시를 참조할만한 사이트가 있다면 알려주시면 감사하겠습니다.ㅠ.ㅠ...

신고하기0

등록순
추천순

실험Q&A를 통해 여러분의 지식을 나누어 주세요. 답변을 등록하시려면 로그인 해주세요.

본 정보는 네티즌에 의해 작성된 정보로, 내용 중 중요하다고 생각되는 부분은 추가적인 사실 확인을 반드시 하시길 바랍니다.

답변 2

답변등록

레벨5 크옷
22.06.24 22:24

채택답변
질문자가 채택한 답변입니다.

안녕하세요?

우선 RNA-seq 을 수행하려는 reference 는 어떤 것을 쓰시나요? 유전체 또는 전사체에서 나온 gene model (feature) 들일 텐데, 이들 중에서 isoform 들은 가능한 한 제거해주시는 편이 좋습니다. Primary transcripts 만 추출하거나 정 안 되면 isoform 들 중 longest ORF 를 코딩하는 것만 모으는 방법도 있겠습니다. STAR 는 아마 isoform 들을 다 뭉뚱그려 각 유전자들의 genomic coordinates 안에 떨어지는 read 들을 전부 고려하는 방식이었던 기억이 있네요.

STAR를 돌리기 힘드시다면 Salmon 이나 Kallisto 를 써보시길 추천합니다. Bowtie(2)-cufflinks 는 좀 오래되어서 개발하신 분들이 아 이제는 hisat2-stringtie2 를 대신 써달라고 하고 있습니다.

Salmon, Kallisto, stringtie 모두 "estimated" raw reads 를 (TPM, FPKM과 함께) output 으로 출력합니다. (Stringtie 는 prepDE.py 라는 스크립트 제공)

그런데 읽어보니 RNA-seq replicates 가 1개? 2개 라는 게 문제네요. DESeq2 등은 replicate 가 없는 경우 사용할 수 없습니다. NOIseq 같은 걸 써야 할까요?

단순 Fold change 를 보시려면 FPKM (또는 TPM) 끼리 비율을 구하는 것이 문제가 없어 보입니다. 이론상으로는 FPKM (또는 TPM) 자체가 이미 normalization 된 상태이므로 더 normalization 이 더 필요한지도 모르겠습니다. 다만 replicate 갯수가 너무 적으므로 Fold change 값이 큰 것, 그리고 양쪽다 발현량이 어느 정도 되는 것만 믿어야 하겠습니다. 예를 들어 M-A plot 을 그려보았을 때 발현량이 적을수록 fold change 값 분포는 부채살 처럼 퍼져가는 걸 볼 수 있는데 이 부분은 믿을 수 없습니다.

레벨5 토라 (대학원생)
22.06.27 01:41

크읏//

안녕하세요 선생님,

먼저 답변 주셔서 감사드립니다.

reference로 사용한 것은 gencode에서 받은 마우스 Comprehensive gene annotation CHR GRCm38.vM25.annotation.gtf 파일입니다. 제가 수업에서 배운데로는 protein coding gene만 필터링 해서 하긴하는데, 그럼에도 불구하고 isoform은 아닌 것 같은데 언급한 실험실의 선생님들께서 해주신 gene에는 제가 한것에서 나온 gene들이 없는 것도 있었습니다

RNA-seq을 옛날에 실험실과 콜라보하기 전에는 M업체에 quantification까지 맡긴적이 있는데 stringtie를 쓰더라구요. 한번 말씀해주신데로 세팅도 해보도록 하겠습니다.

일단 eegc인가..하는것도 받아보고..이것저것 시도는 해보고있는데
대조군 2개 / 실험군 1개 샘플이라 자꾸 에러가 떠서 진행이 안되긴하더라구요...;; 그리고 찾아보니 저도 FPKM RPKM 등이 이미 normalization된 값인데 왜 여긴 세차례나 더 normalization하는거지? 의문은 들긴 들었는데 그것도 여쭤봐야겠네요..

답변 주셔서 감사합니다.

Bio마켓 프리미엄

신고하기

댓글 작성 로그인

스팸삭제