실험 Q&A > Bioinformatics
FPKM으로 DEG를 하려고 하는데 질문이 있습니다.
레벨5 토라 (대학원생)
안녕하세요,
이번에 RNA-seq를 처음 시작한 대학원생입니다.
일단 이 실험에 관해서는 BIoinfomatics를 전문적으로 하는 실험실과 콜라보를 하고있어서 사실 분석에는 크게 문제되진않는데.. 지도교수님께서 제가 이에 대해서 좀 배워서 직접 하시길 원합니다...
그래서 작년 연말즘에 이 실험실에서 타 대학 교수님들을 모셔서 3개월정도 진행한 수업을 들었는데 거의 이론설명없이 바로 실전으로 넘어가다시피해서.. 중간과정을 다 뛰어넘고 진행하다시피해서 모르는게 많아서 찾아서 공부하기가 어렵네요.
일단 FastQC-Trim-galore를 돌리는 것 까지는 실험실 컴터가 그렇게 사양이 좋지가않아도 문제없지만 STAR는 램을 많이 잡아먹다보니 자꾸만 뻑가서 STAR를 쓰지않는 tuxedo pipeline으로 셋업해서 연습삼아 해보려고 시도는 하고있는데, 이 부분은 거의 정형화된 명령어들만 기입해주면 되다보니 크게 어렵지않은것 같습니다. 에러가 떠도 거의 왠만하면 대처가 가능할만큼 솔루션이 있는 거 같습니다.
근데 cufflinks 후에 이 결과물을 바탕으로 DEG를 할 때가 문제입니다.
기본적으로 수업에서 배운데로 FPKM 값을 Log2 값으로 변환해서, A샘플과 B샘플간의 발현량의 차이를 보려고하고있습니다. 수업에서 배운데로 median centering을 해서 1차적으로 normalization을 해주고 있습니다.
A샘플은 2마리, B샘플이 1마리밖에 없어서 일단 p-value는 계산 할 수 없고 그냥 단순히 나오는것만 가지고 보려고합니다.
근데 막상 찾아보니 대부분의 DEG는 read count로 하느라, DEseq2, EdgeR등은 사용이 불가능한 것 같더라구요....? ㅠ.ㅠ
그래서 일단 두 프로그램은 사용이 불가능할 것 같고 limma-trend? limma-voom?은 아무튼 Limma는 가능한 것 같은데 이거를 막상 쓸라니까 뭐 마땅한 example이나 샘플이 없어서 어떻게 진행을 해야할지 모르겠습니다.
일단 그 실험실분들은 여쭤보니 저런 프로그램없이 자기 서버내에 별도로 normalization tool을 구축해놔서 그걸 쓴다고하고, 저 median centering 외에도 QAC? QAD?인가 하는거랑 aggregator?인가 하는걸로 세차례 normalization 한다는데 두 방식을 제가 만들어보긴 힘들거같고 인터넷을 찾아서 직접해보라...하셔서 찾은게 limma네요..
근데 이것도 막상 직접해볼라니까 감이 안잡힙니다...limma-voom은 또 뭐 FPKM,RPKM으로 쓰시면 안된다 하고 limma-trend를 하면 된다는 것 같은데 여기저기 찾아보니까 다들 read count 값을하지만 이거는 micro array 때부터 쓰던 기능이라 log2 CPM 값을 log2 FPKM 을 바꿔서 하면 된다...라는것 까진 알겠는데 정작 뭐 아무 예시가 없으니 어떻게 해야하나싶습니다..
아무래도 그 실험실 선생님께서 하신 세차례 normalization한 DEG와
제가 한차례 normalization한 DEG의 fold change값이 좀 다릅니다.
예를 들면 저는 DEG에서 UP-regulation된 gene이 1254, down이 387개면
그 선생님은 UP이 773개, down이 659개네요...ㅋㅋ;;
제가 더 많이 발현한다고 보이는것도 있고 저한테는 안 뜬 gene이 감소한다고 뜨는 것도 있습니다..
혹시나 예시를 참조할만한 사이트가 있다면 알려주시면 감사하겠습니다.ㅠ.ㅠ...
Bio마켓 프리미엄