안녕하세요.
> 다중검정오류 때문에 p-value 값을 FDR로 보정하는 것 까지는 알겠는데 특히 0.05를 쓰지 않는 이유를 모르겠네요
RNA-seq 에서 흔히 나오는 DE / (significantly) Different Expression calling 에 대한 말씀인 듯 합니다. 말씀하신 대로 FDR 보정은 많은 유전자를 한꺼번에 multiple testing 하다가 나오는 false positive 를 걸러내기 위한 것이 맞습니다.
보정한 p-value 값의 0.05 를 딱히 쓰지 않는 이유는, 보정을 했건 안 했건 이 p-value 는 절대적인 것이 아니라, 모두 DE-calling 도구들 (DESeq2, EdgeR, limma, vroom, NOISeq, Sleuth, ... 등등) 이 저마다 RNA-seq 측정값 (read count) 이 실제 유전자 발현량을 어떻게 반영하는지 모델링해서 최선을 다해 예측한 것에 불과하기 때문입니다.
이런 모델링과 예측을 위해 여러 가지 RNA-seq data 에 대한 여러 가지 assumption 을 하게 되는데, 실제 야생에서 존재하는 RNA-seq data 들이 꼭 이런 assumption 을 따르지 않을 수 있습니다.
일정한 주기로 (요즘은 좀 뜸합니다만) RNA-seq DE calling 도구들이 얼마나 정확한 지를 simulated RNA-seq data 나 qPCR (이것도 꼭 정확하다고 말할 수 없지만 ...) 등과 비교해서 나름대로 evaluation 을 하려는 논문들이 나옵니다.
예를 들어 이 논문을 한번 보시면 이런 구절이 있죠:
https://doi.org/10.1186/1471-2105-14-91
> The results conveyed in this study strongly suggest that the differentially expressed genes found between small collections of samples need to be interpreted with caution and that the true FDR may be several times higher than the selected FDR threshold. (14쪽 부근).
조금 오래된 논문이라 여기서 "small collections of samples" 가 혹시 3반복도 아니고 2반복을 이야기하는 것일 수도 있습니다만, 사실 생물 실험에서 3반복도 아주 반복 수가 적은 편에 속합니다. RNA-seq 은 여전히 조금 비싸니까 3반복 정도 하면 받아들여지는 편이지만, 사실 outlier 들이 하나만 나와도 이 결과를 믿어야 하나 하게 되죠. 즉 이 논문에 따르면 반복 수가 많지 않을 경우 (5반복 이하?) FDR adjusted p-value threshold 0.05 의 효과를 보려면 사실 0.01 정도를 cutoff 로 하는 편이 낫다는 이야기가 되겠습니다.
0.05 cutoff 는 "난 false positive 를 좀 감수하더라도 최대한 많은 DEG 를 찾아내고 싶다" 는 생각일 때 갈 수 있는 가장 높은 cutoff 값이라고 생각합니다.
만약 "RNA-seq 을 했지만 반복 수도 많지 않고, 놓치는 DEG (false negative) 가 있더라도 최대한 보수적으로 접근해서 확실한 것들만 골라 이야기를 진행하고 싶다" 는 생각이라면 cutoff 를 낮추거나, 아예 p-value 로 줄 세워서 톱 그룹들이면서 fold change (~=effect size) 값도 높은 것들만 골라낼 수도 있겠습니다.
RNA-seq 의 반복 수가 낮다면, 어차피 결과들을 아주 많은 grain of salts 와 함께 받아들여야 하는 셈이고, p-value cutoff 를 0.05 보다 낮게 가져간다면 그런 이유가 되겠습니다. 0.05 가 아마도 상한선이고, 0.05 보다 높은 값은 쓰는 연구가 있다면 ... 모르겠네요 어떻게 봐야 할지...