요즘 통계 이야기가 자주 나와서 간단한 이야기를 나누고자 합니다. 전 생화학/분자 생물학이라 통계를 사용하는일이 크게 필요 없지만, 공동연구를 하다보면 자주 만나는 문제가 공동연구자가 간단한 생화학/분자생물학 3-4 반복 실험을 하고 mean +/- SE 으로 데이타를 줍니다. 그럼 저는 mean +/- SD로 바꾸라하면 공동 연구자는 의아해하고 안 바꿉니다. 대부분은 SE가 value가 작으니까 더 선호 합니다. 그래서 제가 이런저런 설명을 하면, 공동 연구자는 좋은 저널에 mean +/- SE로 다들 발표하는데 왜 딴지냐고 하고 몇개 저널을 던져 줍니다. 그럼 전 뭐라고 딱히 할말이 없지요. 사실 많은 생물학 저널들이 SD 와 SE를 잘 구별 안합니다.
보통 제 설명은 (저도 사실 통계를 쓸일이 없어서 잘 모르지만, 그리고 생화학 데이타를 통계를 써서 뭘 보여중일도 별로 없고요), SE란 사실 존재하지 않고 standard error of the means (SEM) 나 standard error of the proportion 등이 통계적으로 옳다. 그리고 SEM은 population 이 클때 sampling을 여러번하여서 그 각각 샘플링의 평균값의 variation (SD)을 설명하는것이다. 따라서 샘플링 한 데이타로 그 population의 성향을 예측하는데 쓸수 있고, 심리학이나 그런 큰 population 을 말할때 어떤 confidence interval을 가지고 이야기 할때 쓰는거다 (사실 confidence interval의 개념도 좀 헷갈리지만요). 우리 같이 통계 소시민인 생화학자는 개념적으로 이해가 쉬운 standard deviation을 쓰는것이 가장 좋다. SEM이 개념적으로 뭔지 나에게 쉽게 설명 할수 없다면 그냥 SD를 써라라고 합니다.
전 줄기차게 SD를 고집 하지만, 세번 실험을 한후 mean +/- SE를 써서 발표 한 논문이 꽤 있습니다. 제가 생각하는 것이 틀린것인가요?