다양한 스토리를 담고 있는 연재를 만나보세요.
[신경 쓰이는 생물학 이야기] 신경 쓰이는 결과분석: "재현성 불가의 네 기수의 고삐를 잡아라"
Bio통신원(이원석 (칼 베르니케))
지금까지 몇 번의 이어진 글에서, 바이오 박사를 마치고 무얼 하게 될 것인가, 그리고 이왕 연구를 시작하게 되었으면 어떻게 연구를 할 것인가에 대해, 논문 쓸 도구들 (오피스 프로그램과 서지관리 툴)의 설치 및 사용법, 그리고 과학적 방법론에 입각해서 어떤 식으로 연구를 계획할 것인가에 대해 간단하게나마 소개해 보았다. 이번 글은, 앞서의 안내에 따라서 열심히 연구 설계를 했는데 과연 그게 제대로 된 설계인가, 그리고 결과 분석할 때 주의해야 할 점은 무엇인가 등에 대한 글이다. 사실 내가 쓴 글은 아니고 최근 (2019년 4월 24일) 네이처에 실린 컬럼을 번역해 보았는데, 해당 글의 주제가 내가 썼던 이전 글들과 잘 이어진다고 판단하여 여기에 공유해 보고자 한다.
(원문: https://www.nature.com/articles/d41586-019-01307-2)
[연구재현성 불가의 네 기수의 고삐를 잡아라 (Rein in the four horsemen of irreproducibility)]
- by Dorothy Bishop, PhD, Professor, University of Oxford.
도로시 비숍은, 수십 년 동안 인식은 돼 왔으나 해결된 적이 없는 연구 재현성 문제가 결국 어떻게 통제될 수 있을지에 대해 이야기하고자 한다.
사십 여 년 이상의 과학자로서의 내 경력으로 보건대, 나 자신은 동년배나 동급자들과는 좀 동떨어져 있다고 생각한다. 나는 보다 활발한 과학 연구를 위한 운동에 강한 동질감을 느낀다. 그렇다고 해서 나와 동시대의 연구자들이 과학 연구를 잘 하는 것에 무관심하다는 얘기는 아니다. 그저 많은 이들이 현 상황에 심각한 문제가 있다는 인식을 하지 못하고 있다는 얘기일 뿐이다. 반면, 내가 지난 이십 여 년 간 생각해 보건대, 지난 육십 여 년 동안을 돌아보면, 특히 의생명과학 분야에서, 결함이 있는 연구에 쏟아부은 시간적 금전적 낭비가 얼마나 심했는지 놀라울 따름이다.
어쩜 그럴 수 있을까? 우리는 통제된 실험으로써 가설을 세우고 검증할 줄 안다. 우리는 통계 기법으로써 원치 않는 변수를 해명할 수 있다. 우리는 관찰을 재현할 필요성을 인정한다.
하지만 많은 연구자들은 의미있는 결과를 거의 확실하게 못 낼 방법만을 고집하고 있다. 그들은 비유하자면 "재현성 종말의 네 기수(주: 기독교 성경 요한 묵시록에 나오는 '재앙을 가져오는 네 기수'에 빗댐)"와 같은 말을 타고 가고 있다고 할 수 있다: 첫째, 출판 편향(유의한 결과만 골라서 출판함), 둘째, 낮은 검정력 (low statistical power), 셋째, P값 해킹(P-value hacking), 그리고 넷째, 결과를 만들고 나서 가설 세우기 (HARKing; hypothesizing after results are known) 나와 내 윗세대의 연구자들은 이러한 문제들을 억제하려는 노력을 한 적이 거의 없었다.
1975년에 심리학자 앤서니 그린왈드는, 과학은 귀무가설에 대해 편견을 갖고 있다고 언급한 적이 있다. 심지어 그런 (귀무가설이 참이라는) 결론을 지지하는 견실한 실험 결과를 '실패한 실험'이라 지칭하기도 하였다. 이런 편견은 결국 출판의 편향성을 유발하게 된다: 연구자들은 효과가 없는 연구 결과로 논문 쓰기를 꺼리고, 저널 편집인들은 그런 결과를 게재승인하지 않으려 한다. 결과적으로, 아무도 그런 유효한 결과가 없는 연구를 알지 못하고, 연구자들은 중복된 실험을 반복함으로써 시간과 자원을 낭비하게 된다.
그러나 이런 실태는 두 가지 이유로 인해 바뀌기 시작했다. 첫째, 임상의사들이 출판편향은 환자들에게 결국 해를 끼치게 된다는 점을 깨닫게 되었다. 가령 스무 번의 약물 시험 중 단 한 번 만 약효를 보였고, 그 하나만 출판되었다면, 우리는 그 약의 약효에 대해 왜곡된 관점을 얻을 뿐이다. 둘째, 여러 연구 결과를 합쳐서 분석하는 메타분석의 사용이 늘어남에 따라, 음성 결과를 출판하지 않으려는 경향은 틀린 결론에 이른다는 점을 분명히 알게 되었다.
낮은 통계 검정력 또한 같은 길을 걸어왔다. 내 학부 시절의 통계 수업에서는 통계 검정력에 대해 아무 얘기도 해 준 적이 없고, 우리들 중 검정력을 심각하게 고려해야 한다는 걸 깨달은 이는 거의 없었다. 쉽게 말해서, 연구에 사용할 샘플 수가 작고, 실험 조작에 의한 영향 또한 작을 경우, 실제로는 효과가 있을지라도 그 효과를 감지하지 못할 공산이 크다는 것이다.
검정력 약한 실험은 낭비에 불과하지만, 연구자들은 이 점을 지적하는 통계학자를 그저 분위기 깨는 사람들로 치부하곤 했다. 1977년, 제이콥 코헨은 이 주제에 관한 결정적인 책 한 권을 썼다. 십 년 뒤, 다른 통계학자가 다음과 같은 글을 썼다. "소규모 연구는 결국 바라는 결과를 보여주고자 하는 눈 먼 소망 이상이 되지 못한 채 계속되어 왔다." (R. G. Newcombe Br. Med. J. (Clin. Res. Ed.) 295, 656–659; 1987). 임상 시험과 유전학과 같은 분야에서는, 자금원 또는 투자자들이 연구 방법 상에서 충분한 검정력을 갖도록 규정함으로써 연구 방법 개선을 강제하고 있다. 다만 다른 분야는 아직 이를 따라잡지 못하고 있다.
나는 "P값 해킹"이라는 용어 자체가 생기기 전부터 이 문제에 달려들었다. 1980년대에, 나는 뇌의 편재성과 (brain lateralization; 뇌의 좌우 양쪽이 다른 기능을 가짐) 발달 질환에 관한 논문을 심사한 적이 있었는데, 많은 연구 결과에서 손쓰임과 (handedness; 왼손잡이, 오른손잡이, 양손잡이 등) 난독증 사이의 연관성을 주장하고 있었지만, '비전형적 손쓰임(atypical handedness)'의 개념 정의가 - 심지어 동일 연구그룹 내에서도 - 매번 바뀌고 있다는 사실을 발견했다. 나는 이에 대해 냉소적인 글을 발표했는데, 결과를 미리 모아놓은 다음에 데이터를 탐색하는 게 얼마나 쉬운지를 보여주는 시뮬레이션을 포함하였다. (D. V. M. Bishop J. Clin. Exp. Neuropsychol. 12, 812–816; 1990). 이어서 나는 다른 분야에도 비슷한 현상이 일어남을 알아차렸다: 연구자들이 분석은 많이 하지만 "통계적으로 유의한" 것들만 보고한다는 점이다.
이러한 행위는, 이제 P값 해킹이라고 알려져 있으며, 한때 결과의 P값에 의존하는 대부분의 과학 분야에 널리 퍼져 있었으며, 이게 새로운 발견을 얼마나 심각하게 왜곡하게 될 지 깨달은 사람은 거의 없었다. 이런 현상은, 2011년에 출판된, 비틀즈 음악을 들으면 대학생들이 젊어진다는 것을 저자들이 증명하고자 했던, 우아하고 코믹한 한 편의 논문에 의해 바뀌기 시작했다. (J. P. Simmons et al. Psychol. Sci. 22, 1359–1366; 2011). 저자들이 말하길, "공개되지 않은 유연성은, 그 무엇이든 유의하게 만들어 준다."
HARKing (미리 만든 결과로 가설 세우기) 이라는 용어는 1998년에 등장했다. (N. L. Kerr Pers. Soc. Psychol. Rev. 2, 196–217; 1998). P값 해킹처럼, HARKing은 연구자들 사이에서 마치 좋은 방법인 것 처럼 널리 퍼져 있었다. 데이터를 들여다 보고, 흥미로워 보이는 결과를 떼어내어 이 결과에 대해 얘기하는 논문을 쓴다. 물론, 연구자들은 자유롭게 자기 데이터를 보고 새로운 발견을 하는 것이 옳다. 하지만 전체적인 결과를 얻는 과정의 맥락에서 따로 떼어 놓을 경우 P값은 무의미하다.
이 문제들은 대부분의 젊은 교수들의 나이보다 더 오래된 문제들이지만, 새로운 세력들이 "재현성 종말의 네 기수들"의 말고삐를 죄기 시작했다. 첫째, 메타과학이라는 분야가 꽃을 피우고 있고, 이로써 이러한 문제들을 문서화하고 인지하게 되었다. 우리는 이제 더이상 그런 우려들을 순수하게 이론적인 것이라 치부할 수 없게 되었다. 둘째, 소셜 미디어로 인해 논문 출판 직후부터 그런 문제들에 대한 비평이 가능해졌다. 셋째, 전보다 많은 저널들이 "등록 보고서 (registered report)" 형식을 채용하게 되었다. 이는 연구 결과 수집 이전에 편집인들이 실험적 의문과 연구 설계를 평가하는 방식으로, 출판 편향, P값 해킹, HARKing 등을 줄일 수 있는 전략이다. 마지막으로 가장 중요한 점은, 연구비를 지원하는 이들이 이 문제에 관해 심각하게 고려하기 시작했고, 보다 엄격해졌다는 것이다. 이들은 결과 데이터와 원고, 그리고 연구방법을 완전히 공개할 것을 요구하고 있다.
나는 이러한 세력들이 곧 우위를 차지하게 될 것이라 보고 있으며, 이로써 "네 기수"들은 결국 퇴치될 것이라고 믿는다.
Nature 568, 435 (2019). doi: 10.1038/d41586-019-01307-2
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다.
[기사 오류 신고하기]