목차
1. 서론
2. 확률-통계
3. 통계적 가설검정
4. 잘못된 만남
5. 데우스 엑스 마키나
6. 재현성의 위기
7. 향후 대책
8. 참고문헌
1. 서론
“옛날 한 마을에 서로 석궁 실력을 다투던 두 사냥꾼이 있었다. 어느 날 그들은 실력을 겨루기 위해 깊은 숲으로 들어갔다. 하지만 갑작스러운 폭설로 길을 잃고 며칠을 헤매게 된다. 허기와 추위로 탈진했을 때 큼직한 사슴을 발견한다. 사냥꾼들은 가지고 있던 화살 10발을 교대로 쏘지만 모두 빗나갔고 사슴은 도망가 버린다. 절망에 빠진 그들은 모든 화살을 자기가 쏘아야 했다고 싸우기 시작하였다. 결론이 나지 않는 싸움 도중에 갑자기 펑 하고 여신이 나타났다. 화려한 P모양의 왕관을 쓴 여신은 각자의 화살이 빗나간 거리를 물어본 뒤 계산기를 두들기더니 엄숙하게 말했다. “둘의 석궁 실력에 차이가 없다는 가설은 유의수준 0.05로 기각한다.” 다음날 마을 사람들이 사냥꾼들을 찾았을 때, 웃으며 쓰러져 있는 사냥꾼의 이마에는 별표(*)가 빛나고 있었다.”
기계장치에서 튀어나온 신이라는 뜻의 데우스 엑스 마키나(deus ex machina)는 이야기 도중 갑자기 튀어나와 복잡하게 얽힌 이야기를 맥락 없이 해결하는 비논리적 요소를 말한다. 고대 그리스의 희극에서조차 금지되었던 이 비논리적 요소가 이천 년의 시간을 뛰어넘어 현대의 과학 논문에 빈번하게 출현하고 있다. 펍메드에서 검색하다 보면 재미있는 논문들이 눈길을 끈다: 근육질의 사람은 보수적이다[1]. 임신 가능성이 높은 여성은 빨간색 옷을 입는다[2]. 미래를 보는 초능력이 증명되었다[3]. 여성의 정치 성향은 월경주기에 영향을 받는다[4]. 이 논문들을 살펴보면 p값이 0.05보다 작기 때문에 이상한 결론들은 적어도 ‘통계적으로는’ 유의미하다. 이처럼 의생명과학 연구에서 p값은 사슴을 놓친 사냥꾼들 앞에 나타나는 데우스 엑스 마키나와 다름 없다. 기약없던 연구라도 p가 0.05보다 작으면 자랑스럽게 별표를 달고 논문으로 출판된다. 반대로 논리적 근거가 충실한 연구라도 0.05를 넘으면 쓰레기통으로 들어간다.
현실적인 상황을 예로 들어보자. 엄청난 시간과 비용을 투자하여 새로운 혈압 약을 개발하는 과정에서 인체에서 효과를 검정해야 하는 최종 단계를 가정하자. 전체 인구를 대상으로 검정할 수는 없기 때문에 무작위 샘플링으로 표본 집단을 구성하고, 똑같이 생긴 신약과 가짜를 무작위로 나눠 주고 혈압을 측정한다. 그런데 혈압은 사람마다 차이가 있으며, 동일인이라도 측정하는 시기에 의해 차이가 있으며, 심지어는 혈압계에 의해서도 차이가 발생한다. 이처럼 변동이 가득한 측정치로 두 집단의 차이를 직접 증명하는 것은 어렵다. 대신 ‘신약과 가짜 약의 투여 집단 사이의 혈압에는 차이가 없다’라는 가상의 가설을 설정하고 혈압의 동질성을 검정하면 문제를 우회할 수 있다. 이런 가설을 귀무가설이라 하며 이것을 지지하는 확률을 p값 (probability value)이라 정의한다. 일반적으로 p값이 0.05보다 작으면 귀무가설은 틀렸다고 판정하며, 이 경우는 신약에 효과가 있다는 결론을 내리게 된다. 이처럼 집단의 차이를 확인하는 문제를 귀무가설을 이용해 동질성을 확인하는 문제로 변환시키게 되면 확률적 접근이 명확해진다. 이런 접근법은 교과서의 첫 부분에 나올 정도로 의생명과학에서 필수적인 연구 방법으로 뿌리내리고 있다. 논리적으로 명료해 보이는 이 가설검정법이 왜 심각한 문제를 부작용을 일으킨다는 것일까? 그 이유를 이해하기 위해서는 시간을 거슬러 올라가 이런 검정기법이 탄생한 배경을 살펴봐야 한다.
2. 확률-통계
과학이란 자연 현상의 인과관계를 규명하려는 목적을 가지고 탄생하였다. 철학이 과학을 품고 있던 고대 그리스의 플라톤은 모든 자연현상에는 불변의 원리가 존재한다고 생각하였다. 이런 결정론적 사상은 르네상스의 과학혁명에 의해 피어나게 된다. 데카르트는 가설에서 출발해 자연현상을 설명하는 연역법을 과학의 표준 접근법으로 확립하였고, 뉴턴은 물체를 움직이는 힘을 수학적으로 설명하여 과학을 철학에서 완전히 분리시키게 된다(그림 1 연역법). 플라톤의 결정론, 데카르트의 연역법, 뉴턴의 수학적 기술은 신 플라톤주의라고 불리며 이후 모든 과학의 표준원리가 된다. 하지만 많은 자연현상은 복잡계에 의해 발현된다. 여러 원인들이 상호 작용하여 예측할 수 없는 새로운 현상이 창발되는 복잡계는 연역적 접근이 어려운 영역이다. 아리스토텔레스의 자연철학에 뿌리를 두고 베이컨에 의해 제시된 귀납법은 자연현상의 관찰에서 출발해 목적론적 가설을 도출하기 때문에 복잡계의 연구에 적합하다(그림 1 귀납법). 하지만 신 플라톤주의가 과학을 지배 했기에 귀납법은 변방으로 밀려나게 된다. 복잡계를 다루는 생물학은 자연 철학에 심취한 다윈이 출판한 ‘종의 기원’을 계기로 본격적으로 발전하기 시작한다. 다윈의 사촌이었던 골턴은 사람의 유전을 연구하며 귀납법에서 중요한 통계의 기초를 세웠고, 그의 후계자 칼 피어슨은 기술 통계학을 확립한다. 과학을 주도했던 신 플라톤주의에서는 측정값의 변동성을 오차로 취급하였다. 물리학자들은 오차를 라플라스의 도깨비라고 불렀으며 측정 기술이 부족해서 발생한다고 믿었다. 하지만 칼 피어슨은 변동성 자체를 자연에 내제된 확률적 특성으로 파악하고, 측정값은 확률의 분포에 의해 나타난다고 정의하였다. 이후로 확률은 통계의 가장 중요한 기본 원리가 된다. 기술 통계가 모집단을 대표 값들로 표현하는 방법이라면, 추론 통계는 집단의 차이나 연관성을 추정하는 방법을 다룬다. 추론 통계는 피어슨, 고셋, 피셔 세 명의 맹렬한 논쟁을 통해 기반이 다져졌으며 카이제곱 분포, t-분포, F-분포 등의 확률 분포와 추론 통계의 수학적 기법들이 이들에 의해 탄생한다.
그림 1. 연역법과 귀납법의 혼합인 통계적 가설 검정
3. 통계적 가설검정
통계학의 기틀이 다져지던 무렵 영국의 한 귀부인은 밀크홍차의 맛만 보고 우유와 차를 따른 순서를 구분할 수 있다고 주장하였다. 이를 믿지 않았던 피셔는 귀무가설을 설정하고 이를 증명하는 실험을 준비한다. 우유와 차를 다른 순서로 따른 홍차를 4개씩 준비하여 총 8개를 무작위의 순서로 귀부인에게 맛보게 한 뒤 답을 말하게 하였다. 설계가 허망하게 귀부인은 차를 만든 순서를 모두 맞추었다. 하지만 피셔는 ‘차 마시는 여인’의 문제를 통해 귀무가설과 무작위를 이용한 가설 검정기법을 제시한다[5]. 여기서 피셔는 귀무가설의 기각 문제만 고려했지만 귀무가설의 기각은 자연스럽게 대립가설로 연결된다. 이를 해결하기 위해 이건 피어슨은 집단의 측정치에 차이가 있다는 가설을 대립가설로 두고, 차이가 없다는 가상의 귀무가설의 기각을 통해 대립가설을 채택하는 가설의 설정법을 제시한다(그림 1 가설검정). 하지만 여기에는 논리학적 틈이 있다. 앞의 혈압 약의 검정문제에서 “두 집단의 차이가 없으면 효과가 없다”가 귀무가설이었다. 하지만 귀무가설의 기각으로 채택한 대립가설은 “두 집단의 차이가 있으면 효과가 있다” 인데, 이는 귀무가설의 이(inverse)로서 귀무가설과 동치인 대우명제(contrapositive)가 아니다. 실제 데이터의 분석을 통해 얻어지는 두 가설의 확률 분포는 상당 부분이 겹치게 된다. 이런 이유로 검정 통계량으로 귀무가설을 기각하면 오류들이 발생된다(그림 2). 이것이 교과서에 나오는 1종, 2종 오류들의 발생 원인이다. 데이터에서 유도되는 확률 분포에서 두 오류를 동시에 줄이는 것은 불가능하다. 귀무가설의 기각으로 대립가설 채택이 논리적으로 확실한 경우는 두 가설이 완전히 배타적인 경우만 가능하다. 이 문제에 대한 논쟁은 오랜 기간 이어진다. 피셔는 어차피 통계적 가설검정에는 불확실성의 한계가 있어 0.05로 귀무가설을 기각하는 것으로 충분하다고 하였다. 그리고 기각이 되는 경우 추가적인 실험이나 다른 분석을 하는 것이 중요하다고 주장했다. 이에 반해 피어슨과 네이먼은 정해진 데이터만으로 가설검정을 해야 할 경우가 있으며, 이 경우 검정력을 최대화하는 유의 수준을 매번 다시 설정해야 한다고 주장하였다. 이건 피어슨은 칼 피어슨의 아들로 아버지를 괴롭힌 피셔에게 개인적 원한을 가졌는지는 알 수는 없지만, 피어슨은 피셔의 검정법을 무의미를 넘어서 최악이라고 비난하였으며, 피셔는 피어슨의 검정법을 유치할 뿐 아니라 악몽이라 평가할 정도로 이들은 심각하게 싸웠다[6].
그림 2. 귀무가설과 대립가설은 비동치 관계
4. 잘못된 만남
신 플라톤주의가 팽배했던 시기에 생물학은 변방에 놓여 있었다. 오랜 기간 변방의 과학자들은 데이터를 이용해 가설을 계량적으로 검정하는 방법에 목말라 있었다. 이 상황에서 귀무가설을 이용한 추정 통계는 가뭄의 단비와 같은 존재였다. 하지만 이런 간절함에도 불구하고 피셔와 피어슨의 격렬한 논쟁은 끝날 기미가 보이지 않는다. 피셔는 가설 검정의 한계를 인정하고 이를 통해서는 최소한의 가능성만 확인해야 한다는 관점이었다. 피어슨은 통계만으로 결론을 추정해야 하는 불가피한 상황이 존재하며, 불가피하게 발생되는 오류를 적극적으로 줄여야 한다고 주장하였다. 이처럼 근원적 관점이 달랐기 때문에 논쟁은 끝이 날 기미를 보이지 않는다. 결국 결론도 나지 않은 상태에서 피어슨의 귀무가설과 대립가설 설정과, 피셔의 p<0.05로 귀무가설을 기각하는 방법론이 잘못 결합되어 외부로 퍼져 나간다. 가설검정은 수치만으로도 계산 가능하기 때문에 관점에 대한 이해가 없어도 쉽게 적용이 가능하기 때문이었다. 통계학자들은 다른 학문 분야의 내용을 이해하기 어렵고 다른 분야의 학자들은 통계의 깊은 의미를 이해하지 못하는 학문들의 단절현상이 심화되면서 수십 년의 시간이 흘렀다. 잘못 결합된 이상한 가설검정법이 의생명과학 분야에서 사용되는 것을 뒤늦게 확인한 통계학자들은 p값의 무비판적 수용을 그만두라고 지속적으로 경고를 하고 있지만 뿌리 박힌 p값에 대한 그릇된 인식은 제거되지 못하고 있다[7].
5. 데우스 엑스 마키나
현재 의생명 과학에서 널리 사용되고 있는 가설검정법은 피셔의 것도 네이만-피어슨의 것도 아니다. 피셔는 통계적으로 의미가 있다는 말을 결론을 위해 사용하지 않았으며 단지 주목할 가치가 있다는 최소의 의미로 사용하였다[8]. 따라서 피셔의 귀무가설 기각은 유의미한 가설을 확인해 새로운 연구의 단초를 제공하는 시작일 뿐이지 피어슨의 대립가설의 채택을 정당화하는 도구가 될 수 없다. 대신 네이만-피어슨은 귀무가설의 동치가 아닌 대립가설을 채택하기 위해서 발생하는 오류를 최소화하는 방법을 제시하였다. 하지만 이런 배경 논리는 다 무시되고 ‘귀무가설이 0.05로 기각되면 대립가설을 채택’한다는 기계적인 방법이 의생명과학의 연구에 급속히 확산된다. 그 결과 최소의 연관성이 결론으로 부풀려진 결과들이 쏟아져 나오기 시작한 것이다.
사람은 표현에 의해 신뢰도의 차이를 느끼는 심리적 편향을 가지고 있다. 예를 들어 ‘가능하다’, ‘십중팔구’, ‘0.85±0.5’의 표현들은 동일한 확률 정보를 담고 있지만 후자로 갈수록 신뢰도가 올라간다. 이처럼 표현에 대한 선입견에 의해 신뢰도가 편향되는 현상을 닻 효과(anchoring effect)라고 한다[9]. 이는 화물의 내용에 상관없이 닻을 내리면 배 전체가 항구에 정박하는 걸 비유하는 용어이다. 이런 효과 때문에 p값으로 논문 전체의 신뢰도를 결정하는 잘못된 인식은 급속도로 퍼져 나갔다. 그 결과 “통계적으로 유의하다” 라는 관용구는 논문에 가장 많이 등장하는 용어가 되었고 p값이 0.05이하로 나오면 별 하나, 0.01이하이면 별 둘, 0.001이하이면 별 셋을 자랑스럽게 붙여준다. 수많은 노력이 들어간 논문의 가치를 0.05라는 수치 하나로 결정하는 관행은 많은 부작용을 가져왔다. 동일한 내용이라도 0.049는 쉽게 논문으로 출판이 되지만, 0.051는 버려지거나 출판이 가능한 저널을 찾아 헤메게 된다. 설상가상으로 출판이 중요해진 성과우선주의에 휩쓸리면서 과학적 내용보다 0.05라는 수치가 더 중요해지는 주객 전도의 상황이 빈번해졌다. P값 해킹(P hacking)은 p값이 0.05 이하로 나올 때까지 데이터 분석을 계속 시도를 하는 것을 말한다[6]. 무작위의 결과라도 여러 번 시도하면 확률적으로 한번 정도는 p값이 0.05이하로 나오게 된다. 그럼 그 내용에 맞추어 결론을 내리고 논문을 작성하는 것이다. 이런 P 해킹이 암암리에 일어나고 있다는 것은 발표된 논문들의 p값이 대부분 0.05 근처에 몰려있다는 것에서 간접적으로 확인된다[10].
6. 재현성의 위기
영국 왕립협회의 헨리 올덴버그가 1665년 창간한 ‘철학 통신’이라는 과학 학술지가 등장한 이후 발표되는 과학 논문의 수는 대략 9년마다 두 배씩 기하급수적으로 증가해왔다[11]. 과학 논문의 누적 속도는 과학의 발전을 보여주는 증거이다. 하지만 ‘publish or perish’라는 출판을 우선하는 성과주의는 재현성의 위기도 같이 불러왔다[12]. 네이처지에서 조사한 결과 출판 논문의 70%, 자신의 결과조차 50% 정도가 재현이 되지 않는다고 보고하였으며, 90%의 과학자는 이를 심각한 위기로 인지하는 것으로 조사되었다[13]. 출판된 논문의 낮은 재현성은 연구 설계와 방법의 오류, 결과의 편향적 선택, 결과 검정 부실, 재료의 편차, 결과 해석의 논리적 오류, 악의적인 결과 조작, 그리고 잘못된 통계적 검정 기법의 적용 등 다양한 이유로 발생된다[14]. 이 중 연구 윤리나 방법론에 관련된 원인들은 개인 연구자 수준에서 발생하는 것에 반해, 잘못된 통계 기법의 사용은 구조적으로 발생하는 문제이다. 실제 가설 검정의 재현성은 기존의 지식에 의해 새로운 가설이 얼마나 지지받는가에 의해 결정된다. 동일한 유의수준 0.05으로 가설을 검정할 때, 만약 기존의 지식이 가설을 지지하는 확률이 5% 밖에 되지 않는다면 가설 검정을 통해 유의미한 결과를 얻어도 재현이 되지 않을 확률이 89%나 된다. 만약 기존 지식이 50%로 가설을 지지해도 29%는 재현이 되지 않는다. 적어도 기존 지식이 90% 이상으로 가설을 지지하는 경우에만 가설 검정의 결과가 95%정도로 재현이 가능하다[6]. 그런데 기존 지식에 의해 90%의 지지를 받는 가설은 새로운 발견이 아니므로 논문으로 출판되기 어렵다. 이런 이유로 논문거리가 되는 신선하고 새로운 가설일수록 재현성이 낮아지는 딜레마가 발생한다. 또한 과학이 발전해서 세부 분야의 연구 내용이 어려워 질수록 p값을 이용해 논문의 가치를 계량하는 것은 편리함을 준다. 이 때문에 연구자, 편집자, 공무원에 이르기까지 의생명과학의 전반에 p값에 대한 잘못된 이해가 구조적으로 고착이 되어지게 되었다[15].
7. 향후 대책
생물학 통계 교과서에서 소개되는 가설검정법은 일세기 전에 개발된 기법이다. 그나마도 잘못된 가설검정 기법이 의생명과학을 지배하는 동안 확률론 자체는 계속 발전해왔고, 컴퓨터의 발전은 실시간 확률분포의 계산을 가능하게 하였다. 그 결과 기존의 확률 정보가 실험이나 관찰에 의해 새롭게 갱신되는 베이시안 기법이 발전하였다[16]. 베이시안 기법은 고전적인 통계에서 확률을 다루는 빈도론과 충돌하는 것처럼 보이지만, 본질적으로 둘은 상호 보완적 성격을 가지고 있다. 마치 고전적 물리학을 양자역학이 확장시킨 것처럼 통계학에 적용되는 확률을 더욱 유연하게 확장시킨 것이 베이시안이다. 하지만 베이시안 기법이 의생명과학에 전 방위적으로 뿌리를 내리고 있는 p<0.05라는 관념을 당장 제거할 것이라 기대하기는 힘들다. 따라서 당분간은 가설검정의 한계를 명확히 인지하고 사용하는 것이 중요하다.
독립적으로 완결되는 논문들이 지식 정보로서 가치가 있으려면 결론들이 유기적으로 연결될 수 있어야 한다. 이를 위해서 통계적으로 유의미라는 말 뒤에 데이터를 감추는 관행이 없어져야 하며, 확신구간과 평균도 항상 같이 고려해야 한다[15]. 그리고 통계를 이용한 가설 검정의 결론에 그치지 않고 대립 가설을 지지하는 새로운 증거들을 모아야 한다. 만약 p값만으로 결론을 내려야 한다면 잘못된 해석을 경계해야 한다. 가설 검정은 수치만으로 이루어지며 배경 지식을 고려하지 않기 때문에 잘못 수집된 데이터의 오류를 걸러낼 수도 없고, 인과관계를 찾아낼 수도 없다. 기계적으로 가설검정을 사용하면 잘못된 질문에도 의미를 부여할 위험이 있으며, 잘못된 데이터를 유의미한 결론으로 바꾸어 버리는 오류도 발생한다. 마지막으로 심각하게 고려해야 할 문제는 진짜 의미가 있는 결과마저 유의수준이라는 이분법에 잘려나가는 경우가 생긴다는 것이다. 실제 가치가 있는 연구결과도 단지 0.05를 맞추지 못해 버려지는 경우도 빈번하게 발생한다. 이렇게 결론만 남기고 데이터를 버리는 문제는 빅데이터의 시대를 맞이하는 과학계의 큰 손실이 되고 있다. 과학 연구의 본질은 가설을 설정하고 객관적 사실에 기반하여 증명을 시도하는 것이다. 그리고 동료 과학자에게 가능한 정확한 정보를 전달하여 과학이라는 집단지식의 발전에 기여하기 위해서 논문을 출판하는 것이다. 현재 과학자들은 어디선가 연기가 피어나는데 불길이 보이지 않는다고 애써 무시하고 있다. 문제의 해결은 모든 원인을 테이블 위에 솔직히 올려놓는 것에서 시작된다. 의생명과학의 기반을 위협하는 망령인 ‘p < 0.05’ 라는 데우스 엑스 마키나를 빨리 직시하지 않는다면, 올바른 정보를 찾기 위해서 쓰레기 더미를 힘들게 뒤져야 하는 순간이 곧 찾아오게 될 것이다.
8. 참고문헌
==> PDF 참조