국내외 바이오 관련 동향 뉴스를 신속하게 제공합니다.
뉴스 종합
[난그댄] 삶과 죽음 사이에는 사건이 있다
Bio통신원(뉴로(필명))
여러분 안녕하세요. 지난 시간 동안 다양한 그래프들을 탐구했습니다. 박스플랏, 산포도, tSNE, PCA, 덴드로그램 등등 다양한 생물학적인 데이터fmf 표현하는 여러가지 방법들을 알아봤고 논문의 실제 데이터를 다운 받아 그려봤습니다. 이제 마지막으로 우리는 생존 분석(survival analysis)에서 꼭 빠지지 않는 카플란-마이어 플랏(Kaplan-Meier plot, KM 플랏)을 알아보려 합니다.
KM 플랏은 경과에 따른 생존 확률을 나타내는 곡선으로, 생존 분석의 결과를 시각적으로 보여줍니다. 이 플랏은 사건(예: 사망, 치료 실패, 고객 이탈 등)이 발생하지 않은 기간 동안의 누적 생존 확률을 계산하여 표시합니다. KM 방법의 주요 특징은 검열 데이터(Censored Data)를 효과적으로 처리할 수 있다는 점입니다.
검열 데이터는 분석 종료 시점까지 사건이 발생하지 않은 관측값을 의미합니다. 우리가 어떤 항암제의 효과를 알아보기 위해 환자들을 추적관리한다고 해봅시다. 이럴 때, 우리가 모든 환자들이 사망할 때까지 데이터를 모은다면 좋겠지만 그것은 현실적으로 매우 힘든 일입니다. 따라서, 2024년 1월 1일부터 데이터를 환자들을 추적관찰해서 2025년 12월 31일까지 연구기간이 끝난다면 2025년 12월 31일에 생존하고 있던 환자분들을 검열된 데이터로 처리하게 됩니다. 이러한 환자들은 사건(event)이 일어나지 않았다고 말합니다. 대부분의 생존기간 분석에서는 사건은 환자의 사망(death)를 의미하지만 목적에 따라 질환이 재발병된 것처럼 다른 의미를 가질 수 있습니다.
KM 플랏을 그리기 위해서는 최소한 2가지의 요소가 필요합니다. 먼저, 개별 환자들 별로 얼마큼 생존했는지에 대한 생존기간(survival period)가 필요합니다. 두 번째로, 사건의 발생 여부를 나타내는 정보가 필요합니다. 흔히, 사건의 발생여부는 발생한 경우는 1이고 발생하지 않은 경우에는 0으로 표기합니다. 이러한 이유는 로그 순위 검정법(log-rank test)과 같은 통계방법을 사용할 때 입력값으로 0과 1이 들어가기 때문에 그렇습니다. 추가적인 요소로는 환자들을 구분하는 그룹(group)에 대한 정보가 들어갑니다. 일반적으로 우리가 연구를 할 때는 실험군과 대조군을 구분하기 때문에 플랏을 그리기 위해서는 생존기간과 검열 정보만 있어도 되지만 여러분이 보는 거의 모든 논문에는 3가지 정보가 들어가 있습니다 (그림 1).
KM 플랏에서 그래프는 계단 형태로 움직이는 형태로 나타나며 이를 생존 곡선(Survival curve)이라 부릅니다. 이는 각 시점에서 사망한 환자와 사망에 노출된 사람의 숫자의 비율로 나타내게 됩니다. 간단한 예시 데이터로 각 과정을 설명하겠습니다.
1. 먼저, 환자 생존 데이터 테이블을 생존 시간 순으로 정렬합니다.
그림 2. 생존 기간 순으로 정렬된 환자 생존 데이터
그림 3. time=2에서의 위험 노출 환자의 수
수식 1. t 시점에서의 생존확률 (S)를 위험 노출된 환자의 수 (NR)와 사건의 발생 수 (EV)로부터 구하는 수식.
t=2 시점의 직전 생존확률은 모든 환자들이 살아있으므로 1이었으므로 1 x (1-1/7)의 값으로 t=2 시점의 생존확률이 계산됩니다.
그림 4. time=2 시점의 생존확률
그림 5. time=3 시점의 위험 노출 환자 수와 생존확률 그리고 time=4에서의 위험 노출 환자의 수
그림 6. 모든 시점에서의 계산된 위험 노출 환자 수와 생존확률.
그림 7. KM 플랏의 생존커브.
그림 8. 로그 순위 검정법 (log-rank test)이 적용된 KM plot [출처 1]
그림 9. 로그 순위 검정법 과정을 보여주기 위한 A와 B 그룹 생존 데이터. A에서 달라진 부분은 B에서 파란색으로 표기함.
수식 2. 각 그룹의 t시점 별 사건 발생 기댓값 (E)와 분산 (V)를 구하는 수식들. g는 group의 약자로 A 또는 B를 넣으면 됨.
그림 10. 수식을 적용한 후의 각 그룹 별 t시점 별 기대 값과 분산 값
수식 3. 수식 2를 활용해 그룹 (g)의 카이 제곱 값을 계산하는 수식. t는 시점 (time point)를 의미함.
이 결과로 카이제곱값은 약 1.386이고 이를 카이제곱 분포 (chi square distribution)에 대입하면 두 그룹의 위험함수가 얼마나 다른지에 대한 p값이 나오게 됩니다. 코드 실습에 포함되어 있지만 p값은 0.24 정도로 나오게 됩니다. 보통 유의 수준은 0.05로 설정하기 때문에 예제 데이터에서는 두 그룹 간의 생존은 유의미한 차이가 없다고 말하게 됩니다.
이번 연재로 유전자의 발현값, 고차원 데이터, 서열 데이터 그리고 생존 데이터의 표현법과 이에 대한 통계적 방법론 등을 제 연재에서 다뤄봤습니다. 제 지식이 부족해서 아직 다루지 못한 그래프들도 많습니다. 특히, 병리학 데이터나 단백질 구조 데이터는 아는 것이 없어 다루지 못한 것은 무척 아쉽고 죄송합니다. 그러나, 언젠가는 더 훌륭한 분이 다뤄주시리라 믿으며 연재를 마감합니다. 그간, 관심 가져주시고 사랑해 주신 모든 분들께 감사드립니다.
마지막으로, 늘 그렇듯이 실습이 중요합니다. 코랩을 통한 실습이 남아있으니 꼭 들어가서 실습하시기 바랍니다. 그럼, 여러분 모두 멋진 그래프를 그리기 빕니다. 진짜로 안녕!
노트북
https://colab.research.google.com/drive/1cA5WkwG-8VAFWBYRcmDm6s2kTWsJc0nS?usp=sharing
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다.
[기사 오류 신고하기]
생명과학자들은 반드시 '그래프 3 잘'이라는 소양이 있어야 한다. 그래프 3 잘 이란 '그래프를 잘 보고, 잘 이해하고, 잘 그려야 한다'라는 뜻이다. 그러나, 이 중요한 소양은 대게 좌충우돌과 시행착오로 개개인이 습득을 한다. 이 글은 생명과학 데이터로 '그래프 3 잘'하고 싶은 독자들을 돕고자 하는 글이다. 저자 뉴로는 '암은 굶어죽지 않는다.'를 신념으로 삼고 살아가는 직장인이다. 오늘도 그는 종양 오믹스데이터로 그래프를 그린다.
다른 연재기사 보기
전체 보기