1. 논문관련 분야의 소개, 동향, 전망을 설명, 연구과정에서 생긴 에피소드
제 논문 관련 분야는 약물역학(pharmacoepidemiology)입니다. 우선 역학(epidemiology)은 인구 내에서의 질병의 분포(distribution) 및 질병의 결정교인(determinant)의 분포에 대해 연구하는 응용통계학 분야입니다. 역학 내에서 약물역학은 약물의 효과나 위험요인에 대해 역학적 방법론을 연구하는 분야입니다. 약물역학의 중요한 역할 중 하나는 임상시험(clinical trial) 후 승인이 나서 실제로 사용되는 약물의 효과나 부작용에 대해서 모니터링하는 것인데, 따라서 전통적으로 전국단위의 빅데이터(big data) 분석을 중요하게 하는 분야입니다. 미국 FDA는 2017년부터 약물의 신규 적응증 허가 과정에서 보건의료 빅데이터 연구를 통해 검증된 결과를 인정하기 시작했으며, 약물 안전성 모니터링 방식도 기존의 수동적인 부작용 보고 시스템을 넘어서 빅데이터를 활용한 능동적 모니터링으로 점점 바뀌고 있다고 합니다.
저는 본래 데이터마이닝(data mining)과 기계학습(machine learning)에 관심이 많아서 건강정보학(health informatics)을 공부했습니다. 이러한 방법론들은 주로 고차원(high-dimension) 데이터에서 장점이 크기 때문에, 빅데이터로 연구를 하게 됩니다. 따라서 자연스럽게 전통적으로 빅데이터로 연구를 하는 분야인 약물역학적인 연구주제로 연구를 하게 되었습니다. 그러나, 제가 공부했던 컴퓨터과학적 방법론과 고전적인 통계학 이론에 의존하는 역학(epidemiology) 방법론 사이에 간극이 크다는 것을 알게 되었습니다. 그러면서 한편으로는, 전통적인 역학(epidemiology) 방법론에서 중요시하는 편향(bias), 교란인자(confounding), 인과추론(causal inference)이 인구(population) 데이터에서 얼마나 중요한지를 알게 되었습니다. 인구 데이터는 모수(population parameter)에 대한 통계학적 추론(statistical inference)의 범위가 명확하게 정의가 되기 때문에, 추론을 위한 모집단의 범위(population boundary)가 명확하지 않은 컴퓨터영상인식(computer vision)이나 자연어처리(natural language processing)과는 풀고자 하는 문제의 특성이 많이 다릅니다.
아스피린과 위암의 상관관계에 대한 제 논문은, 참신한 발견을 처음으로 제시한 것은 아니지만, 기존 다른 논문에서 보고했던 상관관계에 대해서 좀 더 통계학적으로 견고한 분석을 하기 위해서 노력했던 논문입니다. 원래 관찰연구(observational study)는 편향(bias)이나 교란인자(confounding) 때문에 통제된 실험(controlled trial)과 같이 가설에 대한 검정을 확실하게 하는 것이 어렵습니다. 하지만 현대 통계학적인 발전에 따라 편향(bias)이나 교란인자(confounding)를 최대한 보완하여 인과추론(causal inference)을 할 수 있는 이론적인 토대가 많이 발전하였고, 관찰연구(observational study)에서의 엄밀한 분석 결과가 통제된 실험(controlled trial)에서의 결과와 일치하는 경우가 많습니다. 하지만 방법론이 계속 활발하게 발전하는 만큼, 대등하게 인정되는 방법론 여러 가지가 통일되지 않고 여러 갈래로 존재합니다.
제 이번 논문은 전통적인 코호트(cohort) 연구와 다변수 생존회귀분석(multivariable survival analysis)를 주 방법으로 사용하였지만, 리뷰어의 요청에 따라 propensity score matching을 이용한 방법론과 incidence density sampling을 통한 nested cast-control 방법론을 추가하였습니다. 다행히도 여러 방법론의 다르지 않은 결과를 보여주어서, 임상의학에 실질적인 기여를 할 수 있는 중요한 근거로 인정받을 수 있었던 듯 합니다.
2. 연구를 진행했던 소속기관 또는 연구소에 대해 소개 부탁 드립니다.
본 연구는 서울대학교 의과학/가정의학과 박상민 교수님의 지도로 진행되었습니다. 박상민 교수님의 시스템 데이터 사이언스 연구실 (Health System Data Science Lab)은 서울대학교 의과학과에 소속되어 있으며 의학, 공학, 자연과학 등 여러 전공분야의 학생들이 모여 보건의료 빅데이터(healthcare big data)를 기반으로 다학제(interdesciplinary)적인 연구를 진행하고 있습니다.
박상민 교수님의 시스템 데이터 사이언스 연구실의 주된 연구분야는 보건의료-사회환경 융합 빅데이터 구축 및 활용 연구, 경제성 평가 (economic evaluation in healthcare), 약물역학 (pharmacoepidemiology), 메타분석 (meta-analysis), 기계학습 (machine learning in medicine)이며 융합 데이터 기반 연구 (data-driven research)를 통해 건강위험인자 평가모델(health risk assessment model)을 개인별 및 지역수준으로 확대하는 연구를 진행 중입니다. 시스템 데이터 사이언스 연구실은 다양한 학문 분야와의 융합연구를 권장하고 있으며 실질적으로 학계뿐만 아니라 산업계에 있는 전문가들과 함께 보건의료기술 및 보건의료 정책과 관련된 연구를 수행 할 수 있는 기회가 있습니다.
3. 연구활동 하시면서 평소 느끼신 점 또는 자부심, 보람
요새 빅데이터, 기계학습, 데이터과학, 인공지능 등은 사회 전반적으로 많은 관심을 받는 방법론들입니다. 이러한 방법론들은 여러 다양한 분야에 적용이 되고 있는데, 그 중에서도 특히 건강/의료 관련 연구는 사회적으로 많은 기대를 가지고 있습니다. 하지만 사회적인 기대에 비해서 건강관련 인구(population) 데이터에 대한 데이터과학은 아직은 초기단계입니다. 한편으로는 아직 충분히 성숙하지 않은 이해를 바탕으로 다른 분야에서의 경험을 그대로 인구(population) 데이터에 적용하는 실수도 종종 목격합니다. 인구(population) 데이터를 통한 건강 연구는 사람들의 삶에 직접적인 영향을 미치기 때문에, 매스컴에서도 종종 보도를 하고 사회적인 영향력이 지대할 수 있습니다. 따라서 참신성보다는 엄밀성이 훨씬 중요하며, 늘 신중한 자세로 연구를 수행해야 합니다.
저는 건강관련 인구 (population) 건강 데이터 과학에서 앞서나가고 계신 분이신 박상민 교수님의 지도를 받은 점에 자부심을 느낍니다. 박상민 교수님께서는 전통적인 건강 관련 분야인 임상의학과 보건학으로 수련받고 학위를 하셨으면서도, 최신 데이터과학에도 깊은 관심을 갖고 계신 분입니다. 저는 박상민 교수님의 균형 잡힌 지도를 통해서 전통적인 방법론과 최신 방법론을 조화롭게 연결하여 인구(population) 데이터로, 사람들의 건강에 실질적인 기여를 할 수 있는 연구를 하고 있다는 보람을 느낍니다.
4. 이 분야로 진학하려는 후배들 또는 유학준비생들에게 도움이 되는 말씀을 해 주신다면?
이 분야에 관심을 가지신 분들은 우선 수학과 통계학을 깊이 공부하시기를 바랍니다. 공학적인 수학 외에도, 증명 위주의 수학 공부를 어느 정도 하셔서, 엄밀한 논리 전개에 대한 수련을 받으시면 큰 도움이 될 것입니다. 그리고 통계학의 응용 방법 외에, 통계학적인 추론 이론에 대해서 깊이 공부하시기를 바랍니다. 더불어 역학(epidemiology)에 대해서도 별도로 공부하실 것을 권장해드립니다. 역학(epidemiology)은 전통적으로 인구 내에서의 질병의 분포(distribution) 및 질병의 결정교인(determinant)의 분포에 대해 연구하는 응용통계학 분야로서, 수식으로 표현되는 데이터의 패턴을 인구 내에서의 실제 현상에 접목하여 실질적인 기여를 하기 위한 깊이 있는 성찰을 배울 수 있는 분야입니다.
5. 연구활동과 관련된 앞으로의 계획이 있으시다면?
위 항목에 제가 드린 조언들은 저 스스로에게도 필요한 조언들입니다. 저 역시 증명 위주의 수학과, 통계학적인 추론 이론, 그리고 역학(epidemiology) 이론들을 좀 더 깊이 공부하기 위해 노력하고 있습니다.
앞으로 관찰연구(observational study)에서의 엄밀한 분석 결과가 통제된 실험(controlled trial)에서의 결과와 점점 대등하게 인정될 경우, 건강에 대한 학문적 지식은 폭발적인 속도로 증가하리라 기대합니다. 좀 더 앞서나가는 학자들과 함께, 이러한 학문적 기여에 조금이나마 참여하고 싶은 소망이 있습니다.
6. 다른 하시고 싶은 이야기들....
제가 공부하는 분야는 다양한 학분 분야의 이론들이 접목되는 융합분야입니다. 어린 시절 막연하게 융합분야에 대해 가졌던 환상에 비해서, 융합분야에서 존재하는 다양한 어려움들도 점점 알아가고 있습니다. 요새 특히 중요하게 느끼는 점은, 서로 다른 학문적 배경을 가진 사람들끼리 의사소통이 잘 안 되어서, 경우에 따라 오히려 불필요한 비효율을 초래하고 잘못된 결론을 도출할 수 있다는 것입니다. 따라서 아무리 협력 연구를 하더라도, 각 학자들이 상대방의 학문분야를 공부하고 이해하려는 노력이 중요한 것 같습니다.