국내외 바이오 관련 동향 뉴스를 신속하게 제공합니다.
뉴스 의학약학
한국인 맞춤형 ‘당뇨 위험 예측 모델’ 나왔다
Bio통신원(UNIST)
한국인에 특화된 ‘제2형 당뇨’ 발병 예측을 위한 기계학습 모델이 개발됐다.
UNIST(총장 이용훈) 산업공학과 이정혜 교수팀과 고신대학교복음병원 가정의학과 강지훈 교수팀은 대규모 한국인 코호트를 바탕으로 제2형 당뇨 발병 예측 성능을 높인 기계학습 모델을 개발했다. 이들은 한국인에 특화된 다유전자 위험 점수(Genome-wide Polygenic Risk Score, gPRS)를 개발하고, 여기에 인구통계학적 정보와 임상 정보, 대사체 정보를 함께 활용했다.
당뇨는 30세 이상의 한국인 6명 중 1명이 앓을 정도로 흔한 질병이다. 뇌졸중이나 심혈관계 질환 등의 합병증을 유발하는 위험한 만성질환이라 사전 예방이 중요하다. 당뇨 발병에는 식생활을 포함한 생활 습관, 유전적 조건 등이 중요하며, 이런 정보를 토대로 한 예측 모델 연구가 꾸준히 진행 중이다.
기존의 당뇨 발병 위험예측 모델 연구는 주로 서양인 집단을 대상으로 했다. 동양인을 대상으로 해도 키와 몸무게, 가족력 같은 인구통계학적 정보나 당화혈색소(HbA1c) 수치, 콜레스테롤 수치와 같은 임상 정보를 위주로 이용했다. 이렇다 보니 한국인에 특화된 유전적‧환경적 요인까지 반영한 당뇨 예측에는 한계가 있었다.
이에 연구진은 한국인에 특화된 정보를 활용한 예측 모델 개발에 도전했다. 질병관리본부 국립보건원에서 수집한 한국인유전체역학조사사업(KoGES)의 대규모 코호트를 바탕으로 삼은 것이다. 이 코호트는 한국인에게 흔히 발생하는 당뇨, 고혈압, 비만, 대사증후군 등의 만성질환 연구를 위해 2001년부터 추적‧수집된 자료다.
연구진은 인구통계학적인 정보, 임상 정보에 유전 정보와 환경 정보를 더해 종합하면서 당뇨 발병 예측 성능을 높였다. 제1저자인 한석주 UNIST 산업공학과 박사과정 연구원은 “제2형 당뇨 발병에 관한 유전 정보는 ‘다유전자 위험 점수’를 한국인 유전자 특성에 맞게 새로 계산해 예측 모델에 활용했다”며 “환경 정보는 ‘대사체’로 반영해 유전 정보가 설명하지 못하는 정보를 상호보완했다”고 설명했다.
최종 개발된 제2형 당뇨 발병 예측 모델은 인구통계학적 정보만 활용한 경우보다 약 11퍼센트포인트(%p) 예측 성능이 높았다. 인구통계학적 정보와 임상 정보까지 활용한 경우에 비해도 약 4퍼센트포인트(%p) 이상의 향상된 예측 성능을 보였다.
공동 제1저자인 김수현 UNIST 산업공학과 박사과정 연구원은 “한국인 대상 코호트에서 인구통계학적 정보와 임상 정보를 얻고, 여기에 새로 개발한 다유전자 위험 점수, 대사체 정보 등을 더할수록 모델의 예측 정확도가 높아졌다”고 강조했다.
이번에 개발된 모델은 우리나라 국민에게 특화된 당뇨 발병 위험도를 파악하고, 발생 요인도 제공할 수 있다. 이 모델을 임상 현장에서 활용한다면 제2형 당뇨를 효과적으로 예방하고 대응할 수 있다는 게 연구진의 전망이다.
이정혜 교수는 “서양인 코호트 중심으로 진행되던 연구를 한국인 코호트로 바꾸어 접근한 것에 큰 의미가 있다”며 “아시아 집단의 코호트 데이터를 이용하는 다양한 후속 연구에도 활용될 수 있을 것”이라고 기대했다.
이번 연구는 의학 분야 최고 학술지인 란셋(The Lancet)의 자매지인 ‘이바이오메디슨(eBioMedicine)’에 공개됐다. UNIST의 ‘U-K Brand 육성사업(자유혁신연구)’과 한국연구재단의 ‘지역거점 혁신형 의사과학자 공동연구’에서 지원받았다.
연구 결과 개요
1. 연구 배경
제2형 당뇨1)는 성인에게 발병하며, 주로 인슐린 저항이나 부족 등이 특징적으로 나타난다. 이 질환은 뇌졸중이나 심혈관계 질환 등의 합병증을 유발하는 위험한 만성질환 중 하나다. 이에 따라 당뇨 발병의 위험을 줄이면서 예방하기 위한 ‘건강 검진 코호트(cohort)5) 데이터’ 등을 활용해 ‘제2형 당뇨의 발병을 예측하는 다양한 모델’이 개발돼왔다.
제2형 당뇨는 식습관, 생활습관이나 비만 등의 신체적 상태로 인해 주로 발병한다. 그러나 일부는 유전 및 환경적 요인에 발병 위험이 있어 이러한 인자들을 복합적으로 모델링하는 것이 중요하다. 기존 연구들은 대부분 서양 인구 대상의 코호트 데이터를 활용했다. 이 때문에 한국인을 대상으로 구성한 코호트에 바로 적용할 경우 만족스러운 예측 성능이 확보되지 않거나, 의미 있는 요인을 분석하기 어려웠다.
따라서 제2형 당뇨 발병 예측을 위해 한국인의 특성을 반영한 코호트를 활용하면서도 인구통계학적, 임상적, 유전적, 환경적 요인을 복합적으로 반영해 높은 예측 성능을 확보할 모델 개발이 절실한 상황이다.
2. 연구 내용
이번 연구는 한국인유전체역학조사사업(KoGES)4)을 통해 약 10여 년간 추적해 수집한 만성질환 코호트 빅 데이터를 활용해 ‘한국인에 특화된 제2형 당뇨 발병 예측을 위한 기계 학습 모델’을 개발했다. 이 과정에서 한국인 유전체 데이터를 활용한 유전체 연합 연구(Genome-wide Association Study, GWAS)를 새롭게 수행해, 제2형 당뇨 발병 위험에 대한 유전적 지표인 다유전자 위험 점수(Genome-wide Polygenic Risk Score, gPRS)2)를 개발해 추가 정보로 활용했다. 그 결과, 유전적 요인을 반영하는 gPRS가 실제로 한국인 코호트의 제2형 당뇨 발병 위험과 연관이 크다는 것을 입증했다.
연구진은 또 혈청 대사체3) 데이터를 추가로 활용해 환경적인 요인을 반영했다. 그 결과 대사체 정보가 유전적 요인과 더불어 제2형 당뇨의 발병 위험 예측 정확도를 추가로 높일 수 있다는 것도 발견했다. 다양한 요인을 고려한 빅데이터의 활용뿐 아니라, 랜덤 포레스트(Random Forest) 기반 기계 학습 모델을 구성해 당뇨 발병 예측 성능 및 재분류 성능을 높였다. 이를 통해 당뇨 발병 예측에 있어 각 요인의 영향을 파악해 모델의 해석력 또한 확보했다. 최종적으로 개발된 제2형 당뇨 발병 예측 모델은 단순히 인구통계학적 요인만 활용했을 때보다 다양한 요인들을 복합적으로 함께 활용하였을 때 최대 약 11퍼센트포인트(%p) 예측 성능이 향상됐다.
3. 기대효과
이번 연구에서는 한국인의 유전자 및 대사체 정보를 포함한 장기 추적 코호트 빅 데이터를 활용해 ‘예측력 높은 기계 학습 기반의 제2형 당뇨 발병 예측 모형’을 개발했다. 이 모델은 실제 임상 현장에서 의료진과 환자에게 당뇨 발병 위험 수준과 발생 요인을 동시에 제공해 질병을 효과적으로 예방하고 대응하는 데 활용될 것으로 기대된다.
또 이번에 분석한 결과를 통해 한국인에 특화된 유전 정보를 다유전자 위험 점수 형태로 구성하고, 마찬가지로 한국인에 특화된 대사체 정보를 당뇨 발병 위험 예측에 활용해 그 가치를 새롭게 보고한 점은 학계에서 의의가 크다. 이는 향후 아시아 집단의 코호트 데이터를 이용하는 다양한 후속 연구에 활용될 수 있을 것이다.
그림1. 한국인에 특화된 제2형 당뇨 발병 예측을 위한 기계 학습 모델 개발 개요
한국인 대상 코호트(왼쪽)에서 추출한 한국인 특화 인구통계학적 정보(model 1), 임상 정보(model 2), 유전자 정보(model 3), 대사체 정보(model 4)를 점진적으로 추가하는 방식으로 여러 제2형 당뇨 발병 예측 모델을 개발했다. 정보가 추가됨에 따라 모델의 예측 정확도가 향상된다.
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다.
[기사 오류 신고하기]