서울아산-하버드의대, 다변량 정규분포 활용한 신알고리즘 개발
질병의 원인이 될 수 있는 발현변화 유전자(eGene)를 보다 빠르고 효과적으로 찾아낼 수 있는 알고리즘이 개발됐다.
이번 연구성과를 통해 발현변화 유전자를 특정하는 과정에서 한 달까지도 걸리던 연산과정을 약 한 시간이면 해낼 수 있게 돼 유전자를 타겟으로 한 신약 개발 속도가 획기적으로 빨라질 것으로 기대된다.서울아산병원 아산생명과학연구원 한범 교수(사진)는 하버드 의대 연구진과 함께 유전자 발현량 조절 연구(eQTL)에서 다변량 정규분포를 활용, 기존 통계검정 방식보다 최대 630배 빠르면서도 98% 이상의 높은 정확도로 발현변화 유전자를 특정할 수 있는 알고리즘을 개발했다고 29일 밝혔다.
발현변화 유전자(eGene)란 유전변이에 의해 발현량이 변화하는 유전자를 말한다.
유전자 발현량이 변화할 경우 세포의 단백질 생산량이 변화해 여러 질병의 기저 원인이 될 수 있다. 따라서 어떤 유전자가 유전변이에 의해 발현량이 조절되는지를 찾아내 이를 겨냥한 치료방법을 개발해 내는 것이 가능한 것이다.
기존과 같이 모든 경우의 수를 확인하는 방식의 통계검정을 이용할 경우 소요되는 시간이 모집단의 크기에 비례해 계산 과정 자체에만 한 달 이상 소요되기도 했다.연구팀이 개발한 다변량 정규분포를 활용한 알고리즘은 개별 모집단 구성원들의 유전변이 분포도를 활용해 전체적인 그림을 그리고 이를 바탕으로 통계검정을 시행함으로써 복잡한 계산 없이도 정확한 결과 값을 도출해 낼 수 있게 됐다.
실제 적용 결과, 모집단의 숫자가 5배 증가하더라도 (N=2000, N=10,000) 다변량 정규분포를 활용한 알고리즘을 사용할 경우 각각 0.69시간, 0.77시간이 소요됐다.순열검정 방식을 사용한 경우 각각 약 95시간, 487시간이 걸려 새로운 알고리즘이 최대 630배 더 효율적인 것으로 나타났다.
또한 일반적인 다변량 정규분포 접근법의 취약성을 보완해 기존 순열검정 방법과 대등한 98.44%의 정확도를 기록했다.일반적인 다변량 정규분포의 경우 정확도가 70%까지 내려간다는 문제점이 있지만, 이를 보정한 새로운 모델을 만들어냄으로써 문제를 해결했다고 연구팀은 설명했다.
이번 연구결과는 신약개발 뿐만 아니라 기초임상연구 전반에도 광범위하게 활용될 수 있다는 점에서 전 세계의 주목을 받고 있다. 이전까지 시간적·비용적 문제로 인해 진척되지 못한 다양한 연구들이 다시금 탄력을 받을 전망이다.이번 연구를 주도한 한범 교수는 “신약개발 분야에 새로운 알고리즘을 적용할 경우 어떤 유전자가 질병의 기저원인으로 작용하는지 밝혀내는데 걸리는 시간이 획기적으로 단축될 것으로 기대된다”며 “이번 연구결과가 신약개발 및 임상의학연구 전반에 기여해 궁극적으로는 난치병으로 고통 받는 환자들에게 도움이 되길 바란다”고 말했다.
이번 연구 성과는 인용지수(impact factor) 10.987의 美 유전학회지 (The American Journal of Human Genetics) 6월호에 최근 게재됐다.