최신 연구동향 정보를 제공하기 위해 생명과학관련 정보제공자를 모집합니다.
Bio리포트 동향리포트
신약 디자인에서 인공지능(AI) 기반의 약물 생성 예측 모델을 이용한 강화 학습과 화학정보학(Chemoinformatics)
강수임(Columbia University Irving Medical Center)
목 차
1. 서론
2. 본론
2.1. 바이오 헬스케어에 응용되는 인공지능 분류
2.2. 인공지능을 통한 신약 디자인 업적
2.2.1. 기존의 신약개발 시스템과 인공지능 기반 신약개발 비교
2.2.2. 인공지능을 이용한 신약개발의 장단점
2.3. 신약개발에 이용되는 인공지능 기반의 약물 디자인 모델들
2.3.1. 약물 생성 모델(Generative Models)
2.3.2. 약물 예측 모델(Predictive Models)
2.3.3. 약물 생성 & 예측 모델 통합하는 강화 학습(Reinforcement Learning)
2.3.4. 신약 리드(선도) 물질 탐색을 최적화하는 화학정보학(Chemoinformatics)
3. 결론
4. 참고문헌
1. 서론
최근 몇 년간 코로나19 팬데믹을 겪으면서 우리들의 일상에 많은 변화가 도래하였다. 비대면∙언택트 기술이 우리 사회 전분야에 걸쳐서 사용되고 있으며 이런 분위기는 더욱 가속화될 전망이다 [1]. 국내 바이오산업 실태조사에 따르면 [2], 코로나 기간 중, 우리나라 바이오 사업은 코로나 진단 키트의 개발을 초기 단시간에 이루며 다량의 수출과 더불어 바이오 매출과 시장규모의 확대라는 높은 성과를 냈다. 2017년부터 2021년까지 연평균 19.9%의 성장을 하였고, 향후 5년간 예측 결과, 매출이 15% 이상의 성장할 것으로 내다본다. 미국 바이든 정부도 2023년 바이오헬스 분야 혁신적 기술 개발을 위해서 전년 대비 25억 달러가 증가한 475억 달러의 예산을 편성했고, 이런 트렌드는 전 세계 바이오 헬스케어 사업에 영향을 미칠 것으로 예상되며 [3, 4], 인공지능이 다양한 바이오 헬스케어 관련 분야에 혁명을 주도하면서 의학에서도 영상의학과, 방사선과, 병리학 및 기타 의료 전문분야를 포함하여 제약, 바이오, 디지털 치료제, 디지털 의료기기 등 다양한 의료영역에서 AI의 활약은 가속화될 것으로 전망된다.
기존 신약개발과 인공지능 기반의 신약개발의 차이와 장단점을 알아보고 신약개발 단계에서 환자로부터 유래된 데이터, 머신러닝 기반의 딥러닝(Deep Learning) 기술 그리고 강화 학습을 이용한 신약 디자인은 다양한 소프트웨어 패키지와 툴들이 개발되면서 체계적인 AI 기반의 신약개발 가속화로 이어질 거라 기대한다.
2. 본론
2.1. 바이오 헬스케어에 응용되는 인공지능분류
인공지능(AI)은 의약품 자체는 아닐지라도 의료 영상진단, 디지털 측정 장치 등에 이용되며 약물이 사람에게 끼치는 독성평가 및 안정성 관리까지 요구되므로 이러한 사항에 대한 데이터 취득과 이들 전체를 연결하여 운영하는 인공지능 플랫폼까지 각광을 받고 있다. 디지털 기술을 활용할 경우, 세포에 대한 컴퓨터 모델링으로 실험을 진행해 동물실험을 최소화할 수 있으며 AI 기반의 약물 예측 & 모델링 분석을 통해 새로운 신약후보물질을 더 적은 비용으로 도출할 수 있게 된다. 제약 바이오 기업들이 신약개발 분야에서의 디지털 기술에 지속적인 관심을 갖고 있는 이유 중의 하나다 [1].
인공지능은 신약개발의 초기 단계부터 응용까지 다양하게 활용되며, 현재 딥러닝 기술을 이용한 분자 도킹(Molecular Docking), 전사체학(Transcriptomics), 반응 메커니즘 규명 및 분자 에너지 예측 등 다방면의 분야에 깊이 관여하고 있다. 인공지능을 이용한 많은 신약 개발 프로젝트에서 중요한 단계는 사용 가능한 구조-활성 관계(SAR, Structure-Activity Relationship) 데이터를 기반으로 사용 가능하거나 합성 가능한 케미컬 라이브러리를 통한 새로운 리드(선도) 물질 생성(de novo 디자인) 또는 합성 가능성이 높은 물질 선택을 위한 다양한 특성들을 고려하여 생성 확률을 공식화하는 것이다 [5]. 디자인 가설은 종종 선호하는 화학으로 편향되거나 모델 해석에 의해 주도되는 성향이 있으므로 초기부터 원하는 특성들을 가진 화합물을 설계하기 위한 자동화된 접근 방식이 지난 20년 동안 활발하게 연구되어 왔으며, 합성 가능한 화학물질들은 신약후보물질로 고려될 수 있다.
2.2. 인공지능을 통한 신약 디자인 업적
2019년 홍콩 인실리코 메디슨과 캐나다 토론토대학교는 46일 만에 인공지능 플랫폼을 이용하여 섬유증 치료제 후보물질을 발굴하였고 [6], 섬유증 단백질 타깃을 21일 만에 3만 개를 스크리닝 해내는 놀라운 성과를 과시하였다. 2022년 7월 ‘최종 약물 후보물질(INS018_055)을 임상 1상 지원자에게 투여하였다고 발표했으며, AI가 발견하고 설계해 임상단계까지 진입한 최초의 약물이며, 섬유증 환자들이 가능한 한 빨리 치료제의 혜택을 받을 수 있도록 임상 진행이 활발하게 진행되고 있다 [7]. 국내에서도 AI 플랫폼을 이용한 신약후보물질들의 임상이 3건 정도 이루어지고 있으며, 앞으로 더 많은 신약개발에 AI 기술이 이용될 것으로 예상되므로 우리가 AI 기술을 잘 이해하고 신약개발의 여러 단계들에 적용되는 모델들을 숙지하여 앞으로 AI 알고리즘의 사용자 혹은 개발자로서 본인의 연구방향과 안목을 키워 나가는 것이 중요할 것으로 사료된다 [8].
2.2.1. 기존의 신약개발 시스템과 인공지능 기반 신약개발 비교
기존의 신약개발은 막대한 노력, 시간, 비용이 소요된다. 전통적인 신약개발에 15년 이상, 수천억 원에서 2조 원 정도의 비용이 소요되며, 5천에서 1만여 개 중 1개만이 신약개발에 성공하며 시판된다 [1, 7]. 실제로 연구원들이 5년 이상의 기간에 걸쳐 전임상에 들어가는 신약후보물질을 발굴하는 데 비해 AI를 활용하면 신약후보물질 발굴 기간을 1년 이하로 줄일 수 있고, 이는 AI를 통한 신약개발의 최대 장점이라 할 수 있다. 전임상 시험으로 임상에 들어갈 후보물질을 약 10여 개로 줄이는 데 약 2년 정도의 추가 기간이 소요되며, 신약후보물질 1개를 발견하기 위해 임상 1상·2상·3상 시험에서 다시 약 6년 정도의 시간이 추가 소모된다. 이후로, 미국 식품의약국(FDA)으로부터 신약 판매 허가를 받는데 약 2년 정도의 시간이 더 소요된다 (그림 1). 실제로 이러한 엄청난 시간과 천문학적인 비용이 소요되었을지라도 미국 식품의약국(FDA)은 암에 대한 약물반응의 이해 부족을 이유로 매년 많은 약물들이 임상 시험에 들어갔다 할지라도 새로운 항암 치료제로 승인되는 비율은 4% 미만에 불과하다. 이러한 신약개발의 난관을 해결할 목적으로 AI의 이용은 개발 시간, 효율 및 정밀도 개선으로 보다 빠르고 효과적인 신약개발이 가능하게 할 것이다. 신약개발 시 반드시 거쳐야 하는 약물 선정 기준(ADME)에 흡수율(Absorption), 혈중농도(Distribution), 대사(Metabolism) 그리고 배설(Excretion) 뿐만 아니라, 인체 내 물질들 과의 반응, 내부 장기들에 대한 영향 등 여러 가지 다양한 요구 조건을 충족시켜야 하기 때문에 인공지능을 이용하면 후보물질 확인 단계에서 소요되는 시간을 효과적으로 단축해서 전체적인 신약개발 기간을 줄일 수 있다.
또한, AI를 이용하여 화합물(약물)이 결합하는 단백질의 구조를 아는 경우와 모르는 경우를 구분하여 단백질과의 반응 활성 및 효능∙효율 등을 계산하여 신약 후보물질을 제안할 수 있다. 임상단계에서는 병원을 대상으로 환자 기록 분석을 바탕으로 관심 있는 질병의 연구 및 질병 관련 임상 대상 환자군을 빠르게 스크리닝 할 수 있다. 또한, 다중 오믹스 데이터 분석과 약물의 반응 예측으로 임상 실험 구상과 맞춤형 약물 개발 단계에도 응용될 수 있으므로, 미국을 비롯한 다른 선진국들의 경우, 천문학적인 금액을 신약개발에 투자하고 있지만, 2019년 기준으로 한국의 제약업계의 연구개발 투자 대비 정부 지원은 다른 선진국들에 비해 매우 낮은 수준에 머물고 있는 상황이다 [9]. 하지만, 신약개발 관련 사전 지식 데이터베이스를 통합한 빅데이터 구축과 AI의 활용은 빠른 신약개발 방법을 제안하므로, 우리나라의 경우에도 적은 투자비용으로 신약개발 기간을 획기적으로 단축하여 여타의 선진국들과 신약개발에서 경쟁력을 확보할 수 있게 된다.
2.2.2. 인공지능을 이용한 신약개발의 장단점
최근 AI 신약개발 스타업이 속출하고, 국내외 제약사들은 AI 스타업들과 협업을 통한 공동연구를 시작했다. AI를 이용한 신약개발 시장규모가 매해 40%씩 급성장을 하고 있으며, AI 알고리즘은 타깃 약물 스크리닝 단계에서 임상시험에 이르기까지 다양하게 응용이 가능하므로 [2], 기존 제약사들의 고질적인 문제인 천문학적인 개발비용과 10년이 넘는 개발 기간 그리고 2000년대 초반 게놈 해독이 완결되면서 대두된 개인 맞춤형 치료와 신종 코로나바이러스감염증(COVID-19) 대유행을 겪으면서 단시간에 확산되는 전염병을 억제하기 위해서 새로운 백신 개발과 치료제 개발 기간을 최대한 앞당겨야 한다는 생각에 많은 과학자들이 공감을 하고 있으며, 더 많은 신약개발의 요구를 앞당길 수 있는 대안으로 현재 AI 약물 디자인 기술은 차세대 대체기술로 확실히 자리매김하고 있다. 현재 전 세계적인 신약개발 동향의 하나인 타깃 분자를 이용한 신약개발은 특정 질병을 가진 환자의 진단 및 치료제 개발에 사용 가능하다. 타깃 분자 연구의 경우, 스크리닝을 통한 빅데이터와 많은 환자들의 약물반응 그리고 환자들의 진단과 구체적인 증상 파악 이후의 약물 투여, 치료, 재발방지 프로세스를 통해 방대한 양의 데이터가 축척되고 이를 바탕으로 환자들의 질병에 대한 생물학적인 분자 메커니즘(Systemic Biological Pathway)을 밝혀냄으로써 신약개발에 이용될 수 있는 타깃 분자가 될 수 있다 [8]. 이때 타깃 물질의 구조와 화합물(약물)과의 친화도 그리고 화합물(약물)의 바이오 화학과 물리적인 특성을 포함하는 약물 합성 화학의 빅데이터 해석이 요구되므로 AI의 장점을 살릴 수 있다.
AI를 이용하여 예측 정확도가 높은 구조 최적화 시뮬레이션이 가능하면 신약개발 기간 단축 및 비용의 삭감으로 이어질 수 있으므로, 많은 국내외 기업들이 AI 신약개발 알고리즘에 착수하거나, 이미 상용화되고 있는 프로그램들도 있다. 국내외에서 신약후보물질에 대한 다양한 정보가 데이터베이스화 되어 있고, 화합물의 흡수 정도, 분포, 대사 관련 데이터, 독성 발견에 관한 세포 내 단백질 간의 결합 등에 대한 오믹스 데이터 분석에 AI를 사용하여 독성 데이터 기반의 생물학적 메커니즘을 이용한 신약 예측 모델 개발도 가능할 수 있다. 또한, 아직 이론 단계지만 AI를 이용하려면 약효∙독성에 대한 충분한 데이터 확보가 이루어지면 가능하다. 신약개발 단계에서 전임상과 임상시험에서 제일 오랜 시간이 소요되므로, 질병 치료의 표적이 되는 새로운 분자를 밝혀내면 그 다음 단계로는 새로운 타깃 분자와 결합에 의한 반응 결과로 화합물(약물) 스크리닝이 진행된다. 유효물질(Hit Compound)을 얻기 위해 많은 양의 스크리닝이 이루어지며, 스크리닝을 통해 좋은 결과를 도출하기 위해선 화합물 라이브러리의 질의 향상과 양적인 증대로 가능하며 분석 시스템의 지속적인 성능 개선이 요구된다 [8, 9].
이와 같이 새로운 타깃 분자와 화합물(약물)을 찾는 과정이 대표적인 신약개발의 허들로서 이를 해결하기 위해 AI가 응용되고 이를 통해 현존하는 기술적 과제도 해소될 수 있다. 어떤 물질이 신약이 될 수 있을 찌 AI가 빠르게 찾아낼 수 있으나, 실제 신약개발에 다양한 과정이 필요하며 AI를 이용한 신약개발 플랫폼은 약물 스크리닝 단계에 한정되어 있다. 결국 AI 신약개발 플랫폼은 신약개발의 ‘대체자’가 아닌 ‘조력자’이며 AI가 기존 신약개발을 대체하는 개념이 아닌 AI와 인간이 협업을 이루어 AI가 유리한 과정은 AI가 사람이 유리한 과정은 사람이 수행하는 것이 신약개발의 효율을 더욱 높일 수 있다. AI 기술의 신약개발에서의 기대효과가 커지고 연구단계에서 활용되는 AI 기술이 제도적인 문제에 부딪히지는 않지만 바이오 분야의 특성상 지속적인 검증에 대한 대비가 필요하고, AI 기술 이외에 실제 연구진과의 협업을 통한 기술적인 부분들의 상호 보완이 늘 이루어져야 한다 [7, 8, 9, 10].
2.3. 신약개발에 이용되는 약물 디자인 모델들
컴퓨터 지원 약물 디자인 방식(CADD, Computer-Aided Drug Design methods)은 신약개발에서 강력한 기술로 대두되고 있고, de novo 약물 디자인(DNDD, De Novo Drug Design)은 선험적 관계가 없는 원자들 중에서 새로운 분자구조를 생성하는 컴퓨터 접근 방식이다 [11]. 질병 치료의 타깃이 체내 수용체, 리간드 그리고 유전자에 이르기까지 넓게 확장되고 있다. De novo 약물 디자인의 경우, 수용체의 구조를 아는(Structure-based algorithm) 경우에는 분자 도킹(Molecular Docking) 정보를 이용하고 수용체의 구조를 알지 못하지만(Ligand-based algorithm) 활성자리의 생물학적 특성과 활발하게 결합하는 물질인 리간드를 근간으로 하는 경우(QSAR, Quantitative Structure-Activity Relationships & Pharmacophore modeling)가 있으며, 이후로 원자화 기법(Atom-based algorithm) 혹은 fragment 기법(fragment-base algorithm)에 근간을 둔 DNDD도 이용되고 있다. Fragment기법이 원자화 기법보다 예측이 우수하다고 알려져 있으며, 앞에서 언급한 방식과 다르게 광범위하게 이용되는 진화 알고리즘(Evolutionary Algorithms)을 통한 de novo 약물 디자인 방식도 있다 [11, 12]. 이 알고리즘은 유전자 알고리즘(Genetic Algorithms)으로 세분되며, 적합성 함수를 사용하여 각 ‘하위’ 구조의 결합 점수를 평가하고 점수에 따라 초기 ‘부모’와 ‘자녀’의 결합 그룹에서 새로운 세대의 부모가 선택되고, 새로운 그룹의 ‘부모’는 다음 주기에 사용하는 방식이다.
또한, 최근 신약개발의 성공 확률을 향상시킬 목적으로 데이터의 형태나 종류에 따라 딥러닝 기술을 적용하고 있다. DNDD에 다양한 인공신경망들이 이용되며 약물 생성 모델과 예측 모델 그리고 분자구조와 바이오-활성 관계 평가(QSAR)를 함으로써 새로운 유효물질을 찾고 신약후보물질로서의 가능성이 높은 리드(선도) 물질(Lead Compound)에 효과적으로 접근할 수 있게 하는 약물정보(Chemical Space) 활용, 새로운 특성을 가진 화합물의 디자인, 친밀도가 높은 데이터를 기반으로 강화 학습을 거치면서 새로운 화합물의 활성 예측의 정확도를 높이게 된다 [8]. 끝으로, 신약개발에 정밀도와 정확성을 높이는 인공지능 모델로서 심층 강화 학습(DRL, 그림 2)은 인공신경망들과 강화 학습을 결합하는 머신러닝의 한 영역으로 RNN, CNN, GNN과 autoencoder와 같은 다양한 신경망(Table 1)을 사용함으로써 DNDD의 성능을 향상시키고 있다 [13, 14, 15].
2.3.1. 약물 생성 모델(Generative Models)
딥러닝을 이용한 심층 강화 학습 DRL의 경우, 약물 생성 모델과 예측 모델 두 가지의 모델을 이용하며, 두 가지의 모델은 각각 학습 훈련을 받고 이후로 강화 학습에 접목한 훈련을 통해서 타깃에 대한 특성에 최적화된 분자를 생성한다. 딥러닝 소프트웨어 패키지로는 Tensorflow, Keras, Pytorch 등이 주로 사용된다 [5, 15]. 생성된 분자는 화학적인 유효성(Validity), 물리적인 다양성(Diversity), 새로운 약물 후보 물질로서의 가능성(Novelty)을 가짐으로써 기존 약물과 차별화되어야 한다. 약물 생성 모델 기반의 DNDD에 딥러닝 다중 인공신경망들(Multilayer Artificial Neural Network)의 종류에 따라 SMILES 문자열 혹은 graphs 이미지 분자를 입력 데이터로 이용한다. 그림 2에서는 신경망으로 RNN & GRU을 사용했지만 각각의 신경망들은 장단점들이 있으며, 데이터의 형태에 따라서 목적에 맞게 신경망을 선택하면 된다 (Table 1). 최근 DNDD은 생성 모델의 성능 향상을 위해 데이터의 종류나 신약개발을 위한 분석에 따라 다양한 딥러닝 알고리즘을 도입하고 평가 데이터를 통해 모델을 최적화하여 리드(선도) 물질을 생성한다. 약물 생성 모델을 통해 얻은 리드(선도) 물질들 중에서, 비교적 약물 합성이 용이한 화합물을 스크리닝 하는 작업을 수행한다. DNDD의 생성 모델인 에이전트(Agent)은 강화 학습의 일부로서 여러 가지 물질 특성들을 고려하여 가상공간에서 기대하는 특성을 가진 새로운 합성물들의 생성하고 약물 효능을 향상시키기 위해 분자와 대체 그룹 간의 상호작용으로 진행하며 보다 보상(Reward)이 증가하는 방향으로 생성 모델을 작동시킨다. Tensorflow/Keras를 이용한 모델의 경우, 학습 효율을 높이기 위해서 전체 신경망의 일부만 사용하여 학습시간과 효율을 증가시키는 드롭아웃(dropout)과 학습 샘플을 조금씩 나누어 학습률을 조절하여 학습 효율이 높아지게 하는 아담(Adam)은 많이 사용되는 모델 최적화방법이다. 다양한 특성 인자들을 도입하여 약물 생성과 예측 모델을 훈련시킴으로써 모델의 성능을 높이는 것이 새로운 신약개발의 관건이다. [16, 17, 18]
2.3.2. 약물 예측 모델(Predictive Models)
QSAR는 회귀 혹은 분류 모델로서 화합물의 화학구조와 생물학적인 활성 관계를 예측하는 정량적인 수학모델로서 약물 예측 모델은 분자의 물리적, 화학적 그리고 생물학적 특성 등 다양한 특성들을 추가하여 예측(추정) 하기 위한 모델로서 다중 신경망을 사용한다 [5, 13]. 약물 예측 모델은 원하는 분자를 생성하기 위해 필요한 특성에 최적화되도록 가이드 하며 훈련과정을 이끈다. SMILE 문자열이나 ECFP (Extended Connectivity Fingerprint) 벡터 같은 입력 데이터를 사용하여 다양한 분자 표현에 사용되며, 이러한 벡터는 사용자 지정 특성(활성도), 물리화학적 특성 예측, 화합물의 활성 또는 독성 등의 생물학적인 예측에 널리 사용된다. 출력은 숫자로 표현되고 각각의 특성들의 가치를 평가한다 [16].
예를 들면, 분자 구조와 관심 대상에 대한 결합 친화도를 측정하고, 이 작업 전반에 걸쳐 대상에 대한 화합물의 결합 친화력은 IC50 매개변수를 사용하여 평가되는 데 이 매개변수는 타깃(단백질, 암세포 혹은 병원균)을 최대 50% 억제할 수 있는 약물 농도를 나타내고, 이를 정수로 표현하는 PIC50로 변환 가능하다. 이들 변수들은 Scikit-learning(파이썬), caret (R) 그리고 MLJ(줄리아)과 같은 오픈소스를 이용하거나 전통적인 주도 학습 머신러닝 방식(Regression, Random Forest (RF), Support Vector Machine (SVM), K-Nearest Neighbors (KNN))을 이용하는 QSAR를 적용하여 생성된 분자들을 평가한다. 기존의 50년 넘게 사용되고 있는 QSAR 방식이 인공신경망들과 접목되어 직접 SMILES 문자열 혹은 이미지 벡터를 사용함으로써 QSAR 모델(모델 평가/예측)로서 머신러닝에 도입되어, 새로운 구조 생성과 함께 강화 학습으로 DNDD의 성능을 극대화하였다. 새로운 화합물의 활성 예측은 신약개발에 핵심요소로서 QSAR 모델의 성공은 입력된 데이터의 정확성, 알맞은 표현 인자의 선택, 개발된 모델의 검증에 따라서 좌우되며 대량의 화학 라이브러리는 QSAR 모델을 거쳐 화합물을 선택할 때, Lipinski’s rule, 화학적 유사도(Chemical Similarity), 독성과 ADME을 고려한다.
약물 예측 모델은 생성되는 모든 분자들에 리워드(보상)를 숫자로 책정하여 에이전트(약물 생성 모델)에서 생성한 새로운 화합물의 특성을 예측하는 정책(Policy)의 역할을 하며, 실행 업적을 평가한다. 그리드 서치 전략(Grid Search Strategy)을 사용하여 최상의 매개변수를 결정한 후, 데이터 분리와 원하지 않는 과적합(Overfitting)을 피하기 위해서 교차 검증을 이용해서 회귀(Regression) 방식으로 생물학적인 활성을 예측해 낸다. 테스트셋은 새로운 분자 결합 친화도를 예측할 때 모델의 성능을 평가하며 손실함수인 평균제곱오차(Mean Squared Error)는 학습 진행을 확인하는 지표로서, 약물 예측 모델이 실제 결과를 얻기 위해 얼마나 가까운 학습을 하는지 측정하는 데 도움이 된다 [16]. 또한, 특허검색들을 추가적으로 고려한다.
2.3.3. 약물 생성 & 예측 모델 통합하는 강화 학습(Reinforcement Learning)
강화 학습의 접근 방식은 가치(Value-based approach) 혹은 정책(Policy-based approach) 기반의 방식과 가치와 정책(Actor-Critic Model)을 동시에 이용하는 경우로 나눌 수 있다. DNDD에 다양한 인공지능 알고리즘이 이용되는 데 최근에 소개되고 이용되는 REINFORCE 알고리즘은 정책(Policy-based) 기반의 접근 방식으로 약물 생성 모델에 물질의 특성들을 제공하고 화학 정보를 습득하여 원하는 분자들을 생성하게 한다 [12]. 강화 학습의 기초는 환경과 상호작용하면서 보상을 극대화하는 방향으로 행동을 기록하고 에이전트는 이를 배워 최상의 정책/행동이 점진적으로 달성되면 다양한 행동에서 누적된 리워드(보상)의 최댓값을 선택한다. 강화 학습은 Markov Decision Problems (MDP)를 공식 프레임워크로 하며 MDP는 상태가 연속적으로 이어질 때 어떠한 시점의 상태는 그 시점 바로 이전의 상태에만 영향을 받는다는 가정으로 이전 단계에서 수행한 작업의 결과를 평가하여 다음 단계에서 선택에 대한 숫자 보상이 제공되고, 환경이 업데이트되면 업데이트된 환경이 에이전트(Agent)에 제공되어 프로세스가 반복하게 된다. 가치와 정책을 동시에 이용하는 DNDD 모델(Actor-Critic model) [17]도 이미 알고리즘이 개발되어 있다 [5, 16].
2.3.4. 신약 리드(선도) 물질 탐색을 최적화하는 화학정보학(Cheminformatics)
화학정보학(Cheminformatics)은 대량의 화합물 데이터를 가공하고 통합하여 신약개발에 필요한 화합물의 약물 관련 특성(약물 흡수, 활성, 반응성, 부작용 가능성, 작용 양식(Mode of Ac-tion)) 등을 예측하고 신약 리드(선도) 물질을 선별할 수 있는 화학적 지식으로, 오픈 소스인 화학정보학 소프트웨어 RDKit이 이용되고 있다. 최근 다중 오믹스와 대규모 화학 라이브러리 합성의 발전으로 생성된 빅데이터 분석은 필연적인 도전의 과제가 되었다. 바이오 활성에 대한 데이터들은 Pubchem, ChEMBL, BindingDB와 같은 오픈소스 데이터베이스에서 확인할 수 있으며 [14], 가상 스크리닝을 통한 신약개발 파이프라인에서 중요한 요소로 확고히 자리매김을 하고 있다. DNDD는 위에서 언급한 것과 같이 약물 디자인의 경우, 수용체의 구조를 알고 접근하는 방법(SB, Structure-based algorithm, virtual screening)과 수용체의 구조는 모르나 활발한 결합을 갖는 리간드를 알 때 적용하는(LB, Ligand-based algorithm, QSAR) 두 가지가 주류이며, SB 가상 스크리닝이 가능한 오픈소스 프로그램으로 AutoDock Vina와 웹 기반 플랫폼으로 EasyVS [19]를 이용해서 분자 도킹을 시뮬레이션할 수 있다. 또한, 웹 서비스 슈뢰딩거(schrödinger) [9]를 활용하여 인공지능을 통해 생성된 선도물질들의 화학구조 정보와 타깃 단백질 구조 데이터들을 활용하여 가상 스크리닝을 수행하고 선도물질을 평가할 수 있다. LB의 경우, 각각의 리간드에 의해 제공되는 바이오 활성 데이터를 학습하여 컴퓨터 모델을 구축하는 과정이 필요하다. 이때 정량적인 리간드 관련 분자 정보 (Molecular Descriptors, 분자량, 용해도, 수소결합 관련 분자들)와 구조-바이오 활성 간의 관계 관련 데이터들로 신약개발에서 방대한 양의 화학 라이브러리, 타깃 단백질과 상호작용체(Interactomes)를 분석하는 적절한 오픈 소스프로그램과 툴키트 [13, 14]를 이용하여 인공지능을 이용한 신약 디자인 성공의 확률을 높일 수 있다 (그림 3).
마지막으로 신약개발 단계를 간단하게 정리하면, 유효물질, 힛투 리드(Hit to Lead), 리드 최적화(Lead Optimization), 리드(선도) 물질과 약물 후보물질(Drug Candidate) 순으로 검증 절차를 거치고, 전임상 실험, 임상시험을 통과해서 약효 인증을 받으면 시판을 하게 된다.
3. 결론
이번 동향리포트에선 기존 신약개발과 인공지능 기반의 신약개발 기술의 비교와 이 두 가지 신약개발 기술의 장단점을 언급하였고, 심층 강화 학습 방식(DRL)의 de novo 약물 디자인으로 구조와 바이오 활성 간의 관계(QSAR)를 바탕으로 LBVS (Ligand-Based Virtual Screening) 방식의 신약 디자인을 소개하였다. 인공지능 기반의 신약개발은 앞으로도 빠르고 다양한 형태로 신약개발에 기여할 것으로 보인다. 방대한 양의 데이터셋을 통한 모델학습과 훈련에 앞서 원하는 목표를 구체적으로 세우고 모델을 구성하고 데이터를 정제하고 모델 튜닝으로 최적화 후, 모델의 평가 및 약물 합성과 예측을 통해 새로운 많은 신약후보물질을 찾을 수 있을 것이다. 인공지능을 활용한 신약개발은 바이오 헬스케어 발전에 중요한 역할을 할 것이며, 국내 제약 바이오기업과 글로벌기업 간의 규모와 기술적인 측면에서의 격차를 줄일 수 있는 계기가 될 것으로 기대된다.
이러한 디지털기술 개발은 혁신적인 의약품 창출과 환자 질병 치료에 적극적으로 사용됨으로 써 의료기술의 질 향상 및 건강복지 실현이 기대되며, 전 세계적인 고령화 증가 추세에 다양한 질병의 효율적인 치료와 건강한 장수 수명연장 그리고 AI 신약개발을 통한 환자의 이익에도 이바지할 것으로 사료된다. 현재 제약사와 AI 전문 기업의 협업이 이루어지고 있으나, 긍정적이고 바람직한 협업의 문화를 이루기 위해선 병원과 공공기관의 축적된 양질의 빅데이터와 의료 데이터 그리고 제약사의 임상데이터를 연계해 활용할 수 있도록 통합된 형태의 보건 의료 빅데이터 구축이 정부 차원에서 강구되어야 하며, 인공지능을 활용한 신약개발이 보편화될 수 있도록 신약의 안전성과 유효성을 예측하는 기술을 개발하고 AI 신약개발 전문가의 양성과 더불어 AI 기술에 대한 이해와 AI를 활용한 연구 확대 및 역량 강화가 필요할 것으로 사료된다.
4. 참고문헌
==>첨부파일(PDF) 참조
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
자료열람안내
본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다.
내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(view@ibric.org) 바랍니다.