저는 본래 기초 의학을 전공하였으며, 현재까지 해당 분야에서 연구 업을 이어오고 있습니다. 최근 의료 AI 연구에 입문한 지는 그리 오래되지 않았으나, 현재 주력하고 있는 주요 연구 테마는 당뇨발(DFU) 및 당뇨 저항성 관련 이식 수술입니다.
제가 연구 분야를 먼저 언급한 이유는 'LLM(거대언어모델) 구축을 위한 환자의 로데이터(raw data) 확보가 실무적으로 용이한가?'라는 질문에 답하기 위해서입니다. 수년 전 임상 관련 파일럿 연구(pilot study)를 기획할 당시, 유관 기관의 협조 확보 여부가 최대의 관건이었습니다. 특히 제가 수행 중인 연구는 국내 연구 저변이 극히 희소한 분야라 기존 데이터가 전무했으며, 존재하더라도 연구 목적에 부합하지 않아 결국 기초 데이터셋(data set) 구축 단계부터 직접 수행해야 했습니다.
간혹 주변에서 "지인들을 대상으로 임상 데이터를 수집하면 되지 않느냐"는 의문을 제기하시기도 합니다. 저 역시 기초 단계에서는 '스몰 그룹 로 스터디(small group raw study)'를 통해 연구진 및 해당 질환군을 대상으로 예비 테스트를 진행한 바 있습니다. 그러나 이는 학회 초록 수준의 기초 자료일 뿐, 실제 연구 데이터로 공인받는 것은 전혀 다른 문제입니다. 즉, 대규모 임상으로 이행하기 위한 가능성을 타진하는 수준일 뿐, 단순 지원자의 동의만으로는 정식 연구 데이터에 산입할 수 없기 때문입니다.
인간 대상의 임상을 수행하기 위해서는 반드시 기관생명윤리위원회(IRB)의 승인이 필수적이며, 이를 득하지 못한 임상 데이터는 일절 인정되지 않습니다. 이러한 IRB 승인 대상에는 대중 매체에서 흔히 접하는 특효약(당뇨, 암, 고혈압 등)에 대한 경구 투여, 주사제, 체내 흡수·삽입형 제제 및 기기뿐만 아니라, 단순 설문 조사까지 광범위하게 포함됩니다. 제 경우처럼 체외에서 생체 데이터를 수집하는 비교적 비침습적인 임상일지라도, 반드시 규정에 따른 IRB 절차를 준수해야 합니다.
IRB 승인은 단순 서류 작업이 아닙니다. 국가 과제 연구 계획서에 준하는 상세한 기획이 필요하며, 여기에는 통계적 유의성을 확보하기 위한 최소 표본 수 설정부터 임상 프로토콜, 환자 수송 및 보상 대책, 지정 기관 협조, 환자 동의서 양식, 모집 공고에 이르기까지 방대한 준비가 수반됩니다. 체외 데이터 수집조차 이 정도의 절차가 요구되는데, 체내 침습형 임상의 경우 부작용 대응을 위한 전문 의료진이 상주하는 병원급 시설이 필수적이며, 막대한 비용이 소요되는 임상 시험 배상 책임 보험 가입 또한 의무 사항입니다.
이처럼 연구자의 자산이나 기관의 막대한 예산(100명 기준 수억 원 규모)이 투입되어 구축된 데이터는 해당 기관의 학술적·상업적 독점 자산이 되므로 대외 공유가 극히 어렵습니다. 혹자는 국가 과제로 수행된 데이터라면 공유가 가능하지 않겠느냐고 반문하시겠지만, 연구 과제는 각기 다른 테마로 진행되기에 타 기관에서 동일 목적의 연구를 수행하지 않는 이상 공유 유인이 부족합니다. 무엇보다 임상 동의서 자체가 해당 특정 연구 목적으로만 IRB 승인을 받은 것이기에, 제도적 보완 없이는 데이터의 다목적 활용이 원천적으로 제한됩니다.
지금까지는 제도적 장벽과 이해관계로 인한 데이터 공유의 어려움을 말씀드렸습니다. 이는 연구자가 독자적인 AI 학습 데이터를 보유하고 있을 때 이를 쉽게 개방하지 못하는 배경이 됩니다. 그렇다면 기존 병원이 축적한 환자 데이터(예: 골절 X-ray 데이터)가 공유되지 않는 이유는 무엇일까요?
영국의 경우 국영 의료 체계(NHS) 하에서 국가가 병원을 관리하므로 전 국민 데이터 공유가 가능합니다. 덕분에 질환 연구가 활발히 진행되며, 바이오뱅크(Biobank)를 통해 오픈 소스 형태로 해외와도 활발히 교류합니다. (다만 승인 과정에서 영상 교육 및 시험 패스가 필수적일 만큼 엄격합니다.) 이러한 선례를 보고 한국도 가능할 것이라 낙관하기에는 국내 의료 환경의 특수성이 존재합니다. 국내 병원은 대부분 대기업이나 특정 개인 재단 소속인 사립 병원입니다. 이들이 생성한 임상 데이터는 사유 자산적 성격이 강해 국가가 강제 공유를 명령하기 어렵습니다.
또한, 이를 상업적으로 활용하려 해도 병원이 독자 법인 형태를 취하지 않는 한 의료 장비나 기법 판매를 통한 직접적인 이익 창출이 제한됩니다. 이러한 구조적 한계로 인해 데이터 활용의 동력이 상실되는 '병목 현상'이 발생하게 됩니다. 한 병원 내부에서도 이러한데, 국내 전체 병원의 데이터를 통합 공유한다는 것은 더욱 난망한 일입니다.
반면 상업 의료가 고도로 발달한 미국의 경우, 기업들이 특정 질환 연구를 위해 한국과는 비교할 수 없는 규모의 기부금을 투입합니다. 이러한 자본력을 바탕으로 대규모 의료 데이터 구축 프로젝트가 추진되기에 추격이 쉽지 않습니다. 국내 연구자(저를 포함한)들이 병원 내부의 한정된 데이터만으로 논문을 작성하는 것과는 체급 자체가 다른 것입니다. 그나마 국내에서는 가톨릭 재단 산하 병원들이 방대한 네트워크를 기반으로 데이터 확보 및 의료 AI 적용에서 선두에 서 있는 형국입니다.
마지막으로, 한국 의료 데이터는 내부 공유는 지극히 어려우면서도 해외 유출에는 매우 취약한 구조적 모순을 안고 있습니다. 이는 국내에 글로벌 경쟁력을 갖춘 의료 장비 기업이 부재하기 때문입니다. 기저 질환자들이 사용하는 주요 의료 장비는 대부분 글로벌 기업의 제품입니다. 대표적인 예가 연속혈당측정기(Continuous Glucose Monitoring: CGM)입니다. 현재 1형 당뇨 환자에게 보험 수가가 적용되고 향후 2형 당뇨까지 확대될 예정인 이 기기들은 당뇨 환자의 삶의 질을 획기적으로 개선하고 있습니다.
그러나 문제는 데이터의 귀속처입니다. 국내에서도 많은 환자가 CGM을 사용 중이나, 해당 기기의 알고리즘 분석과 보정 작업을 수행하는 덱스콤(DEXCOM) 같은 글로벌 기업으로 데이터가 집결됩니다. 국내 제조사 관계자와 소통해 본 결과 한국 서버에도 데이터가 확보된다고는 하지만, 실질적으로는 앱 설치 시의 약관 동의 절차를 통해 국내 환자의 혈당 데이터가 미국이나 향후 중국의 서버로 아주 손쉽게 전송되고 있습니다.
한국은 초기 임상 단계에서는 엄격한 서류 절차로 규제하지만, 정작 데이터가 글로벌 기업의 자본력에 의해 해외로 집중되는 상황에 대해서는 제도적 대응이 미비합니다. 결과적으로 국내 연구자들 사이에서는 공유되지 않는 데이터가 해외 기업에는 무상으로 제공되는 셈입니다. 이러한 제약과 시장 규모의 한계로 인해 향후 전망 또한 낙관하기 어렵습니다.
요약하자면, 갈수록 강화되는 IRB 난이도(향후 체외 부착 기기에도 독성 평가 기반 안정성이 요구될 예정입니다), 병원 간 폐쇄적 구조, 예산 부족, 그리고 글로벌 기업의 시장 잠식이라는 복합적 요인으로 인해 이 문제가 조기에 해결되기는 매우 어렵다고 판단됩니다. 사견으로는 국가 주도의 강력한 통합 방식이나 국내 의료 AI 글로벌 기업의 탄생 없이는 돌파구를 찾기 힘들 것으로 보입니다. 그러나 현재로서는 국내 기업이 미국 등지에 법인을 세워 우회하지 않는 한, 이러한 구조적 한계를 극복하기는 불가능에 가까워 보입니다.
* 본문에 첨부된 이미지는 생성성 AI인 구글 제미나이를 만들어졌음을 알림니다.