암과 같은 난치성 질환은 세포 내부에서 일어나는 미세한 변화에서 시작되는 경우가 많아 정확한 원인을 규명하는 데 어려움이 따른다. 세포가 스트레스를 받을 때 나타나는 단백질의 미세한 변형은 질병과 밀접하지만, 기존 기술로는 이를 정확히 구분하기 어려운 것들이 많다. 이로 인해 질병의 근본 원인을 분자 수준에서 추적할 수 있는 새로운 분석 기술에 대한 요구가 커지고 있다.
한국과학기술연구원(KIST, 원장 오상록) 화학생명융합연구센터 이철주 박사 연구팀은 인공지능(AI) 학습모델을 활용해 기존에는 분석이 어려웠던 특이 단백질 변형을 정밀하게 찾아내는 기술을 개발했다고 밝혔다. 이번 기술은 세포 스트레스 반응 과정에서 극히 드물게 나타나는 단백질 변형을 가짜 신호와 구분해 정확히 검출할 수 있는 것이 특징이다.
연구팀이 주목한 ‘아르기닐화’는 단백질에 특정 아미노산이 붙어 단백질을 분해하거나 기능을 조절하는 신호로, 이 과정에 이상이 생기면 신경세포 손상이나 암 발생 등으로 이어질 수 있다. 그러나 아르기닐화 신호는 생체 내 존재량이 매우 적고 가짜 신호와 특성이 비슷해 기존 분석 기술로는 실제 신호를 구분하기 어려웠다. 연구팀은 이를 해결하기 위해 진짜와 매우 유사한 가짜 신호를 AI에 먼저 학습시키는 새로운 분석 방식을 도입했다.
그 결과, 기존 분석에서 검출되던 신호의 약 90%에 해당하는 가짜 신호를 제거하고 총 134개의 실제 아르기닐화 변형 위치를 규명하는 데 성공했다. 또한, 전이학습 기법을 적용해 소량의 데이터로도 희귀한 단백질 변형을 정밀하게 분석할 수 있음을 입증했다. 이 기술을 스트레스 환경의 세포에 적용한 분석에서 세포의 에너지 생산에 관여하는 단백질 중 일부에서 아르기닐화 변형이 확인됐다. 이는 암세포의 성장과 관련된 대사 과정을 새롭게 이해하는 데 도움이 될 수 있는 가능성을 보여준다.
이번 기술은 단백질 변형의 발굴부터 1차 검증까지를 하나의 AI 분석 체계로 구현해 신약 개발과 바이오 연구 현장에서 연구 비용과 시간을 크게 줄일 수 있다. 환자의 혈액이나 조직 분석에 적용될 경우, 질병 관련 단백질 변화를 보다 빠르고 정확하게 포착해 조기 진단과 정밀 의료 연구의 기반 기술로 활용될 가능성이 크다.
KIST 이철주 박사는 “AI의 발전 과정을 지켜보며 기존 연구에서 한계로 남아 있던 부분에 과감하게 AI를 도입한 연구 성과”라며, “순수 국내 연구 기반으로 세계 최고 수준의 AI 기반 단백체 분석 원천 기술을 확보한 만큼 AI를 활용한 단백체 분석 연구의 확장에 기여하겠다”라고 말했다.
본 연구는 과학기술정보통신부(장관 배경훈)의 지원을 받아 KIST 주요사업 및 개인기초연구사업(RS-2023-00279134), 바이오 연구데이터 활용기반조성사업(RS-2022-NR068428) 등으로 수행됐다. 이번 연구 성과는 국제 학술지 「Nature Communications」 (IF 15.7, JCR 분야 상위 7.0%)에 게재됐다.
□ 논문
○ 제목: Implementing N-terminomics and machine learning to probe Nt-arginylation
○ 학술지: Nature Communications
○ 게재일: 2025.12.09.
○ DOI: https://doi.org/10.1038/s41467-025-66883-6
□ 저자
○ 주신영 박사 후 연구원 (제1저자/KIST 화학생명융합연구센터)
○ Laxman Nawale(제1저자, 한국생명공학연구원)
○ 이선정 박사 후 연구원 (제1저자/KIST 화학생명융합연구센터)
○ 차현주 책임연구원 (교신저자/한국생명공학연구원, UST)
○ 이철주 책임연구원(교신저자/KIST 화학생명융합연구센터)
□ 내용 요약
○ 연구배경
단백질 N-말단 아르기닐화 (Nt-arginylation)은 손상된 단백질을 제거하고 세포 소기관의 항상성을 유지하는 핵심 단백질 품질관리 시스템의 중요 변형(PTM)임. 이 아르기닐화 단백질 변형을 매개하는 효소 ATE1이 기능을 잃으면 심혈관 발달 이상, 신경퇴행성 질환, 암 발생 등 다양한 질환이 유발되는 것으로 알려져 있어, 어떠한 단백질이 아르기닐화의 표적이 되는지를 규명하는 것은 매우 중요함. 그러나 아르기닐화는 세포 내에서 발생 빈도가 매우 낮고, 질량분석에서 다른 유사 질량 변화와 쉽게 혼동될 수 있음. 따라서 기존 질량분석 기술만으로 실제 세포 환경에서 일어나는 아르기닐화를 세포 전체 수준에서 체계적으로 규명하는데 한계가 있었음. 이로 인해 세포 스트레스나 질환 상황에서 어떤 단백질이 아르기닐화 되는지를 대규모이면서 높은 정확도로 선별해 낼 수 있는 새로운 분석 플랫폼의 개발이 필요했음.
○ 연구내용
N-말단 단백체학(N-terminomics)에 머신러닝(machine learning) 기술을 접목하여 단백질 스펙트럼 중 N-말단 아르기닐화 변형 단백질 스펙트럼을 선별하는 기술을 개발하였음. 실험 내에서 발생하는 '가짜 신호'들의 데이터를 모아 대규모 언어 모델(large language model) 기반의 인공지능(AI)에 전이 학습(transfer learning) 시키는 방법으로 AI 예측 모델을 구축하였음. 이를 통해 AI는 진짜 아르기닐화 단백질의 질량 스펙트럼과 머무름 시간(retention time)을 정밀하게 예측할 수 있도록 훈련되었음.
AI 예측 모델뿐만 아니라, 파편 이온의 질량 오차를 통계적으로 분석하는 '질량 오차 테스트(MET)'를 추가하여 검증의 정확도를 높일 수 있었음. 이 기술을 스트레스 환경(ER stress)의 인간 세포(HeLa)에 적용한 결과, 초기 1,217개의 의심 신호 중 가짜를 걸러내고 134개의 고신뢰도 아르기닐화 위치를 발굴하였음. 아르기닐화 분석 결과, 세포 스트레스 상황에서 미토콘드리아 내 엽산 대사(folate metabolism)에 관여하는 핵심 효소(SHMT2, MTHFD2)들이 아르기닐화 된다는 사실을 밝혀냄.
연구진은 추가로 AI 예측 모델을 활용한 검증 전용 표적 단백체 분석 기술(targeted proteomics)을 개발하여 발굴된 아르기닐화의 농도 변화를 시계열 분석으로 정밀하게 측정하였음. 이를 바탕으로 아르기닐화 단백질이 스트레스 상황에서 증가함을 관측하여 발굴된 아르기닐화 신호가 스트레스와 높은 연관성이 있음을 입증하였고, 앞서 발굴된 미토콘드리아 단백질들이 단순히 미토콘드리아에 안착하지 못해서 제거 신호를 받은 것이 아닌 엽산 대사 관련한 중요한 기능 변화와 관련되어 있음을 제시하였음.
○ 기대효과
AI 기반 정밀 분석 플랫폼 개발: AI를 활용해 희귀한 단백질 변형을 정확히 찾아내는 발굴과 검증을 수행가능한 자동화된 분석 파이프라인을 구축함으로써, 향후 대규모 변형 단백질 발굴 연구의 효율성과 신뢰도를 획기적으로 높일 수 있음. 특히 AI 검증 플랫폼은 표준물질 합성과정을 생략할 수 있어 수식화 단백질을 이용한 진단 기술의 새로운 가능성 보여줌으로서 차세대 정밀 의료 시장에 주목받는 핵심 기술이 될 것으로 기대함.
신약 개발 및 바이오마커 발굴: 암세포의 생존과 증식에 필수적인 미토콘드리아 대사 효소들이 아르기닐화 변형 단백질임을 밝혀냄으로써, 이를 조절하는 새로운 항암제 개발의 치료 타겟이나 질병 진단을 위한 바이오마커로 활용될 수 있음.
질병 기전 이해: 세포가 스트레스에 대응하여 단백질의 기능을 조절하는 새로운 기전을 규명함으로써, 암이나 퇴행성 뇌질환과 같은 난치병의 발병 원인을 이해하는 데 기여할 것임.
연구결과 문답
□ 연구를 시작한 계기나 배경은?
우리 몸의 세포는 스트레스를 받거나 노화되면 단백질에 ‘아르기닐화’라는 특별한 신호을 붙여 단백질을 변형시켜 이후 분해하거나 기능을 바꿉니다. 이 과정이 제대로 작동하지 않으면 신경퇴행성 질환, 암, 심혈관 질환 같은 심각한 질병이 발생합니다. 하지만 이 신호는 세포 내에서 아주 드물게 일어나고, 실험 과정에서 생기는 가짜 신호와 구별하기가 너무 어려워 ‘모래사장 속 특이한 모래 알갱이 찾기’와 같았습니다. 이러한 단백질 변형 찾기는 아르기닐화 연구 뿐만 아니라 현재 단백체 연구 기술이 지향해야 하는 지점이기도 합니다. 단백체 연구 기술이 발전하여 더 많은 데이터가 만들어질수록 결국 가짜 신호 또한 늘어나는 상황입니다. 이 때 가짜 신호를 걷어내고 진짜 신호만 찾아내는 기술이 반드시 필요하다고 판단해 연구를 시작했습니다.
□ 이번 성과, 무엇이 다른가?
기존 연구는 고도로 숙련된 연구자가 일일이 스펙트럼을 분석해야 해서 시간이 오래 걸리고 정확도와 재현성이 떨어지는 한계가 있었습니다. 이번 연구의 가장 큰 차별점은 ‘AI 전이학습 기술’을 도입해 자동화된 정밀 분석 시스템을 구축했다는 것입니다. 특히 우리는 역발상으로 AI에게 ‘확실한 가짜 신호(실험 중 발생하는 부산물)’의 특징을 집중적으로 학습시키고, 가짜가 진짜가 되는 가상환경에서 신호를 찾아낼 수 있도록 훈련시켰습니다. 물리화학적 관점으로 보면 가짜가 진짜와 동일하므로 구분을 할 수 없었던 점을 역이용한 것입니다. 이 과정을 데이터 증강(augmentation)이라하며, 데이터 증강을 통해 AI가 가짜를 통해 수식화의 특징을 스스로 학습하게 되어 분석 정확도를 획기적으로 높였습니다. 특히 데이터 증강법을 이용한 단백질 변형 연구는 희귀 변형을 연구하는 데 최적의 방법으로 고품질의 가짜 데이터를 잘 확보하는 것이 돌파구라는 새로운 개념을 제시하고 있습니다.
□ 실용화된다면 어떻게 활용될 수 있나?
크게 신약 개발과 정밀 진단 분야에 활용될 수 있습니다. 우선, 이번에 찾아낸 미토콘드리아 내 아르기닐화 단백질들은 암세포의 성장과 생존에 필수적인 ‘엽산 대사’에 관여합니다. 특히 스트레스 상황에서 변형이 일어남을 관찰하였는데, 이러한 변형의 엽산 대사와의 관계를 규명한다면, 정상 세포에는 영향을 주지 않고 암세포만 굶겨 죽이는 대사 항암제 개발이 가능할 것으로 전망됩니다. 또한, AI 분석 플랫폼을 활용하면 미세한 단백질 변형까지 감지할 수 있어, 암이나 퇴행성 뇌질환 같은 난치병을 제어할 수 있는 새로운 방식의 전략을 제시하여 신약 개발에 활용될 수 있을 것입니다.
□ 기대효과와 실용화를 위한 과제는?
이번 연구는 그동안 베일에 싸여 있던 생명 현상을 AI 기술로 풀어냄으로써, 난치병 치료의 새로운 타겟을 발굴할 수 있는 길을 열었다는 데 큰 의의가 있습니다. 실용화를 위해서는 현재 세포 수준에서 확인된 결과를 바탕으로, 실제 환자의 임상 데이터나 질병 모델에서도 새로운 변형 단백질이 나타나는지 발굴하는 후속 연구가 필요합니다. 또한, 이번에 개발된 AI 모델을 아르기닐화 외에 다른 종류의 단백질 변형 분석으로도 확장 적용하여 범용성을 확보하는 것이 과제입니다.

[그림 1] AI 기반 수식화 단백체 발굴 기술 개발 연구의 개요연구팀은 실험 데이터 내에 존재하는 ‘가짜 신호(Arg-starting peptides)’를 활용하여 AI를 학습시키는 ‘전이 학습(Transfer Learning)’ 기법을 도입했다. 이를 통해 AI는 진짜 아르기닐화 단백질의 질량 스펙트럼(MS2)과 머무름 시간(RT)을 정확히 예측할 수 있게 되었다. 정확도를 높이기 위해 ①파편 스펙트럼 검정, ②머무름 시간 검정, ③질량 오차 통계적 검정(MET)으로 구성된 3단계 검증 시스템을 구축했다. 특히 질량 오차 통계적 검증(MET)은 기계적 측정 오차의 원리를 역이용하여, 통계적으로 유의미하지 않은 가짜 신호를 정교하게 걸러내는 새로운 기술이다. 세 가지의 엄격한 AI 및 통계 필터를 모두 통과한 데이터는 전체 의심 신호의 약 30%에 불과했다. 연구팀은 이렇게 살아남은 신호들이 생물학적으로 타당한 특징(진단 이온 검출, 구조적 불안정성 등)을 가지고 있음을 확인함으로써, 분석 플랫폼의 높은 신뢰도를 입증했다. [사진=KIST]
[그림 2] 세포 스트레스 환경에서의 수식화 변화 및 미토콘드리아 표적 규명개발된 AI 플랫폼을 활용해 밝혀낸 생물학적 연구 성과를 나타낸다. (좌측) 세포에 가해지는 스트레스 강도가 높을수록(대조군 < MG132 < MGTG) 아르기닐화되는 단백질의 수가 뚜렷하게 증가함을 확인했으며, 이들 단백질이 세포 내 스트레스 반응(UPR 등)과 밀접하게 연관되어 있음을 규명했다. (우측) 특히 아르기닐화된 단백질들이 미토콘드리아 내 엽산 대사(folate metabolism)에 관여하는 핵심 효소(SHMT2, MTHFD2)임을 밝혔다. 세포 분획 실험을 통해 해당 단백질들이 세포질이 아닌 미토콘드리아 내부에 아르기닐화 된 상태로 존재한다는 사실을 입증함으로써, 아르기닐화가 암세포 대사 조절의 새로운 타깃이 될 수 있음을 시사한다. [사진=KIST]
[그림 3] AI 예측 모델 기반의 표적 단백질체 정밀 분석 및 시계열 변화 관측본 그림은 앞서 발굴한 아르기닐화 단백질들이 실제 세포 내에서 시간에 따라 어떻게 변하는지를 추적한 '표적 단백질체 분석(Targeted Proteomics)' 결과를 나타낸다. AI 기반 표적 분석 워크플로우 (상단): 일반적으로 표적 분석을 위해서는 값비싼 '합성 표준물질'이 필요하다. 하지만 연구팀은 앞서 개발한 AI 모델을 활용해 가상의 표준물질 데이터(예측된 스펙트럼 및 머무름 시간)를 생성했다. 우측 그래프는 AI가 예측한 값과 실제 값이 거의 일치함을 보여주며, 이는 실제 표준물질 없이도 AI만으로 정확한 분석이 가능함을 증명한다. (하단): 개발된 기술을 이용해 세포에 스트레스를 준 후 시간 흐름(0~48시간)에 따른 단백질 변화를 측정했다. 좌측 (ATF4): 스트레스 반응 조절 단백질이 초기부터 증가함을 확인했다. 중앙 및 우측 (FLNA): 특히 FLNA 단백질의 경우, 효소(Caspase)에 의해 잘린 조각(중앙)이 먼저 생성되고, 이후 그 조각에 아르기닐화가 일어나는 현상(우측)을 시간 순서대로 포착했다. 이는 아르기닐화가 스트레스 상황에서 특정 단백질이 절단된 직후에 일어나는 후속 조치임을 명확히 보여주고 스트레스에 대한 반응으로서 단백질 변형이 일어남을 보여주는 증거이다. [사진=KIST]