최신 연구동향 정보를 제공하기 위해 생명과학관련 정보제공자를 모집합니다.
Bio리포트 동향리포트
코로나바이러스(COVID-19) 유전체 연구 동향
김태형(테라젠이텍스 바이오 연구소)
세계 보건기구(WHO)는 2019년 12월 초 중국 후베이성 우한시에서 발생한 급성 폐렴의 원인이 되는 바이러스를 “SARS-CoV-2”라고 명명하였다. 이 코로나바이러스(Coronavirus)는 대부분 호흡기와 위장관 감염을 일으키는 데 관여한다. 유전적으로 코로나바이러스는 다음과 같이 4개의 속으로 구분된다. 알파코로나바이러스 속(Alphacoronavirus), 베타코로나비이러스 속(Betacoronavirus), 감마코로나바이러스 속(Gammacoronavirus), 델타코로나바이러스 속(Deltacoronavirus)과 구분되며 특히 알파, 베타코로나바이러스가 사람과 같은 포유류를 감염시키며 감마, 델타코로나바이러스속은 조류를 감염시킨다.
특히 COVID-19의 원인이 되는 SARS-CoV-2는 베타코로나바이러스 속에 속하며 2003년 사스(SARS), 2012년 메르스(MERS)까지 여기에 속한다. 보통 코로나바이러스의 게놈 사이즈는 약 26,000~32,000 bp 정도로 사람에 비하면 10만 분의 1로 너무 작은 유전체 사이즈이지만 바이러스 입장에서는 비교적 큰 사이즈의 유전체를 가지고 있다. SARS-CoV-2 유전체는 29.8kb 염기서열로 구성되어 있으며 27개의 단백질을 코딩하는 14개의 ORF(Open Reading Frame)를 가지고 있다 [1].
중국 우한을 시작해 중국에서 가까운 아시아 국가 중동, 유럽, 북미 및 최근에는 중남미와 아프리카까지 전염이 되지 않은 대륙이 없을 정도로 정말 짧은 시간 안에 이 바이러스는 무서운 전염력을 가지고 퍼지고 있다. 글을 쓰고 있는 지금도 미국에서 열리는 학회에 대한 취소 소식을 메일로 받았다. 이 무서운 바이러스의 감염력을 막고자 우리가 할 수 있는 방법은 비누로 손 잘 씻기, 사회적 거리 두기, 악수 안 하기, 모임 안 갖기, 여행 안 다니기 등으로 최대한 감염 확산을 지연을 시키는 방법 밖에 없다. 아직도 치료제나 백신이 만들어지지 않았으며 실제로 만들어서 임상시험하고 시판되려면 많은 시간이 걸릴 것으로 예상된다.
지난해 12월부터 지금까지 몇 개월 동안 전 세계 보건의료를 극심하게 그것도 아주 빠르게 뒤흔들고 있다. 각 국가들은 준비할 시간도 없이 대부분 첫 시작은 중국으로부터의 입국자들을 통해 각국 대도시 중심으로 SARS-CoV-2가 깊숙하게 침입해 각 국가 대규모 지역 감염을 여기저기에서 일으키고 있다. (예외: 현재 아프리카와 중남미는 제 2차 파동으로 인해 유럽발 감염현상으로 보이고 있다.)
2002년 말에 발견된 사스(SARS)가 2003년 4월이 넘어가서야 유전체가 해독이 되었다. 하지만 이번 COVID-19 사태 때는 이미 게놈 해독 기술이 발전해 감염 환자가 발견되고 늦어도 일주일 안에 게놈 해독되어 공개되는 현상들을 볼 수 있다.
2019년 12월 8일 중국에서 첫 증례가 있고나서 2020년 1월 6일 바이러스가 처음 동정, 1월 10일 바이러스 게놈을 해독하고 진뱅크에 처음 등록되었다. 그리고 전 세계 과학자들은 자국에 COVID-19 발병 환자 사례가 나오면서 이 검체를 확보해 게놈 해독과 분석을 통해 데이터를 진뱅크(GenBank) 또는 GISAID에 공개하고 있다. 이 서열이 나오자마자 코돈 유시지(codon usage) 분석을 통해 박쥐 유래 바이러스임을 밝히고 기존 메르스와 사스에 비해 인간 배양세포에서는 잘 자라지 않지만, 인간의 기도 상피 세포에서는 아주 빠르게 증식한다는 패턴까지 이 바이러스에 대응하기 위해 필요한 다양한 연구 결과들이 초기부터 쏟아져 나오고 있다.
이 유전체 데이터를 전 세계 연구자들이 참여해 심층적으로 분석해 박쥐에서 발견되는 코로나바이러스와 거의 동일하다는 것을 밝혀냈으며 오리진이 중국 야생동물에서 유래된 것으로 예측할 수 있었다. 이 게놈 서열을 기반으로 빠르게 진단 테스트를 개발해 전 세계가 감염자를 확진하는 데 활용하고 있다. 그리고 이 게놈에 대한 이해도를 높임으로써 치료제 및 백신 개발에 크게 도움이 될 것으로 예상이 된다. 이러한 내용을 중심으로 정리를 해보았다.
중국 과학자들이 바이러스 게놈 분석을 통해 오리진을 추적하는 데 성공해 란셋에 논문을 출판했다 [2]. 따라서 우한 화난 시장에서 COVID-19가 발생했다는 주장은 사실이 아님이 밝혀진 듯하다. 우한 지역에서 발생한 초기 환자 검체에서 유래된 이 바이러스 게놈들과 기존에 알려진 코로나바이러스 게놈까지 모두 분석해 보니 이미 작년 11월 중순부터 사람과 사람 사이에 전파되고 있었으며 우한 화난 시장 내 야생 동물들에 의해 직접적으로 퍼진 것이 아닐 가능성이 높다고 한다. 급기야 최근에는 란셋에서 COVID-19와 관련해 전 세계 과학자들이 연합해 공동성명서를 발표하기도 했다 [3].
요약하면 이번 COVID-19 사태의 주요 원인인 SARS-CoV-2가 중국 한 연구소에서 생물학 무기를 위해 만들어진 "engineered virus"가 퍼졌다는 주장은 명백히 허위라는 것이다. 전 세계 연구자들이 다양하게 그리고 독립적으로 SARS-CoV-2 게놈을 분석해본 결과를 종합했을 때 결론은 이 유전체는 절대로 생물학 무기를 위해 만들어진 "engineered virus" 일 수 없으며 origin은 명백하게 야생동물에 유래된 것이라고 판단하였다. 여기에 대해서 너무 많은 루머들이 퍼지고 있어서 과학자들과 공중보건 전문가들 그리고 의학 전문가들이 이를 방어하기 위해 공동 성명을 발표한 듯하다.
여러 논문 중 대표적인 연구 논문으로는 미국 스크립스 연구소 크리스티안 안데르센(Kristian G. Andersen) 그룹에서 네이처 메디슨 저널에 발표한 “코로나바이러스의 가까운 기원(The proximal origin of SARS-CoV-2)”논문을 봐도 의도적인 조작의 산물이 아님을 다른 여러 게놈 데이터를 비교 분석해 강력한 증거들을 제시하고 있다. 즉 기존의 바이러스들의 백본을 이용해 인위적으로 유도되지 않았음은 확인이 되었다 [4].
그럼 이 바이러스 유래는 어디인지? 이 연구자들은 다시 3가지 가설을 제안하고 있다. 첫 번째로는 최근 말레이 천산갑에서 유래된 바이러스 유전체 내 리셉터 바인딩 도메인(RBD) 아미노산 잔기가 SARS-CoV-2와 매우 유사한 것을 보았을 땐 이와 비슷한 형태로 자연에 존재하는 여러 동물에 감염되면서 자연스럽게 코로나바이러스가 자연 선택의 결과에 의해 인간의 ACE2 단백질에 바인딩할 수 있는 최적화된 스파이크(Spike) 단백질을 가지게 되었을 것이라는 가설이다.
두 번째로는 오랜 기간 인간과 인간에 걸쳐 감염이 국소적으로 일어나다가 특정 서열에서 갑자기 변화가 생겨 변종이 생겼다는 가설이다.
세 번째는 실험실에서 SARS-CoV 유사 코로나바이러스 연구를 위해 전 세계 생물안전 2등급 실험실(BSL-2)에서 세포 배양 및 동물 모델을 활용해 키우고 있는데 그중 어떤 실험실에서 계대배양(passage) 동안 특정 샘플에서 RBD 돌연변이를 획득하지 않았나 하는 가설이다.
정리하면 이 바이러스가 인위적으로 만들어진 것은 사실이 아니며 중국 우한 화난 시장도 발원지가 아니며 자연 발생적으로 획득된 변이에 의한 자연 선택적으로 환경에 적응된 바이러스일 것으로 현재까지는 과학자들은 결론 내리고 있다.
COVID-19의 원인이 되는 SARS-CoV-2 유전체가 중국 연구자들에 의해 밝혀지고 나서 발 빠르게 미국 CDC (질병관리본부)에서도 미국에 발생한 감염자를 대상으로 유전체 서열을 시퀀싱해서 그 데이터들을 기반으로 RT-PCR 프라이머(primer) 및 프로브(probe) 관련 및 Real-time 패널 실험과 관련된 자세한 프로토콜도 같이 제공하고 있다 [5].
“모데나(Moderna)”라는 백신 회사는 전 세계 최초로 외래 바이러스인 SARS-CoV-2 감염을 대비해 면역계를 활성화시키는 mRNA 백신을 2020년 3월 16일에 처음으로 미국 시애틀 카이저 퍼머넌트 연구소에서 건강한 참여자를 대상으로 첫 백신 접종이 이뤄졌다. (NCT04283461, phase 1) 현재 건강한 참여자 45명을 통해 안정성과 면역원성에 대한 스터디를 위해 임상 1상을 진행 중에 있다. 이 임상시험 계획대로라면 빨라도 내년 6월에 끝나기 때문에 1년 이후에나 임상시험 결과를 알 수가 있을 듯하다. 현재 급박한 전 세계 위기 상황에서 특히 미국이 심각한 상황이라 속도를 조금 더 낼 듯하다.
작년 12월부터 올해 1월 말까지 SARS-CoV-2 관련해 시퀀싱 되어 공개된 46명 환자 유래 바이러스 게놈 데이터를 분석한 결과를 “GISAID”라는 사이트에서 모두 공개했다. 현재 3월 중순까지 이 데이터 수는 약 1,000여 종의 샘플이 넘어가고 있다. 이 GISAID 데이터베이스 내 유전체 계통 분석 결과를 보면 바이러스 변이가 어떤 도메인 영역에서 얼마나 빠르게 생겨나고 어디로 어떻게 확산되는지 그 패턴을 정성/ 정량적으로 볼 수가 있다. 현재까지 쏟아져 나오는 뉴스, 루머 및 발표보다도 가장 신뢰할 수 있는 명확한 과학적 데이터이다 [6].
이 감염병 아웃브레이크(Outbreak) 이후 4개월이라는 기간 동안 이 바이러스와 관련된 유전체 분석, 역학 연구, 임상 연구, 단백질 구조 분석 및 치료제 개발 관련 논문 수십 편이 쏟아져 나오고 있으며 2020년 3월 22일 오전 9시 기준으로 약 1300편의 논문이 출판되었다 [그림 1] . 이와 관련된 치료제/ 백신 및 의료기술 개발을 위해 발 빠르게 진행되고 있고 현재 등록된 임상시험(Clinical trial)만 125건으로 신속히 진행되고 있다. 이런 과학자들의 노력이 대규모 아웃브레이크(outbreak)를 막고 사람들 생명을 살릴 수 있다.
중국 현장에서는 초소형 유전체 해독 장비인 “민아이온”을 활용해 환자 유래 SARS-CoV-2 유전체를 현장에서 24시간 내 시퀀싱 하는 데 활용하고 있으며 중국 전역에서 발생한 다양한 이 바이러스 유전체 데이터 수백 개가 동시에 계속해서 올라오고 있다 [7].
코로나바이러스(COVID-19) 관련해 유전체 연구의 최신 기술인 싱글셀 시퀀싱 분석까지 진행되고 있다. COVID-19 환자들이 호흡기 이외에도 급성 신장 손상이 계속 관찰되고 있는데 중국의 한 연구 그룹이 환자의 신장과 방광 조직에서 싱글셀 레벨에서의 변화를 확인했다 [8].
이 연구를 통해 신장과 방광에서도 바이러스의 흔적이 약하지만 잡혔고, 감염의 잠재적 경로임을 밝혀냈으며 보통은 코로나바이러스 검사는 환자의 객담을 통해서 검체를 확보하고 바이러스 RNA를 분리해 검사를 진행하는 데 RNA 시료 퀄리티가 좋지가 못해 검사 실패율이 다소 높은 문제가 있다. 이 연구 결과를 통해 소변 검사를 통해서도 검사가 가능하다는 근거가 마련되기도 했다.
COVID19 원인이 되는 바이러스 게놈이 해독되고 공개되자마자 몇 주 만에 이 바이러스가 숙주 세포에 침입할 때 사용하는 가장 중요한 spike (S) 단백질의 구조를 미국 대학 및 NIH 산하 백신 연구소 과학자들이 초저온 전자현미경(cryo-EM)을 사용해 처음 밝혀냈다 [9].
스위스 과학자들이 SARS-COV-2의 게놈을 클로닝 하는 데 성공했다. 이 바이러스 게놈이 워낙 사이즈가 큰 3만 개의 염기 서열로 구성된 비교적 큰 사이즈의 RNA 바이러스라 복제하기가 무지 어려웠을 텐데 스위스 과학자들이 헌신적으로 밤낮없이 노력해 가장 처음 게놈 해독되어 공개된 데이터가 나온 지 얼마 되지 않아 바로 이 서열 데이터를 기반으로 DNA를 엄청나게 합성해내고 여러 번 시도를 통해 YAC (효모) 클론을 통해 복제하는 데 성공했다고 한다. 이 플랫폼이 얼마나 대단하냐고 하면 일주일이면 실험실에서 내가 원하는 만큼의 SARS-COV-2를 복제해 이들의 감염성 및 치사율에 대한 연구뿐만 아니라 다양한 치료제 개발을 위해 연구할 수 있는 플랫폼이 만들어지게 된다. 본격적으로 치료제 및 백신 개발 그리고 이 바이러스의 감염률과 치사율을 낮추는 방법을 찾기 위한 다양한 연구를 가속화할 수 있게 되었다 [10].
최근 COVID-19 아웃브레이크로 인해 전 세계에서 발생한 환자 검체로부터 시퀀싱되어 공개된 SARS-COV-2 유전체(30kb) 및 기존 SARS coronavirus 관련 유전체 서열들을 모두 찾아 심층 분석을 하고 있는 그룹도 있는 반면 어떤 그룹들은 컴퓨터 시뮬레이션 기술을 활용해 이 서열 중에 Spike (s) protein (초록색)에 ACE2 protein (빨간색)과 여러 약물이 바인딩하는 다양한 구조를 모델링하는 중이다. 목적은 SARS-COV-2의 침투 경로 차단을 위해 저 두 단백질을 서로 분리시킬 수 있는 약물을 어렵겠지만 어떻게든 찾고자 시도하고 있다. FDA에서 허가받은 약 1,700여 종의 약물뿐만 아니라 임상시험 중에 있는 약물들 중에 가능한 모든 3차원 구조 내에서 결합시켜 이 두 단백질이 구조적으로 차단이 가능한지 시뮬레이션 중에 있다 [그림 2].
공개된 수백 개의 SARS-COV-2 전체 게놈 30kb에서 발생하는 변이들의 패턴들을 보니 완벽히 “무작위 변이(random mutation)”이다. 무작위 변위는 감염자에 존재하는 바이러스 간 상대적 유전적 거리를 정확히 측정 가능한 특징을 가지고 있다. 따라서 이런 식으로 한국인 확진자의 전장 SARS-COV-2 게놈을 읽고 변이를 분석하고 환자들에게서 발견된 각 변이 중에 공통적으로 가지고 있는 “인포메티브 사이트(informative site)" 정보를 활용한다면 역학 조사관이 일일이 확진자와 상담을 통해 동선을 파악해 확진자 동선도를 그리듯이 COVID-19 확산되는 경로를 디지털 정보로 전환하여 정확하게 파악할 수 있는 중요한 도구가 될듯하다. 그렇게 되면 확진자의 이동 동선에 관한 신빙성에 의심을 할 필요도 없을 듯하다. 사실 확진자 본인도 이동 동선에 대해 기억이 확실하지 않은 경우도 있고, 감염자와의 접촉 시간과 지역을 특정하지 못할 수도 있다. 하지만, 서열에 생긴 변이를 추적하면 이를 단시간 내에 확인 할 수 있다 [그림 3].
이 바이러스는 유전체 사이즈가 그다지 크지 않아 국내 확진자 수천 명한테서 유래된 바이러스 유전체를 충분히 얻어 차세대 유전체 해독(NGS, Next Generation Sequencing) 기술을 사용해 해독하고 분석하면 넉넉잡아 한 달 안에 모두 분석이 가능하고 완료되면 그림 3과 같이 확진자들의 감염 경로와 함께 누가 누구한테 전파했으며 어떻게 퍼져나가는지 계통도를 그릴 수 있고 이를 보면서 앞으로는 어떤 경로에서 차단해야 할지 예상이 가능해지게 된다. 그 이후로 발생하는 확진자들은 기 구축된 계통도에 계속 추가해 나간다면 고해상도의 COVID-19 디지털 맵이 만들어질 수 있다 [11].
COVID-19 감염 환자 유래 SARS-CoV-2 게놈 분석으로 감염 경로를 추적할 수 있음을 보여주는 몇 가지 예를 들어 보려 한다.
미국 워싱턴주에서 발견된 COVID-19 환자 WA1과 WA2 와의 관계를 게놈 분석으로 “시애틀 플루 연구소(Seattle Flu Study)” 과학자들이 찾아냈다. WA2는 WA1과 접촉해 COVID-19에 감염되었을 거라고 볼 수 있다. 그 이유는 WA1 환자는 중국에 있는 환자들과 변이 공유도가 매우 높으며 WA2는 그림에서처럼 공개된 수백 개의 게놈 중에 하필 WA1과 가장 가깝게 클러스터링 것을 보았을 때 SARS-CoV-2가 직접 전달되었을 가능성이 가장 높을 거라는 합리적 의심을 해볼 수 있다. 그런데 이 둘이 관련 있다는 것을 한 달 이후에나 발견되었으며 그 사이에 격리 및 필요한 방역 조치를 하지 않아 지금 워싱턴주에 대규모 지역감염으로 인해 다수의 COVID-19 감염자가 많이 발생하는 이유이기도 하다.
유럽도 COVID-19로 인해 지금 난리인데 특히 이탈리아 북부 롬바르디아주 등에서 이탈리아 내 전체 감염자의 90% 정도가 집중되고 있고 한국의 대구, 미국의 워싱턴주와 같은 비슷한 대량 지역 감염의 경향성을 보여주고 있다. 게다가 롬바르디아주에 지역 감염으로 인해 스위스, 프랑스, 독일을 통해 유럽 전체로 확산되는 효과를 보이고 있다. 실제로도 여기 이탈리아 롬바르디아주 확진자 SARS-CoV-2 게놈(파란색 화살표) 데이터가 유럽의 가장 큰 지역감염의 온상이 되는 가장 큰 클러스터의 중심에 위치하고 있는 것을 볼 수가 있다. 이 지역에만 중국 교민이 8만 명 이상 살고 있고 1월 말 춘절 기간에 중국에서 거주하다가 2월에 이탈리아로 돌아온 중국 교민들에 의해서 일어난 것으로 보고 있다. 그런데 여기 유럽인 확진자 29명 SARS-CoV-2 유전체 데이터를 보면 이탈리아, 스위스, 영국, 독일, 프랑스, 영국 스웨덴, 핀란드에서 발생한 확진자 SARS-CoV-2 게놈 데이터가 올라와 있어 분석한 결과를 보면 감염 루트가 너무 다양하다는 것을 볼 수가 있다. 한국, 미국보다 더 많은 루트로 이미 감염자가 유럽의 여러 나라를 통해 이미 들어왔다는 것을 알 수가 있다. 시간이 지나면 다양한 루트로 이미 시작된 감염이 전 유럽으로 확산되는 것은 안타깝지만 당연해 보인다 [그림 4].
최근 2월의 WHO 보고서에서부터는 SARS-COV-2 게놈 데이터 분석한 계통도(phylogeny tree)를 Figure 1로 채택하기로 했다. 아마도 지금과 같은 시국에 너무 부정확한 데이터들이 쏟아지고 있는 가운데서 바이러스 서열 데이터는 가장 명확하고 결정적인 과학적 데이터이기 때문일 것이다. 작년 12월부터 올해 2월 중순까지 최근 약 3개월여 동안 감염된 환자들로부터 확보한 104 strains의 SARS-COV-2 게놈을 분석한 결과 아직 다른 변종은 발견되지 않았다고 한다 [12].
다음 링크[13]에는 사람한테 치명적인 유전체 정보를 가진 박테리아 및 바이러스들의 유전체 구조를 인포그래픽스로 표현한 것이다. 사스, 에볼라, 메르스, 코로나 같은 또 다른 바이러스들이 계속해서 인류를 괴롭힐 것이며 COVID-19는 인류의 마지막 팬더믹이 아닐 가능성이 높다.
인류는 이들 코로나바이러스를 포함해 감염 환자로부터 유래된 다양한 샘플들을 확보해 이들 유전체를 이해하는 일들을 지속적으로 해야 한다.
이러한 글로벌 시대에 이런 감염력이 높은 병원균이 퍼지고 이 정도 규모의 아웃브레이크가 생겼을 때는 특정 한 국가만 아무리 처치를 잘한다고 해결될 문제가 아니다. 이번에 우리는 이것을 절실히 깨달았다. 이러한 일이 발생하면 냉정하게 대처하는 좋은 모델을 과학자들이 작지만, 조용히 보여주었다.
전 세계 과학자들이 자발적으로 나서서 이렇게 자국의 데이터를 공유하고 협업해 그 원인을 찾아가고 있다. 여기에는 국경, 민족, 정치, 혐오가 들어갈 자리가 전혀 없다. 데이터를 분석하고 원인을 찾아내고 병원균이 더 이상 확산되는 것을 막고자 하는 의지만 있을 뿐이다. 그리고 우리가 할 수 있는 일은 이 경험으로 몰랐던 사실을 다시 배우고 다음에 또 닥쳐 올 또 다른 병원균과의 전쟁을 예상하고 준비할 뿐이다.
참고문헌
==>첨부파일(PDF) 참조
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
자료열람안내
본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다.
내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(view@ibric.org) 바랍니다.