최신 연구동향 정보를 제공하기 위해 생명과학관련 정보제공자를 모집합니다.
Bio리포트 동향리포트
통합구조생물학(Integrative Structural Biology)의 동향
김현민(서울대학교)
목 차
1. 서론
1.1. 통합구조생물학의 정의
1.2. 통합구조생물학의 배경
2. 통합구조생물학적 모델 구축 방식
2.1. 구조생화학적 데이터 획득
2.1.1. 실험적 기법을 통한 개별 구조 획득
2.1.2. 실험적 기법을 통한 위치 정보 획득
2.1.3. 계산 기반의 구조 및 위치 정보 획득
2.2. 획득 데이터의 통합적 분석을 통한 모델 구축
2.2.1. 데이터 구성 요소의 ‘representation’
2.2.2. 획득 데이터를 이용한 scoring function 구성 및 평가
2.2.3. 획득 구조 모델의 평가
3. 통합구조생물학 분야의 이슈와 동향
3.1. Archiving 시스템 구축
3.1.1. 단일 구조 모델/ 실험 데이터 deposit을 위한 archiving 시스템 구축
3.1.2. 통합적 구조 데이터 deposit을 위한 archiving 시스템 구축
3.2. 통합적 구조 모델링용 소프트웨어 개발
3.2.1. Integrative Modeling Platform (IMP)
3.2.2. Rosetta
3.2.3. TADbit, PGS (population-based Genome structure)
3.3. 통합구조생물학용 데이터 시각화 및 분석용 프로그램 개발
3.3.1. ChimeraX
3.3.2. Visual Molecular Dynamics (VMD)
3.4. 데이터 형식별 representation, 평가, archiving 기준 정립
3.4.1. 개별적 실험 데이터용 기준 정립
3.4.2. 계산 방식 기준 정립
3.4.3. 통합 구조 모델 평가를 위한 기준 정립
4. 통합구조생물학을 이용해 규명된 구조의 예
4.1. Yeast 핵공복합체의 통합적 구조 규명(2018)
4.2. Genetic interaction mapping 데이터를 이용한 통합적 구조 모델 구축 (2020)
5. 결론
6. 참고문헌
1. 서론
1.1. 통합구조생물학의 정의
“통합구조생물학”이란 구조적, 생화학적, 생물리학적 등 다양한 종류의 실험적 기법들과 모델링 등 계산 및 해석 기법을 통합적으로 활용, 원하는 생물학적 타겟의 3D 구조 모델을 제시하는 접근 방식이다.
1.2. 통합구조생물학의 배경
구조생물학은 생체 분자의 구조를 규명하는 학문으로, 구조 규명을 통해 분자의 기능과 메커니즘을 밝혀낼 수 있어 생명과학 분야 전반에 큰 정보를 제공해 왔다. 현재까지 NMR, X-ray 결정학, EM 등의 분석 기술이 발전하며 기존 구조생물학 실험 기법의 한계를 극복하거나, 서로 보완하며 구조생물학의 발전을 견인해 왔다. 그러나, 개별적인 구조생물학 기법에는 각각 한계가 있고, 특히 여러 subunit들이 결합해 있거나 다이나믹하고 heterogeneity가 높은 거대 분자의 구조 규명에는 어려움이 있어 왔다.
통합구조생물학은 개별적 실험 기법의 한계를 극복하고 다양한 종류의 데이터들을 통합, 단일 기술로 얻어낼 수 있는 데이터 및 분석 결과의 한계를 극복하고, 다이나믹한 복합체의 통합적이고 전체적인 모델을 얻어낼 수 있는 기법이다. 해당 모델링을 위해 우선 생화학적, 구조적, 생물리학적 실험 데이터들을 모아서 3D 구조 모델을 만들어내고, 이 모델들을 계산해 데이터에 부합하며 신뢰도가 가장 높은 최종 모델을 도출하게 된다. 이 방식은 전체 데이터셋을 통합하여 각 데이터에 모두 부합하는 모델을 구현하기 때문에 개별적 실험 기법이나 모델링 기법만을 이용한 구조 모델링보다 훨씬 정확도가 높으며, 보다 거시적이고 통합적인 관점에서 구조 모델을 제시할 수 있다.
최초의 통합적 구조 모델 중 하나로 double-strand DNA 구조를 들 수 있다. 이 구조 모델은 X-ray 회절 데이터, 화학적 구성 성분 정보, 뉴클레오타이드 간 결합비, 각 성분 간 stoichiometry 정보를 기반으로 제시되었는데, 각각의 데이터만으로는 DNA가 이중 나선이라고 주장하기에 충분하지 않지만, 이 데이터들을 통합적으로 분석하면 DNA가 이중나선 형태라는 모델에 도달할 수 있는 통합적 접근 방식의 좋은 예이다. 현대 생물학에서는 더 발달된 실험적 기법들과 계산 기법을 이용, 더 복잡하고 정교한 시스템을 통합구조생물학적으로 분석할 수 있게 되었다.
2. 통합구조생물학적 모델 구축 방식
2.1. 구조생화학적 데이터 획득
다양한 실험적 기법을 기반으로, 각 서브 유닛 별 구조 정보 및 위치 정보나 서브 유닛 간의 interaction에 대한 정보를 획득, 통합구조생물학적 모델 구축을 위한 기초 데이터로 활용한다 [1, 2].
2.1.1. 실험적 기법을 통한 개별 구조 획득
NMR, X-ray 결정학, EM 등을 이용해 생체 분자의 개별 구조를 획득한다. 각 기법별로 기술적인 한계나 장단점이 다르기 때문에 최종 목적에 부합하는 구조 데이터를 획득해내는 것이 통합구조생물학의 첫 단계라고 할 수 있다. NMR의 경우 단백질 구조를 높은 resolution으로 규명할 수 있으나, 분석 가능한 단백질의 크기가 작다는 단점이 있으며, X-ray 결정학 역시 높은 resolution으로 다양한 크기의 단백질 구조를 규명할 수 있다는 장점이 있으나, heterogeneity가 높은 단백질 구조를 규명하기에는 기술적으로 한계가 있었다. 최근 급속도로 발전한 cryo-EM 기술의 경우 다양한 크기의 단백질 구조 규명이 가능하나, 규명된 구조의 resolution이 아직 낮고, 일정 크기 이하의 단백질은 구조 규명이 어려우며, 획득한 구조 내에서도 map 위치에 따라 resolution 차이가 크게 난다는 단점이 있다. 최근 기술의 발전으로 규명 가능한 resolution이 점점 높아지고 있으며, 단백질 정제 과정 없이 세포 내에 존재하는 단백질이나 세포 소기관, 혹은 세포 전체를 이미징할 수 있는 cryo-ET 등 새로운 응용 기술이 발전하며 구조생물학 전반에 기여하고 있다.
2.1.2. 실험적 기법을 통한 위치 정보 획득
개별 서브 유닛들이 세포 수준에서 어디에 위치하는지, 다른 서브 유닛들과 어떻게 interaction 하는지 등에 대한 정보를 얻기 위해 MS, SAXS, IP, labelling, co-localization 등의 실험 기법을 이용한다. 이와 관련된 실험 기법 및 획득 가능한 정보에 대해 표 1에 정리하여 나타내었다.
2.1.3. 계산 기반의 구조 및 위치 정보 획득
단백질 서열을 기반으로 한 2차 구조 예측, homology domain 탐색 등을 통해 각 서브 유닛 간의 interaction, 위치 등의 추가 정보를 탐색할 수 있다. 또한, de novo 모델링, homology based 모델링 등을 통해 각 서브 유닛의 구조 모델 정보 역시 추가로 획득할 수 있다.
2.2. 획득 데이터의 통합적 분석을 통한 모델 구축
2.2.1. 데이터 구성 요소의 ‘representation’
파트 2.1.에서 획득한 각 데이터들을 이용해 구축할 모델의 ‘representation’을 정의한다. 해당 ‘representation’은 모델의 구성 요소들을 명확하게 설명할 수 있으면서 전산 해석 역시 가능하도록 구성되어야 한다. 예를 들어, 구조 모델의 representation은 원자, 보다 덜 정교한 수준의 분자, 혹은 복합체 속 각 서브 유닛의 종류나 카피 넘버와 같은 구성 요소들을 명시하면서, 각 구성 요소들의 위치, 오리엔테이션, 형태 등의 정보를 잘 설명할 수 있어야 한다. 또, representation을 정의할 때 담긴 정보의 종류와 양 그리고 변수가 이용한 데이터의 종류와 구축 중인 모델에 알맞도록 정의해야만 한다. 또한, domain 정보, MS 데이터, density map이나 localization 정보 등의 데이터를 이용해 각 서브유닛의 위치나 interaction에 기반한 위치 정보 등을 공간적 제한 요건으로 정의, 모델 구축 시 해당 제한 요건을 충족하도록 하여 모델의 불확실성을 최소화할 수 있도록 한다.
2.2.2. 획득 데이터를 이용한 scoring function 구성 및 평가
데이터를 기반으로 구축된 구조 모델을 평가하기 위해서는, 우선 모델 구축에 이용했던 데이터와 모델 사이의 일치도를 평가하는 것이 중요하다. 이를 위해 우선 A에서 획득했던 데이터를 이용한 scoring function을 구성하고, 이 함수를 이용해 모델 구축에 사용한 데이터와 구축 모델 간의 유사도(degree of match)를 계산한 후, 모델 별 유사도를 정량적으로 비교 및 평가해 어떤 모델이 가장 사용한 데이터와 잘 부합하게 구축되었는지 가려내는 과정을 거친다. 이 과정에서 모델 무작위 샘플링, 필터링 및 평가 과정을 거치며 최적화된 모델을 걸러낼 수 있도록 계산을 수행한다. 또한, scoring function 구성에 이용되지 않았던 데이터를 이용해 구축된 모델 평가에 이용, 활용 데이터 경향성과 상관없이 편향되지 않은 모델 평가를 수행할 수 있다. 또한, 모델 평가를 위한 평가 구역을 제한, 특정 구역 안에서만 샘플링을 진행하는 형식으로도 모델 구축 및 평가를 진행할 수도 있다.
2.2.3. 획득 구조 모델의 평가
파트 2.2.2까지의 과정을 통해 구축한 모델 중 점수가 높은 모델을 고른다. 해당 모델은 전체적으로는 불확정성이 있더라도 모델 구축에 이용했던 개별적 데이터에는 각기 부합해야 하며, 이를 만족하는 모델이 없을 시에는 모델링 시 이용했던 제한 요건, 데이터 등을 다시 점검하고 정보가 부족했는지, 부정확했는지, representation이 적절하지 않았는지 등 불충분했던 부분을 먼저 파악한 후 이를 보완하여 모델링을 새로 진행하고, 위 과정을 반복한다.
샘플과 모델의 불확실성을 계산하고, 모델의 불확정성이 샘플링 불확정성보다 높으면서도 신뢰할 수 있는 범위에 들어오는지, 모델 구축에 이용했던 데이터들이 최종 구조 모델과 부합하는지 등의 평가를 통해 모델 정확도를 계산하고, 신뢰도를 평가한다. 또한, 계산에 사용하지 않은 데이터가 모델과 일치하는지도 확인하여 해당 모델에 편향성이 없는지 확인한다.
해당 과정을 통해 획득한 모델이 기준에 충분히 부합할 경우 최종 구조 모델로 선정하며, 그렇지 못할 경우 위 과정들을 반복 수행하여 사용 데이터에 부합하며 신뢰도가 높은 모델을 구축한다.
3. 통합구조생물학 분야의 이슈와 동향
통합구조생물학은 다양한 종류의 데이터를 통합적으로 분석해 모델을 구축해야 하며, 현재 개별 데이터 획득을 위한 실험 기법 및 통합적 분석 기법이 모두 발전 단계에 있다는 특성이 있다. 이에 활용 데이터 공유 및 처리를 위한 플랫폼 구축과 활용 데이터 및 모델 분석과 평가를 위한 가이드라인 정립이 통합구조생물학자들 사이에서 선결 과제로 인식되고 있다 [3].
3.1. Archiving 시스템 구축
3.1.1. 단일 구조 모델/ 실험 데이터 deposit을 위한 archiving 시스템 구축
다양한 종류와 스케일의 실험 데이터가 요구되는 통합구조생물학의 특성상, 여러 종류의 데이터를 deposit 할 수 있는 archiving 시스템의 필요성이 대두되고 있다. 이에, wwPDB (worldwide Protein Data Bank)에서 소집한 IHM (Integrative/ Hybrid Methods) 태스크포스를 기반으로 개별 구조 데이터, 실험적으로 획득한 데이터뿐 아니라 “federated resources”라는 모토 아래 실험 데이터별 기준 정립, 각 모델이나 데이터 구조화, 획득, 검색 및 이용을 위한 인프라 구축을 현재 과제로 삼고 진행 중에 있다 [4].
3.1.2. 통합적 구조 데이터 deposit을 위한 archiving 시스템 구축
wwPDB에서는 “PDB-Dev”라는 prototype archiving 시스템을 구축, 통합적 구조 데이터/ 실험 기법 융합 기반 구조 데이터를 deposit하고 공개할 수 있는 archiving 시스템을 시범적으로 운영하고 있다. 현재 해당 시스템을 통해 공개된 구조는 55개이며, 추후 해당 시스템이 완성되면 wwPDB를 이용해 deposit 및 구조 공개를 일원화하는 것을 목표로 한다 [5].
3.2. 통합적 구조 모델링용 소프트웨어 개발
3.2.1. Integrative Modeling Platform (IMP)
IMP는 현재 통합구조생물학 분야의 선두 그룹 중 하나인 A. Sali 랩이 주축이 되어 개발한 통합구조생물학 연구용 오픈 소스 소프트웨어이다. 해당 소프트웨어는 모델 representation, scoring, 필터링, 평가 등의 기능을 제공하며, EM, MS, FRET, SAS 등 다양한 종류의 실험 데이터와 proteomics, bioinformatics method를 이용한 모델링 기능 역시 제공한다. Linux, mac, windows 운영체제를 모두 지원하며, 웹사이트에서 보다 자세한 설명을 확인할 수 있고 [6] github에서 프로그램을 다운로드할 수 있다 [7].
해당 플랫폼 설치 및 튜토리얼에 대한 논문이 출판되어 있으며, 제공된 data (sequence file, crosslinking data, negative-EM density map, X-ray 구조)를 기반으로, component representation, restraints를 이용한 scoring function 수립, sampling, output ensemble analyzing, sampling precision estimation, model precision estimation, individual model cluster interpretation & estimation을 수행하고 RNA polymerase II의 통합적 구조 모델링을 진행해 볼 수 있다 [8].
IMP를 이용해 규명된 통합적 구조로는 2018년 규명된 Nuclear pore complex의 구조 [9], exosome 구조(2015) [10], 26S proteasome (2017) [11] 등이 있다.
3.2.2. Rosetta
Rosetta는 단백질 디자인 분야의 선두 그룹 중 하나인 D. Baker 그룹이 주축이 되어 개발한 오픈 소스 소프트웨어이다. De novo structure prediction, 단백질 디자인, small-molecule이나 단백질 도킹을 포함한 다양한 기능의 툴을 제공하는 것이 강점이며, 통합구조생물학에서 이용하는 다양한 종류의 실험 데이터를 기반으로 모델링을 수행할 수 있다 [12, 13].
RosettaScripts, Pyrosetta와 같은 프로토콜을 제공하며, RosettaCommons 커뮤니티에서 지속적인 개발 및 보수를 진행하고 있어 새로운 개발 인력의 참여가 용이하고 툴 추가가 활발하다는 장점이 있다.
Rosetta를 이용해 G-protein-coupled receptor (GPCR)-그렐린 펩타이드 복합체 구조(2019) [14], HCN voltage-gated ion channel (2019) [15] 등의 구조가 규명된 바 있다.
3.2.3. TADbit [16], PGS (population-based Genome structure) [17]
위 두 소프트웨어는 Chromosome conformation capture (Hi-C) 데이터와 다른 데이터들을 통합하여 지놈의 3D 구조를 모델링, 통합적 구조를 제시한다.
TADbit은 IMP 기반 소프트웨어 패키지로, Hi-C를 통해 알아낸 각 염색체 간의 interaction 빈도를 이용해 공간적 제한 조건을 설정, 3D 모델링을 수행한다. 해당 패키지를 이용해 2015년 drosophila melanogaster의 2L 염색체에 대한 3D 구조 모델이 deposit된 바 있다 [18].
PGS는 분포 기반 확률적 접근 방식을 이용, Hi-C 데이터에서 얻은 염색체 간 interaction 양상에 확률적으로 부합할 수 있는 지놈 3D 구조를 모델링한다.
3.3. 통합구조생물학용 데이터 시각화 및 분석용 프로그램 개발
3.3.1. ChimeraX [19, 20]
ChimeraX는 chimera에 기반하는 프로그램으로, 해당 프로그램을 통해 통합적 구조 모델 데이터를 열 수 있으며 다양한 스케일의 데이터들(원자 혹은 분자 수준에서의 위치 정보, cross-linking 데이터에 기반한 거리 정보, EM density map 등)을 각각 확인할 수 있다.
3.3.2. Visual Molecular Dynamics (VMD)
VMD는 시뮬레이션 준비 및 시각화 그리고 모델 분석을 할 수 있는 플랫폼으로, 규모가 큰 시스템이나 데이터셋을 열고 편집하는 데 사용할 수 있다. 다양한 수준에서의 representation을 시각화할 수 있으며, EM density map 등 다른 종류의 데이터도 함께 열어 확인할 수 있다. PDB-Dev에 deposit된 통합적 구조 모델 데이터 형식을 지원하기 위한 개발 역시 진행 중에 있다.
3.4. 데이터 형식별 representation, 평가, archiving 기준 정립
3.4.1. 개별적 실험 데이터용 기준 정립
다양한 종류의 실험 데이터를 이용하는 통합적 구조 분석 분야의 특성상, 각 데이터별로 일관성 있는 representation, 평가, archiving을 위한 기준 정립이 요구된다. 이에, 각 데이터별 deposition을 위한 (예: SAS 데이터: SASBDB, MS 데이터: PXC, 개별 구조 데이터: PDB, EMDB 등) repository 구축 뿐 아니라 다양한 형태의 데이터 deposition을 위한 PDB 확장(PDB-Dev) 역시 앞서 언급된 IHM task force의 주도하에 이뤄지고 있다.
3.4.2. 계산 방식 기준 정립
효율적인 통합적 구조 모델링을 위해 계산 방식 기준이나 표준 과정 정립의 필요성이 대두되고 있다. 이를 위해 계산 모델 representing dictionary 수립 및 확장, 상호 데이터 deposit 및 공유 이외에도 모델링 방식 및 기준 탐색이 연구자들 간에 활발히 일어나고 있는 추세이다.
* 최근 AlphaFold2의 약진으로 다시 이슈가 되었던 CASP에서도 단일 실험 기법(MS, SAXS, NMR, FRET) 데이터 등을 추가 정보로 이용해 통합적 구조 모델링을 수행하는 카테고리가 존재하며 ((ex) Data Assisted), 대회를 통해 계산 방식 개발이 더 활발해지는 것 역시 기대 효과 중 하나이다 [21].
3.4.3. 통합 구조 모델 평가를 위한 기준 정립
통합적 구조 모델 역시 PDB에 deposition 시 개별 구조 모델 deposition과 유사하게 해당 모델의 정확성을 객관적으로 평가해줄 수 있는 validation report가 생성되어야만 하는데, 아직 해당 평가를 위한 기준이 정립되어 있지 않은 상태이며 평가를 어떤 식으로 일괄적으로 진행할 수 있을지에 대해서도 정립된 바가 없는 상태이다. 이에, 앞서 언급된 IMP에 기반한 모델 평가, wwPDB의 IHM taskforce 팀과 통합구조생물학자들의 피드백에 기반한 평가 파이프라인 구축을 위한 노력이 진행 중에 있다.
이를 위해 통합적 구조 모델을 구축하는 데 이용된 개별 구조 데이터 및 실험 데이터의 평가, 통합 구조 모델의 일부분에 대한 원자 수준 해상도의 구조 신뢰도 평가, 통합 구조 모델과 모델 구축에 활용한 데이터가 어느 정도나 상호 부합하는지 계산하여 평가하기 위한 기준 수립, 모델 구축에 사용되지 않았지만, 해당 모델 평가에 유효한 실험 데이터들을 이용한 모델 평가, 모델 불확정성 계산을 통한 통합 모델 평가 등의 기준이 현재 고려 중에 있다.
4. 통합구조생물학을 이용해 규명된 구조의 예
4.1. Yeast 핵공복합체의 통합적 구조 규명(2018) [9]
Nuclear pore complex (핵공복합체)는 핵질과 세포질 사이의 물질 교환을 조절하는 핵심 중추로, 이 복합체가 형성하는 통로를 통해 RNA와 단백질이 이동하며 생명 현상을 조절한다. 그러나 이 복합체의 크기, 복잡한 서브유닛 구성, dynamics 및 heterogeneity 때문에 기존의 구조생물학 기법으로는 전체 구조 규명에 한계가 있었다. 해당 논문에서는 Saccharomyces cerevisiae 유래 핵공 복합체의 구조를 통합구조생물학적 방식을 이용해 규명하였다(PDBDEV_00000010, PDBDEV_00000011, PDBDEV_00000012).
핵공복합체 정제를 위해 immune-purification을 이용하였으며, 정제된 핵공복합체를 구성하는 서브 유닛 규명 및 서브 유닛 간의 stoichiometry 규명을 위해 cross-linking, 정량적 MS, in vivo calibrating imaging analysis, charge detection MS 등의 기법을 이용하였다. 핵공복합체의 저해상도 구조 정보는 SAXS, negative-EM, cryo-ET map을 통해 획득하였고, 일부 서브유닛들의 고해상도 구조는 X-ray 회절 분석법을 통해 규명되었다. 통합적 구조 모델링 및 분석은 IMP를 이용해 진행하였다.
4.2. Genetic interaction mapping 데이터를 이용한 통합적 구조 모델 구축(2020) [22]
같은 기능을 담당하는 domain에 mutation이 도입되었을 때 cell phenotype 역시, 유사할 것이라는 가설을 바탕으로 실험을 수행, in vivo 데이터 역시 MS처럼 통합적 구조 모델 구축에 필요한 데이터로 활용할 수 있다는 결과를 제시한 최근 논문이다. Yeast histone H3, H4에 point mutation을 도입하고 이를 바탕으로 Point-mutant epistatic miniarray profile (pE-MAP)을 제작, 각 phenotype 별 유사도를 분석하고 이를 바탕으로 통합적 구조 모델 수립에 필요한 공간적 제한 요건을 설정하였다. 이후 해당 제한 요건을 이용해 구축한 H3-H4 단백질 복합체의 통합적 구조 모델이 단백질 결정학을 통해 규명된 H3-H4 단백질 복합체와 동등하였으며, MS를 이용해 구축한 통합적 구조 모델과도 결과가 동등하였고, pE-MAP 기반 in vivo 데이터와 MS 데이터 둘 다를 이용해 통합적 구조 모델을 구축하였을 때는 모델 정확도가 더 상승하였다. 해당 기법을 이용해 RpoB-RpoC와 같이 다른 단백질 복합체의 통합적 구조 분석을 시도하였을 때도 유사한 결과를 도출, in vivo 데이터가 통합적 구조 분석을 위한 데이터로 이용될 수 있음을 보였다.
5. 결론
통합구조생물학은 다양한 기법을 이용해 얻어낸 데이터들을 통합적으로 분석, 이들과 가장 부합하는 구조 모델을 도출해 내는 분야로, 기존의 실험적 기법을 이용한 단일 구조보다 더 큰 스케일의 다이나믹한 생체 분자 구조 모델을 제시할 수 있다. 기존에도 통합적 접근 방식은 존재하였지만, 최근 cryo-EM 및 응용 기술, 모델링 및 계산 기법 등의 약진을 통해 이용할 수 있는 데이터의 폭이 더 넓어졌고, 모델링 및 계산의 속도와 정확도 역시 크게 상승해 앞으로 발전할 여지가 크게 남아 있는 분야이다. 특히, 전통적인 구조생화학적 기법 이외의 데이터를 이용할 수 있다는 가능성 역시 밝혀져 통합할 수 있는 데이터의 다양성과 구조를 규명할 수 있는 생체 분자의 종류나 스케일 역시 크게 확장될 것으로 기대된다.
6. 참고문헌
==>첨부파일(PDF) 참조
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
자료열람안내
본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다.
내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(view@ibric.org) 바랍니다.