[DEBUG-WINDOW 처리영역 보기]
BRIC을 시작페이지로 회원가입    로그인
BRIC동향
   
통합검색
배너1 배너2 배너3 스폰서배너광고 안내
오늘의 BRIC정보
모바일 BRIC RSS
트위터 페이스북
검색 뉴스레터 안내
좋은 연구문화 만들기
Bio일정
Bio일정
 
Bio일정 프리미엄(유료) 등록이란?
2017년 한국분자세포생물학회 정기학술대회 - 55건 등록
실험
실험
바이오 형광사진
실험의 달인들
Bio마켓
Bio마켓
BioJob
BioJob
Biojob 프리미엄(유료) 등록이란?
커뮤니티
커뮤니티
전체메뉴
대메뉴안내: 동향
뉴스 Bio통신원 Bio통계 BRIC View BRIC이만난사람들 웹진
BRIC View
최신자료 동향리포트 학회참관기 리뷰논문요약 BRIC리포트 외부보고서
System biology 동향: Protein-protein interaction network 구축현황과 활용
System biology 동향: Protein-protein interaction network 구축현황과 활용 저자 강양제 (뮌헨 공대)
등록일 2017.03.23
자료번호 BRIC VIEW 2017-T08
조회 2304  인쇄하기 주소복사 트위터 공유 페이스북 공유 
요약문
Next generation sequencer의 발달로 인해 각 유전자에 대한 정보는 Resequencing을 통해 자연계에 존재하는 변이 정도, RNAseq을 통해 발달/기관/처리별 발현 변화를 매우 쉽게 알 수 있게 되었고, 지금 이 순간에도 데이터가 집적되고 있다. 이러한 유전자(Node)에 대한 데이터와 함께 역동적인 생물 현상을 이해하기 위해 System biology에서는 유전자 간의 상호작용(Edge)을 연구하고 있으며 그 중 High-throughput yeast two hybrid 기술을 이용한 protein protein interaction (PPI) network가 한 축을 차지하고 있다. 본 동향 리뷰에서는 인간 및 식물의 PPI network 구축 현황과 그 활용에 대해 알아보고 PPI typing의 기술적 발전에 대해서도 짚어본다.
키워드: System biology, PPI network, GWAS, Edgotyping, HaloTag-NAPPA
분야: Bioinformatics
목차

1. 서론
2. 본론
  2.1 인간유전체의 PPI
  2.2 식물의 PPI
  2.3 Protein array 기반 PPI network
3. 결론
4. 참고문헌


1. 서론

실화를 바탕으로 한 영화 스노든에서 정부기관이 특정인의 약점을 파악하기 위해 소셜 네트워크를 이용해서 가족들을 포함한 주변인들의 정보를 정부기관의 특권 하에 파악하고 그 사람을 함정에 빠뜨린다. 이는 특정 개인의 Profile로써 개인 간의 상호작용, 상호작용을 기반으로 한 이웃들에 대한 정보가 얼마나 효과적으로 이용될 수 있는지에 대한 예다. 이러한 분석은 생물에서도 system biology라는 이름으로 행해지고 있다. 개별 유전자의 조작에 따른 표현형 관찰이 아닌 가능한 많은 유전자의 상호관계를 관찰하고 상호관계의 변화가 가져올 표현형의 변이에 대해 관심을 가진다.

개별 유전자에 대한 정보는 차세대 시퀀서의 발달로 인해 매우 다양해지고 풍부해졌다. 특히 비교적 저렴한 RNAseq은 샘플링된 당시의 모든 유전자에 대한 발현 정도를 추정할 수 있다는 장점이 있기 때문에 Reference genome이 발표된 이후부터는 그 수행량이 기하급수적으로 증가하여 모델 생물의 경우는 다양한 기관 특이적인 발현값, 처리 후 시간별 발현값, 발달 단계에 따른 발현값 등 데이터가 다양하게 축적되고 있다. 나아가 수집된 Germplasm의 구분, Genome wide association study (GWAS), Quantitative trait loci (QTL) mapping 등 다양한 목적을 위해 Resequencing이 수행되고 있기에 개별 유전자에서 발생할 수 있는 돌연변이 및 자연변이 정보가 쌓이고 있다. 이에 따라 현대 유전학은 이를 통해서 병에 대한 예측, 식물의 경우는 생산량, 이병성 등의 예측을 시도하고 있다.

반면, 많은 경우 유전자는 독립적으로 움직이지 않고 다양한 유전자들이 기능군을 이루어 일한다는 것을 알고 있다. 다양한 대사 경로(Metabolite pathway), 신호전달 경로(Signal transfer pathway), 단백질 복합체(Protein complex), 전사인자와 프로모터 등등 유전자 간의 관계는 상호 의존적이다. 대량의 단백질 상호작용(protein-protein interaction, PPI) 스크리닝 연구에서는 많은 유전자와 상호작용을 하는 것으로 밝혀진 허브 유전자를 확인하였으며 아마도 유전자들 간의 상호작용 network는 마치 인간의 social network와 같이 연결 정도가 낮은(low degree) 다수의 유전자와 연결 정도가 높은(high degree) 소수의 유전자로 이루어져 있는 것으로 생각하고 있다[1].

유전자와 유전자의 관계를 밝히기 위한 노력은 여러 가지 방향으로 이루어지고 있다. 여기에는 high-throughput yeast two hybrid 기술을 이용한 단백질 간 상호작용 네트워크(PPI), high-throughput yeast one hybrid 기술을 이용한 전사인자와 프로모터의 네트워크, 축적된 RNAseq 데이터를 이용하여 비슷한 발현 패턴을 보이는 유전자를 엮어보는 gene co-expression 네트워크 등등이 활발히 연구되고 있다. 특히 PPI의 경우는 인간 유전자에 대한 연구가 상당히 진전되어 있으며 알려진 암 관련 유전자와 GWAS로 밝혀진 암 관련 후보유전자들을 현재까지 알려진 PPI network를 기반으로 다양하게 profile하여 해당 변이의 치명도를 예측하려 하고 있다. 본 동향 리포트에서는 주요 모델 생물의 다양한 network 작성 현황과 그의 활용에 대해서 살펴보고 100불 유전체라고도 불리는 급격히 발전해가는 유전체 분야와의 접점을 고민해보려 한다.

2. 본론

단백질 상호작용 네트워크는 주로 High-throughput yeast two hybrid (HT-Y2H) 기술을 이용해서 작성된다. Y2H 외 affinity purification with mass spectrometry (AP-MS)와 같은 protein complex purification 관련 방법이 있으나, 가장 활발히 연구되고 있는 방법이 HT-Y2H이기 때문에 여기에 동향 리뷰의 초점을 맞추고자 한다. 그리고 최근 protein array 방식으로서 nucleic acid programmable protein array (NAPPA) 기술이 발달하고 있으므로 본 리뷰의 후반에 다루도록 하겠다.

Y2H는 상호작용을 알고 싶은 단백질 쌍에 DNA-binding domain과 activation domain을 각각 fusion한 뒤 yeast 내에서 발현시킨다. 그리고 해당 DNA-binding domain과 activation domain이 연결된다면 reporter 유전자가 발현하게 되어 단백질 상호작용 여부를 관찰할 수 있게 해준다(그림 1). 따라서 HT-Y2H를 포함한 네트워크 작성 방법은 단백질 발현 과정이 동반된다. 이를 위해서는 먼저 유전자 모델에 예측되어 있는 open reading frame (ORF)에 따라 유전자를 클로닝해야 할 필요가 있다. 모델 생물에는 이미 이를 목적으로 한 거대 ORF cloning set이 수집되어 있다. 인간의 경우는 ORFeome Collaboration (OC)를 통해 인간 유전자 모델의 73퍼센트에 해당하는 17,154개의 유전자좌에 대해 ORF clone을 확보하고 있으며[2], 쌍자엽 식물의 모델인 Arabidopsis thaliana의 경우는 약 15,000개의 유전자좌에 대해 Gateway entry clone으로 Arabidopsis Biological Resource Center 에 보관되어 있다[3].

이렇게 제작된 ORF clone들은 언제든 주문 및 수령이 가능해서 연구자들이 cloning 이후의 step에 집중할 수 있게 한다. 이러한 대량의 ORFeome을 기반으로 인간을 비롯한 모델 생물종에 상당한 량의 protein pairs에 대해서 HT-Y2H 연구가 행해졌는데 데이터의 신뢰도를 향상시키기 위해서 단일 Y2H 연구보다 false positive rate을 줄이기 위한 노력을 많이 기울였다[4]. 특히 작성된 binary interaction을 기존 연구를 통해 잘 알려진 interaction pairs로 구성된 positive reference set 과 random reference set를 통해 신뢰도를 계산하는 방법으로 품질 테스트를 행하고 있다[5].

upload image
그림 1. Y2H 시스템의 개요.



2.1 인간유전체의 PPI

현재까지 high-quality PPI는 인간 유전체에서 ~13,000 ORF의 쌍별 비교를 통해서 ~4,300 개의 유전자(Node) 간의 ~14,000 PPI (Edge)를 밝혔다[6]. 해당 논문에서 밝힌 PPI network는 특정 생물학적 질문에서 출발한 것이 아니라 systematic approach를 통해 screen한 것이므로 특정 생물 현상에 치우친(예를 들면 특정 암연구에 치우친) 기존의 PPI network를 상당 수준 비편파적 network로 개선할 수 있었다. 그리고 알려진 암 관련 염기서열 돌연변이가 PPI network의 유전자 간 상호관계를 어떻게 바꾸게 되는지, 그리고 GWAS를 통해 밝혀진 암 관련 후보 변이들을 알려진 암유전자와 network 상에서 얼마나 연결되어 있는지를 통해 그 후보 변이들의 암 연관성을 재평가 할 수 있었다. GWAS를 통해 밝혀진 병 관련 돌연변이 정보를 PPI network 상에서 재평가하는 방법론은 GWAS를 기반으로 한 진단 분야에 또 다른 분석 방향을 제시하기에 missense mutation이 어떤 molecular interaction을 저해하였는지에 대해서 분석하는 방법이 2015년에 edgotyping이라는 이름으로 발표되었다[7].

해당 연구에서는 GWAS에서 보여진 병 관련 DNA variations이 protein-chaperon, prortein-protein, protein-DNA interaction에 얼마나 영향을 미치는 지에 대해서 분석했는데, 특히 해당 variation이 PPI의 Edge에 전혀 영향을 주지 않는지(quasi-WT) 혹은 일부 손상(edgetic) 혹은 완전 소실(quasi-null)시키는 지를 구분하기 위해 2,449개의 mutant protein과 1,072개의 WT protein의 ORF를 ~7,200 개의 human ORFeome v1.1에 대하여 HT-Y2H를 실시하였다(그림 2).

upload image
그림 2. GWAS 변이가 네트워크에 미치는 영향을 보기 위한 Edgotyping의 개요.
(별표는 mutation 위치를 의미한다.)



총 220개의 loci에 해당하는 460개의 mutant protein에 대해서 1,316개의 edge를 작성할 수 있었고, 그 중 2개 이상의 edge를 가지는 89개의 loci에서 비롯된 197개의 mutant protein의 edge가 얼마나 손상되었는지를 확인했다(그림 3). 이 결과를 common variant에 의한 단백질 변이가 유발하는 edge변화와 비교했더니 병 관련 단백질 변이의 ~57%가 edge 변화를 보였으나, common variant에 의한 단백질 변이는 오직 ~8% 정도가 edge 변화를 보였다. 이를 통해 해당 missense variation이 얼마나 네트워크에 영향을 미치는가가 병 발생에 영향을 준다고 볼 수 있다. 나아가 알려진 병 관련 유전자, TPM3의 missense variation 중 Edgetic으로 분류된 케이스들은 동일한 병 (fiber-type disproportion myopathy)과 연관이 있는 것으로 알려져 있고, quasi-null로 분류된 변이는 다른 병(nemaline myopathy)과 연관이 있는 것으로 알려져 있다. 따라서 genome 상에서 관찰되는 변이가 PPI network상에서 어떤 변화를 일으키는지에 따라서 병에 관련될 정도, 병의 종류 등을 파악할 또 다른 근거가 될 것으로 보인다. 여전히 PPI network가 커버하는 search space는 예측된 전체 인간 PPI network의 20% 정도 밖에 되지 않기 때문에 개선의 여지가 많지만, 현재 network에서 edgetic으로 판별된 것들은 네트워크가 개선된다고 해서 quasi-WT으로 바뀔 가능성은 없기 때문에 GWAS 변이 분류에 쓰일 수 있을 것으로 보인다.

upload image

그림 3. 병 관련 변이와 일반 변이의 edge 변화 정도



유전자(Node)의 변화는 Mutation에 의한 것도 있지만, 역동적인 유전자 조절 과정의 하나라고 여겨지는 Alternative splicing에 의해서도 달라진다. 그렇다면 이에 따라 Edge는 어떻게 달라질 것인가? 이 질문에 대해서도 같은 연구 그룹에서 2016년에 총 398 reference ORF에 대한 637 alternative splicing ORF를 15,000개의 hORFeome v5.1 collection에 대해서 HT-Y2H를 수행하였다[8]. 이를 통해 총 161개의 유전자에서 비롯된 366개의 protein isoform에 대해 381개의 이웃 유전자와 1,043개의 Edge로 연결된 구성된 고품질의 PPI를 얻을 수 있었다. 1,043개의 Edge 중 323개의 Edge만이 reference isoform에 관련되어 있는 것으로 보아 Alternative isoform이, 알려져 있듯, 기능적으로 다양한 일을 할 것으로 추정할 수 있다. Reference isoform과 Alternative isoform의 interaction partner가 다를 경우는 tissue별 발현 profile 역시 다른 것으로 관찰되었다.

2.2 식물의 PPI

식물의 경우 쌍떡잎 식물의 모델인 Arabidopsis thaliana에 대해 Arabidopsis Interactome Mapping Consortium을 통해 2011년에 PPI network (AI1)가 작성되었다[9]. ~8,000개의 ORF collections 의 쌍별 Y2H 분석을 통해 총 5,664 PPI를 2,661개의 유전자에 대해서 확인하였다. 이를 통해 A. thaliana의 whole genome duplication에 의한 gene redundancy가 진화를 거치며 network 상에서는 어떻게 rewiring 되었는지를 관찰했으며 흥미롭게도 7억년 전에 분화된 paralog 간에서도 protein interaction이 보존된 경우를 관찰하였다. 이를 통해 duplication 이후 paralog 간의 염기서열 유사도 감소경향과 비슷하게 edge 보존 경향 역시 rapid-then-slow 진화를 보이는 것으로 추론했다.

그리고 식물의 병 발생 이해에 있어서 중요한 plant-pathogen interaction을 protein interaction level에서 풀어보기 위해 병원균 유래의 effectors와 A. thaliana ORFeome 간의 PPI를 구축해보고자 하였다[10]. 이를 위해 AI1을 작성할 때 사용된 ~8,000개의 ORFeome collection을 552개의 pathogen-effector 및 추가적인 immune-related Arabidopsis protein에 대해 HT-Y2H를 수행하였으며, 83개의 effectors와 170개의 immune related protein 그리고 673의 다른 A. thaliana protein이 1,358개의 Edge로 이루어진 Plant Pathogen Interaction Network 1 (PPIN1)을 구축하였다. 이를 통해 165개의 effector targets을 확인할 수 있었으며 연구에 사용된 bacteria 혹은 oomycete 유래 effector들이 공통된 host protein hub를 노린다는 것을 알게 되었다. 따라서 해당 연구에서 확인된 effector target protein들은 연구에 사용되지 않은 다른 병원 균에 의해서도 노려질 수 있다고 추정한다.

2.3 Protein array 기반 PPI network

HT-Y2H는 네트워크 품질 향상을 위한 오랜 노력에 의해서 신뢰도 높은 데이터를 생산할 수 있는 protocol이 잘 알려져 있다[4]. 하지만 여전히 ORF cloning부터 HT-Y2H는 pipetting을 기계화 했음에도 불구하고 노동 집약적인 실험 방법이다. 이를 대체할 Protein array 기술 중 하나는 Nucleic acid programmable protein array (NAPPA)이다. 이는 목적 유전자들의 expression plasmid를 항체와 함께 glass slide에 심고 해당 expression plasmid에는 해당 항체의 항원을 fuse한다. 그러면 목적 유전자가 expression되어 단백질이 되자마자 바로 옆 항체에 붙게 되어 protein array가 된다. 이후 glass slide에 query 단백질을 흘리게 되면 binding되는 자리에 reporter가 빛을 내어 확인이 가능하다(그림 4). 그러나 기존의 NAPPA 방식은 하나의 protein당 plasmid와 antibody가 공간을 차지해야 했기 때문에 하나의 glass slide에 많은 량의 protein을 심을 수 없었다. 최근 HaloTag protein이 작은 chloroalkane ligand에 달라붙는다는 성질을 이용하여 기존의 anti GST antibody method보다 훨씬 조밀한 glass slide를 만들 수 있었으며 더 높은 signal to noise 비율을 얻을 수 있었다고 보고했다[11]. 본 연구에서 A. thaliana의 12,000개 Gateway pENTR ORF clone을 HaloTag expression vector로 transfer하여 총 3장의 protein array glass slide에 심었다. 각 slide는 4,600개의 ORF가 2반복으로 구성되어 신뢰도를 높인다. 해당 방법론의 정확도를 테스트하기 위해 Positive interaction reference set과 random reference set을 이용한 validation assay를 수행한 결과, HaloTag-NAPPA system은 literature curated interaction data와 비교했을 때 통계적으로 차이 없음을 확인했다.

upload image

그림 4. NAPPA에서 protein array가 생성되어 query protein에 의해 reporter가 작동하는 개요.



이러한 기술적 발달로 인해 좀 더 쉽고 빠른 Systematic PPI screening이 가능해지면서 목적한 유전자 혹은 유전자 군의 profile을 protein network를 기반으로 관찰 가능하게 되었으며 특정 유전자의 mutation으로 인한 network rewiring profile을 기반으로 표현형에 미칠 심각성을 예측할 근거로도 사용할 수 있다.

3. 결론

본 동향 리뷰에서는 인간 유전체와 식물 유전체 상의 PPI network의 작성 현황을 알아보았다. 특히 인간 유전체에서는 특정 유전자의 변화에 따른 network rewiring에 대한 연구가 진행 중이며 유전자 상의 missense mutation에 의한 network 변화, alternative splicing에 의한 network 변화 등 역동적인 생물 현상을 해석하기 위해 PPI network가 다양하게 활용되고 있었다. NGS의 발달로 인해 생산되는 다양한 GWAS 데이터, Transcriptome 데이터를 해석하기 위한 하나의 창으로서 PPI network의 위치가 점점 견고해지고 있으며, 비단 인간 유전체뿐 아니라 식물 유전체 역시 AI1, PPIN1, 그리고 본 동향리뷰에서 다루지 않았으나, Membrane linked Interactome Database (MIND1) 등 다양한 관점에서 PPI network가 작성되었고 현재 search space를 확장하여 다음 version의 출판을 앞두고 있다.

나아가 Protein array와 같은 기술적 발전은 HT-Y2H가 가지는 노동량과 투자 시간을 효과적으로 줄여 PPI network의 search space를 빠르게 확장해 줄 것으로 기대하며 나아가 기술적인 접근성에 대한 제약을 허물어 많은 개별 연구자들의 ORF clone을 network 상에서 관찰할 수 있을 것으로 예상된다. 따라서 현재까지는 High-throughput과 넓은 Search space에 집중하는 분야였지만 이제는 개별 유전자를 관찰하는 연구자들도 관심을 가져볼 만한 관찰값으로써 역할을 할 것으로 보인다.

4. 참고문헌

==> PDF 참조

본 자료는 BRIC-KOBIC "유전체 연구동향" 정보제공자 모집으로 작성되었습니다.
  추천 2
  
  인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
Citation 복사
강양제(2017). System biology 동향: Protein-protein interaction network 구축현황과 활용. BRIC View 2017-T08. Available from http://www.ibric.org/myboard/read.php?Board=report&id=2704 (Mar 23, 2017)
* 자료열람안내 본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다. 내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(member@ibric.org) 바랍니다.
 
의견올리기
작성자
목록
한국벡크만쿨터
한국벡크만쿨터 스폰서배너광고 안내
이전페이지로 돌아가기 맨위로 가기
 

BRIC 홈    BRIC 소개    회원    검색    문의/FAQ    광고    후원
Copyright © BRIC. All rights reserved. Contact member@ibric.org