목차
1. 머리말
2. 주요 모델 생물
3. 모델 생물 데이터베이스 서비스
4. 정리 및 전망
5. 참고문헌
1. 머리말
지구 생물체가 생존을 위해 지니고 있는 기본적인 기제(機制, mechanism) – 유전 현상, 물질 및 에너지 대사 등 – 는 생물종(species)의 종류와 관계없이 공통된 것이다. 따라서, 효율적인 생물학 연구를 위해서는 지구 상에 존재하는 최소한 수백만 종의 생물 가운데[1], 연구에 여러 가지 장점이 있는 몇 가지를 모델 생물(model organism)로 선정하고 이들에 연구 자원을 집중하는 접근이 필요하다. 대표적인 것으로 대장균(
Escherichia coli)과 효모(budding yeast,
Saccharomyces cerevisiae) 및 초파리(fruit fly,
Drosophila melanogaster) 등을 들 수 있다. 또한, 인간에 대한 연구의 필요성이 커지고 관련 분야가 발전하게 되면서, 마우스(mouse,
Mus musculus)나 랫드(rat,
Rattus norvegicus), 그리고 제브라피쉬(zebrafish,
Danio rerio) 등의 척추 동물에 관한 연구도 급속도로 확장되었다. 본 보고서에서는 다양한 분야의 생명 현상 연구를 위해 사용되는 모델 생물들에 관하여 알아 보고, 그 연구 내용의 수집과 관리, 그리고 연구자들을 위한 정보 제공에 기여하는 관련 데이터베이스에 대해 간략하게 검토해 보고자 한다.
2. 주요 모델 생물
모델 생물의 필요성에 대해서는 여러 가지로 생각해 볼 수 있지만, 대표적으로 다음과 같은 사항을 들 수 있다[2].
1) 각 모델 생물의 유전자, 단백질 및 대사물과 그 동적 현상에 대하여 생화학적, 세포생물학적, 생리학적 수준에서 가장 자세한 기전 정보를 제공함으로써 이에 대한 이해와 통찰력을 갖게 해 준다.
2) 모델 생물에서 일어나는 사소한 문제가 궁극적으로는 의학적 해결의 실마리를 제공할 수 있다.
3) 모델 생물로부터 얻은 정보가 의미하는 생물학적 복잡성과 이에 대한 정량적 이해를 통해 다가오는 미래를 어느 정도 예측할 수 있게 해 준다.
4) 모델 생물을 이용하면 각 개체의 유전적 다양성으로부터 오는 여러 가지 현상에 대한 연구와 이해를 도모하기가 용이하다.
5) 사람에게 적용하기 곤란한 새로운 기술을 시험해 볼 수 있다.
이외에도 다음과 같은 내용들을 모델 생물의 특징으로 생각해 볼 수 있다.
• 실험실 내에서 수행되는 여러 가지 생물학적 조작의 용이성
• 짧은 세대 주기
• 표현형 확인의 용이성 (cf. 돌연변이)
• 비용 대비 효율성 (cost-effectiveness)
• 진화적으로 중요한 위치를 점하고 있는가
• 인간의 유전자와 유사한 기능을 하는 유전자의 존재
이런 여러 가지 이유로 인해 연구 분야에 따라서 여러 가지 생물들이 연구에 적용된다. 예컨대, 발생 분야에는 성게, 플라나리아(planaria,
Planaria torva)는 유전 현상 연구, 클라미도모나스 (
Chlamydomonas reinhardtii)는 광합성 연구, 점균류(
Dictyostelium discoideum)는 세포 분화 및 신호 전달 분야의 연구, 군소(Aplysia, 바다달팽이)는 신경생물학 분야 연구, 개(dog)는 생리학 및 혈액학, 마우스는 생리학에서부터 면역학 및 암학, 그리고 랫드는 영양학, 신경학 및 행동심리학 등의 분야에서 주로 적용되는 경우를 들 수 있다[3]. 다만, 이렇게 연구 분야 별로 모델을 특화하는 것과 전체 시스템의 통찰을 가능하게 하는 것이 연결되도록 하는 것은 또 다른 차원의 문제이다. 이렇게 다양한 생물군이 연구에 활용되는 가운데 1990년대 초에 유전학 연구에 상당히 기여한 초파리(fruit fly,
Drosophila melanogaster) 연구 자료를 수집하고, 이들을 일목요연하게 정리하기 위하여 Flybase [4]가 출범하였으며, 이어 발아 효모 유전체 데이터베이스(
Saccharomyces Genome Database, SGD) [5]도 시작되었다[6]. 발아 효모는 전체 유전체 서열이 밝혀진 최초의 진핵 생물이다[7]. 이후, 이들과 마우스 유전체 데이터베이스(Mouse Genome Database, MGD) 및 예쁜꼬마선충(
Caenorhabditis elegans) 데이터베이스(WormBase) 등 4개 기관이 협력하면서 종합 모델 생물 데이터베이스(Generic Model Organism Database, GMOD) 계획이 시작되었고, 이를 효율적으로 진행하기 위하여 유전체 브라우저인 GBrowse[8], JBrowse[9,10] 등과 다양한 형태의 자료를 통합 관리하는 데이터 웨어하우스(data warehouse) 도구로서 영국 캠브리지대학교(Univ. of Cambridge)에서 개발한 InterMine [11] 등의 여러 도구들을 개발하여 활용하고 있다. 이후, 많은 생물의 유전체 서열 자료들이 계속 축적되면서 다양한 생물 데이터베이스들이 구축되어 운용되고 있다. 이렇게 모델 생물을 선정하여 활용하는 데에는 여러 장단점이 있을 수 있지만, 연구 내용과 결과의 자원화를 위한 정보의 개념화 및 계량화, 또한 일관성의 확보 등이 가능하고 이러한 일련의 작업을 통해서 표준화가 이루어지면, 자료의 정규성, 재현성, 정확성, 그리고 정밀도 등의 이슈를 해결할 수 있다. 그리고 연구 도구의 효율적인 활용도와 연구 집중도를 높이는 측면에서의 효과도 무시할 수 없다.
연구를 위한 다양한 기능을 제공하기 위해서 모델 생물 데이터베이스는 일반적으로 유전체 염기 서열 및 지도, 유전자 발현 양상과 기능 정의, 유전자 상동성 자료, 돌연변이에 따른 표현형, 대립 형질 변종, 양적 형질 유전자좌, 생화학 반응 및 대사 경로, 단백질 구조, 질병 등뿐만 아니라, 역사적 명명법 및 기본 문서 자료에 이르기까지 방대한 내용들을 사용자들에게 제공하고 있다[12].
표 1. 대표적인 모델 생물 데이터베이스
† 미국립 인간게놈 연구소 (National Human Genome Research Institute, NHGRI) 지원.
‡ Generic Model Organism Database (GMOD) 적용 데이터베이스.
* 해당 모델 생물의 2017년 2월 UniProt Release 2017_02 단백질 생성 유전자 수.
추가적인 생물학 데이터베이스 검색은 http://bionet.inje.ac.kr/window4biodb.html 참조.
인간 관련 데이터베이스는 본 보고서의 범위를 벗어나는 것으로 생각되어, 참고로 영장류 관련 유전체 정보 문헌들을 표 2에 소개하였다.
표 2. 영장류 유전체 정보 목록
모델 생물 데이터베이스들의 구축 초기부터 함께 참여한 Gene Ontology (GO)[38]는 지속적으로 축적되고 변화하는 생물학 관련 연구 정보를 효율적으로 관리하기 위하여 Gene Ontology Consortium[28]에서 운용하는 체제로서, 유전자 산물의 주석에 있어서 주의 깊게 관리되는 용어(controlled vocabulary)를 개발하고 이를 사용하는 데 있어 전산과학적인 방법론을 적용함으로써 생명 현상에 참여하는 분자의 정성적 특성에 관한 정보를 일관성 있게 유지하고 발전시키기 위하여 시작되었다. 전문 분야의 용어 관리는 용어의 개념 정립과 일관된 사용법 등의 문제에 있어서 매우 중요한 사안이다. 명칭에서 알 수 있는 것처럼, ontology(존재론)라는 용어는 대상의 정성적인(qualitative) 성격을 의미한다. 이를 위해 GO에서는 각 요소에 대하여 'biological process', 'molecular function', 그리고 'cellular component'의 세 영역에 해당하는 개념을 정리하고, 이들을 다시 DAG (Directed Acyclic Graph) 구조로 계층화하여 운용한다[39]. 다만, GO에 대한 비판 가운데 하나는 사용되는 용어 선정의 객관성에 관한 것인데, 예컨대 GO에서 사용하는 20,000개 이상의 용어에서 질병과 관련된 연구 분야의 용어들이 다수 포함되는 등 인간의 관심도에 따라 용어 선정이 치우칠 수 있는 가능성 등을 들 수 있으나, 그럼에도 불구하고, 생명 현상의 정보화에 기여하는 바가 매우 크다[40]. 이는 MeSH (Medical Subject Headings) , NCI Thesaurus[41], SNOMED-CT[42] 또는 MEDIC (merged disease vocabulary)[43] 등의 경우에서도 알 수 있다.
이처럼 용어의 의미를 정리하고 개념을 설정하는 것은 해당 용어들이 생물학적 시스템 전반에 걸쳐 적용될 수 있음을 전제로 한다. 이것은 각 모델 생물들의 유전체를 비교해 보면 어느 정도 알 수 있다. 예컨대, 고양이는 약 90%의 사람 상동 유전자를 갖고 있으며[44], 소(
Bos taurus)는 80% 정도된다[45]. 또한, 사람의 질병 유발과 관련된 유전자의 약 75%가 초파리에서도 발견된다는 점을 생각해 보면[46], 모델 생물의 연구에 상당한 의미를 부여할 수 있음을 알 수 있다. 이는 꼭 인간과의 관계만이 아니더라도 생물의 유전체와 생명 현상 간의 기본적인 유사성이 존재한다는 것을 의미한다. 심지어 어류인 제브라피쉬조차도 사람 유전자의 약 70%에 대하여 최소한 1개 이상의 ortholog가 존재한다는 보고가 있다[47]. 이러한 모델 생물 데이터베이스의 활용에 있어서는 연구 주제나 관심사와 관련 있는 유전자 또는 현상에 대한 검색, 유사한 기능의 유전자나 기능성 분자 확인, 주제 관련 참고 문헌 탐색 등의 기본 결과의 활용뿐만 아니라 해당 생물 전반의 연결성과 전체를 모듈화된 하나의 유기적 시스템으로 간주하는 통합적 관점을 유지하는 것이 필요하다. 이와 같은 사안들을 염두에 두고 각 데이터베이스에 대한 개략적인 내용들을 알아 보자.
3. 모델 생물 데이터베이스 서비스
[MGD - Mouse Genome Database / MGI]
마우스 유전체와 관련된 정보를 체계적으로 정리하여 제공하고 있는 마우스 유전체 데이터베이스(Mouse Genome Database, MGD)는 미국 잭슨연구소(The Jackson Laboratory) 에서 관리하는 마우스 유전체 정보센터(Mouse Genome Informatics, MGI) 에 통합된 형태로 운용되고 있다.
1980년대부터 Genomic Database of the Mouse (GBASE)라는 이름으로 온라인 서비스를 시작한 이래 여러 단계의 지속적인 발전을 거쳐, 2016년 8월에는 'Online Mendelian Inheritance in Man (OMIM) '으로부터 만들어진 '인간 유전자-질병 관계'에 마우스 돌연변이, 표현형 및 질병 모델 자료를 '인간-마우스 질병 연결(Human-Mouse: Disease Connection, HMDC)'을 포함시킨 데에 추가로 인간 표현형 온톨로지(Human Phenotype Ontology, HPO)[48]를 함께 적용하였고, 2017년 3월부터는 질병 온톨로지(Disease Ontology) [49]도 표준 용어로 적용하고 있다. 이에 따라, 데이터베이스의 기능도 계속 확장되고 있다.
기본적으로는 그림 1의 MGI 메뉴에서 볼 수 있는 'QuickSearch'에서 찾고자 하는 용어를 검색하면 그 결과를 확인할 수 있다. 예컨대, 알츠하이머병 (Alzheimer's disease)과 관련된 사항을 검색하고자 한다면 'QuickSearch' 검색창에 해당 병명이나 Online Mendelian Inheritance in Man ID (OMIM:104300) 또는 Disease Ontology ID (DOID:10652) 등 해당 용어의 ontology ID를 입력하면 검색어와 관련이 있는 다양한 결과가 출력된다(그림 2). 그뿐만 아니라, 질병 온톨로지를 적용하고 있어서 해당 질병의 유전적 특성과 배경 및 관련 문헌 등의 정보도 자세하게 알 수 있다. 한 예로, 위의 알츠하이머병에 관한 검색 결과(Associated Data)에서는 총 176개의 알츠하이머병에 대한 마우스 모델이 출력되며, 그 가운데 하나인 Tg2576[50]와 관련해서는 모두 13개의 항목을 볼 수 있다. 또한, 각각의 모델에 대한 세부 사항을 검토하여 실제 실험에 필요한 내용을 확인할 수 있다. 이와 함께, 'Find Mice (IMSR) ' 메뉴를 통하여 마우스 모델에 관한 실질적인 정보도 얻을 수 있다.
그림 1의 메뉴에서 볼 수 있는 것과 같이 MGD를 기반으로 하는 MGI 서비스는 유전자에서부터 표현형과 돌연변이, 형질전환(transgenic) 계통을 포함하여, 마우스 유전자 발현 데이터베이스(the mouse Gene eXpression Database, GXD)[51]뿐만 아니라, 마우스 암 생물학(Mouse Tumor Biology, MTB)[52]에 이르기까지 각종 정보의 상호 연관성을 고려한 통합 정보를 제공하고 있어서 연구자의 목적에 따라 다양한 내용을 참고할 수 있다. 게다가 다양한 분석 도구를 비롯한 수많은 자료들을 사용자가 내려 받아 확인하고 개별 분석에 사용할 수 있도록 많은 내용을 제공하고 있다.
그림 1. MGI 메뉴
그림 2. MGI 질병 검색 결과 예
또한, MGI 웹사이트에서는 그림 1의 메뉴 외에도 웹사이트 기본 메뉴(그림 3)의 각 항목 별로 유전체를 비롯하여 각종 질병과 발달 및 분화, 그리고 생화학적 대사 경로(MouseCyc)와 함께 [53], 유전자 발현, 양적 형질 유전자좌(Quantitative Trait Locus, QTL) 및 해당 마우스 계통 관련 사항까지 아우르는 마우스 표현체 데이터베이스(Mouse Phenome Database)[54]에 이르기까지 방대한 정보와 다양한 기능을 제공하고 있다.
그림 3. MGI 기본 메뉴
[RGD - Rat Genome Database]
척추 동물은 그 동물 자체에 관한 연구 내용도 중요하지만 인간의 건강 및 질병과 관련된 연구에 있어서도 그 효용 가치가 매우 크다. 랫드(
R. norvegicus) 역시 마우스 및 제브라피쉬 등과 함께 인간의 질병 모델 동물로 실험 연구 대상으로서 비중이 상당하다. 랫드의 경우에는 다른 모델 동물들에 비해서 기관이나 조직이 크고 시각을 이용한 관찰이 용이한 측면도 있어서 RGD 연구진이 기본적으로 인간 및 마우스의 정보와 함께 유전자와 질병 간의 관계에 대해 초점을 맞춰 RGD 질병 포털(RGD disease portals) 을 지속적으로 관리하며 운용하고 있다[55]. 이 항목에서는 혈액학, 노화, 암, 심혈관계, 당뇨, 면역 및 염증, 신경계, 비만 및 대사 장애, 신장, 호흡 및 감각 기관 등의 질병과 관련된 유전자와 QTL 및 관련 랫드 계통 등의 종합 정보를 체계적으로 정리하여 제공한다. 특히, 신경계 및 감각 인지 능력 계통에 관해 비교적 많은 연구가 진행되고 있다.
그림 4. RGD 메뉴
또한, RGD에서는 랫드와 함께 마우스 및 사람의 유전체도 함께 비교할 수 있도록 자료를 제공하고 있다. 예컨대, 미국 의료 유전학 및 유전체 회의(American College of Medical Genetics and Genomics, ACMG)가 2015년에 진행한 미국 내과전문의 인증기구재단(ABIM Foundation) 캠페인에서 '알츠하이머병의 예측을 위해 아포지질단백질 유전자(Apolipoprotein E, ApoE) 유전자 검사를 하지 않는다'고 밝히기는 했지만 , ApoE를 검색해 보면 그림 5에서 보는 바와 같이 랫드, 마우스, 그리고 사람 등에서 해당 유전자가 각각 다른 염색체에 존재하는 것을 알 수 있으며, 각기 관련 내용을 제공하고 있다.
그림 5. RGD의 ApoE 유전자 검색 결과
이처럼 RGD는 랫드에 관한 기본 정보를 다른 주요 동물 정보와 함께 비교해 볼 수 있도록 배치해 보여 주고 있다. 여기서 좀 더 자세한 내용이 필요할 경우, Symbol 항목을 통해 원하는 유전자의 세부 내용을 볼 수 있다. 또한, RGD의 기본 메뉴 가운데 'ANALYSIS & VISUALIZATION'의 내용을 보면, 유전체 구조와 유전자 모델 그리고 RNA-seq 등의 자료 제공에 기본적으로 JBrowse를 채택하고 있는 것을 알 수 있다. 이외에도 'Genetic Models' 항목에서는 300가지가 넘는 유전적 변경 모델을 볼 수 있다. 이밖에 더 자세한 사항은 표 1의 참고 문헌을 참조하면 알 수 있다.
참고로, GBrowse와 JBrowse는 사용 환경과 출력 내용도 다소 상이하지만, 그 작동 방식에서 차이가 있다. GBrowse는 기본적으로 서버(server) 측에서 자료를 가공하고 다루지만, JBrowse는 클라이언트(client, 일반적으로는 사용자의 웹브라우저) 측에서 자료를 취급한다. 기술적으로, GBrowse는 서버 측의 데이터베이스와 웹서버가 연동되어 작동하는 방식으로 출력에 관한 사항을 대부분 서버에서 담당하는 반면에, JBrowse는 기본적으로 후위 서버 코드(back-end server code) 없이 AJAX (Asynchronous and XML)를 적용함으로써 서버 측 자원 사용을 최소화하면서도 메뉴 방식을 채택하여 풍부한 출력을 제공하는 방식으로 작동한다. 현재는 JBrowse가 GBrowse의 임무를 계승하는 추세이다. RGD에서 사용자 관점에서의 이 둘 간의 차이에 대한 개괄적인 설명 을 찾아 볼 수 있다.
[ZFIN - the ZebraFish Information Network]
ZFIN은 미국 오리건 대학교(University of Oregon)에서 운용하는 제브라피쉬 데이터베이스로서 그림 6의 메뉴 항목들에서 보는 것과 같이 역시 방대한 내용을 보유하고 있으며, 다양한 서비스를 제공하고 있다.
그림 6. ZFIN 메뉴 (a) 기본 메뉴와 검색창. (b) Research 항목과 하위 주제. (c) 기본 정보 항목과 하위 주제. (d) 제브라피쉬 국제 자원 센터 (ZIRC) 관련 사항.
제브라피쉬는 성체의 크기가 약 4 cm인 어류로서 열대 지방에 서식하는 담수어의 일종이다(그림 7). 산란과 체외 수정을 통하여 번식하므로 수백 개의 수정란을 손쉽게 얻을 수 있고, 관리가 비교적 용이한 어류이기 때문에 가지는 장점뿐만 아니라, 척추동물로서 사람과 많은 공통점을 공유하고 있으며, 특히 배아가 투명하여 발생 과정에서 각 조직 별로 관찰이 용이하다는 것도 커다란 장점이다. 제브라피쉬의 단백질 유전자는 26,000개 이상이며, 이 가운데 최소한 70% 이상의 유전자가 사람에서도 발견된다[22]. 이는 사람의 유전자와 유사한 기능의 많은 유전자에 대하여 돌연변이를 통한 기능 연구가 가능하다는 것이며, 지금까지 인간의 심혈관계 질병 등과 유사한 돌연변이체도 상당수 보고되었다[56]. 이에 대해서는 ZFIN 데이터베이스에서도 확인할 수 있다.
그림 7. 제브라피쉬 (zfin.org)
그림 8. 제브라피쉬의 기관 일부 예(Anatomy Ontology. 출처: zfin.org)
또한, 제브라피쉬 국제 자원 센터(Zebrafish International Resource Center, ZIRC, 그림 6(d)) 에서는 형질전환 개체에서부터 배아 및 수정란, 유전자, 그리고 항체와 조직 병리학 슬라이드에 이르기까지 제브라피쉬 연구에 필요한 많은 자원들을 분양하고 있다.
[FlyBase]
1992년부터 운영을 시작한 FlyBase에는 6각류(六脚類, Hexapoda)에 해당하는 곤충 모델인
Drosophila melanogaster 및
D. sechellia를 포함하여
Drosophila 속의 12 종에 관한 정보들을 정리하여 놓았다. 기본 메뉴는 유전체 및 전사체 서열 정보를 비롯하여, 관련 정보 제공에 필요한 다양한 도구들뿐만 아니라 연구에 필요한 각종 자료와 연구자 및 연구 그룹들에 대해서도 쉽게 찾아 볼 수 있도록 구성하고 있다. 도구(Tools) 항목 내에는 유전체와 전사체(RNA-seq)의 발현 양상에 대하여 GBrowse 뿐만 아니라 JBrowse 서비스도 함께 제공하고 있다.
앞에서도 언급했지만, 사람의 질병 유발 유전자의 약 75% 정도가 초파리에서도 유사한 형태로 발견된다. 예컨대, 파킨슨병, 알츠하이머병 그리고 헌팅턴병 등의 신경퇴행성 질환에 대한 초파리 모델의 유용성을 검토하고[57], 여러 질환 관련 유전자의 돌연변이 모델을 제시하는 등[58], 활발한 연구가 진행되고 있다.
그림 9. FlyBase의 메뉴
FlyBase 역시 다른 데이터베이스와 마찬가지로 기본 메뉴의 각 항목 별로 세부 내용을 자세하게 정리하여 소개하고 있으며, 특히, FlyBase 메뉴(그림 9)의 'ImageBrowse' 항목에는 각 주제 별로 기관과 조직의 세부 형태가 그림으로 자세하게 기술되어 있어, 내용에 있어서 인상적일 뿐만 아니라 연구자들과 학생들에게 많은 도움을 주고 있다(그림 10).
그림 10. FlyBase의 ImageBrowse 일부
물론, 데이터베이스의 내용 검색에 대해서도 그림 11에서 보는 바와 같이 'QuickSearch'를 각 항목 별로 가능하게 하여 검색을 보다 손쉽게 수행하도록 하고 있다.
그림 11. FlyBase의 QuickSearch
참고로,
D. melanogaster의 유전자 발현 정보는 표 1의 FlyAtlas 데이터베이스를 참조하면 더욱 자세한 내용을 확인할 수 있다. FlyAtlas는 Affymetrix
Drosophila Genome 2 마이크로어레이 (microarray)를 이용하여 얻은 13,000개 이상의 유전자에 대한 발현 정보를 제공하고 있다[21].
Drosophila의 배 발생(胚發生, embryogenesis)과 관련된 내용은 FlyExpress 를 참조해도 된다[59].
[WormBase]
WormBase는 모델 생물 가운데 길이가 1mm 가량되는 매우 작은 동물이며 한 세대(generation time)가 3일 정도로서 우리에게 잘 알려진
Caenorhabditis elegans뿐만 아니라,
C. brenneri, C. briggsae, Brugia malayi, Onchocerca volvulus, Pristionchus pacificus, 그리고
Strongyloides ratti 등에 이르기까지 10여 종의 선충류에 관한 자료들을 종합적으로 제공하고 있다.
그림 12. WormBase 메뉴 중 Tools 항목과 간편 검색 메뉴
그림 12는 WormBase의 메뉴 가운데 Tools 항목과 검색창의 하위메뉴들을 한번에 보이도록 한 것이다. 이 데이터베이스 역시 유전체 등의 기본 서열 정보에서부터 유전자 지도, 온톨로지 및 참고문헌에 이르기까지 다양한 정보를 서비스하고 있으며, 대부분의 자료를 FTP를 통해 제공하고 있다.
Community 항목에는 WormAtlas 및 WormBook 등의 여러 자원들을 소개하고 있다. 위의 데이터베이스 외에도,
Caenorhabditis 및
Drosophila에 대한 유전자 발현체의 포괄적인 연구를 위한 것으로 model organism ENCyclopedia Of DNA Elements (modENCODE) 가 있는데[60,61], 이는 사람과 마우스 중심의 ENCODE 계획을 모델 생물로까지 확장한 것으로서 이들의 방대한 유전자의 발현 양상 자료들을 비교, 확인할 수 있다[62].
[TAIR - The Arabidopsis Information Resource]
모델 생물 가운데 식물을 대표하는 애기장대(
A. thaliana)는 우리에게 매우 친숙한 채소인 무, 배추와 같은 십자화과(Brassicaceae)에 속하는 식물로서 그 데이터베이스인 TAIR는 애기장대의 유전체 서열이 밝혀진 2000년부터 미국 스탠퍼드 대학교(Stanford University)에서 운영을 시작하였다.
그림 13. TAIR 기본 메뉴 항목
TAIR에서 제공하는 기본 메뉴의 모든 항목들을 한 눈에 볼 수 있도록 그림 13에 나타내었으며, 다른 모델 생물 데이터베이스들과 마찬가지로 방대한 자료를 수록하고 있다. 또, 그림 오른쪽 위의 검색창(그림 14)을 통해서 원하는 항목별로 검색할 수 있도록 편의를 제공하고 있다. 그림 15에는 검색 메뉴에서 'G protein alpha'라는 입력에 대한 결과를 예로 보이고 있다. 이후, 출력된 결과 내 Locus 항목의 유전자명을 통해 해당 유전자의 구조와 상세 정보를 확인할 수 있다. 기본적으로 해당 유전자가 위치하고 있는 염색체와 유전자 모델 정보와 함께 GO 관련 정보, RNA 자료 및 단백질의 특성과 유사 식물체의 동족 단백질 (homolog)에 관한 내용도 제공한다. 뿐만 아니라, 해당 유전자의 돌연변이와 다형성 개체 등의 다양한 유전 자원에 대한 정보도 확인할 수 있다(그림 16). 필요한 경우, 미국 오하이오 주립대에서 운영하는 Arabidopsis Biological Resource Center (ABRC)에서 필요한 자원을 찾아 보고 공급받을 수도 있다(그림 13. 메뉴의 ABRC Stocks 항목 참조).
그림 14. TAIR 검색 메뉴
그림 15. TAIR의 유전자 검색 결과
그림 16. 검색된 유전자의 정보 내용
참고로, TAIR에는 데이터베이스의 스키마(database schema) 정보도 공개되어 있다. 한편, 아쉬운 일이지만 현재 TAIR의 전문 서비스는 데이터베이스를 운용하는 기관인 비영리기구 의 정책에 의해, 기업의 경우에는 지난 2013년 12월부터, 대학교 등 비영리 단체는 2014년 3월부터 구독료 기반으로 전환되었다. 그러나, 어느 정도의 기본적인 내용은 로그인하지 않고도 열람할 수 있다. 한편, 중국 국립 과학 기술 도서관(National Science and Technology Library of China, NSTL)은 2017년 4월 1일부터 2020년 3월 31일까지 3년 간 TAIR를 정기 구독하기로 하였는데, 중국 본토에 있는 모든 대학과 비영리기관의 사용자를 허가해 주는 조건이라는 점이 인상적이다. 현재, TAIR는 전세계에서 수백 개의 기관들이 구독하고 있다.
지금까지 훑어 본 모델 생물 데이터베이스 외에도 많은 자원들이 있으며(표 1), 점균류의 데이터베이스인 dictyBase의 메뉴 일부를 그림 17에 보였다.
그림 17. dictyBase 메뉴의 Explore 및 Research 항목
앞에서 언급된 모델 생물 외에도 발생 생물학적으로 흥미로우면서도 도움이 될 만한 멕시코 동굴 물고기 (Mexican cave fish,
Astyanax mexicanus)나 거북 (Turtle,
Chrysemys picta) 등의 생물들을 소개해 놓은 보고서 (Biology's next top model?)도 있다[65]. 또한,
에는 이들을 포함한 49가지의 주목할 만한 모델 생물들이 소개되어 있다[66].
4. 정리 및 전망
최근 들어서, 전장 유전체 연관 분석(Genome-Wide Association Study, GWAS)과 전장 유전체 서열 분석(Whole Genome Sequencing, WGS)의 발전으로 사람 유전자의 표현형 및 질병과 관련이 있는 유전자의 발견이 더욱 용이해졌고, 모델 생물의 유전적 구조의 특성으로 인해 특정 현상에 대해서 제대로 재현하는 것이 어려운 측면이 있어서 모델 생물의 선정에 신중하게 접근할 필요가 있다[63]. 그러나, 여러 모델 생물들의 연구 결과를 종합적으로 분석하면, 마우스의 혈관(blood vessel) 형성에 관여하는 유전자들이 스트레스 반응에 관한 신호 전달과 세포벽 생합성에 관여하는 효모 유전자들과 매우 관련성이 높다는 사실을 밝힐 수 있는 것도 사실이며[64], 이러한 가능성은 인간 질병 등 다른 영역의 연구에도 크게 도움이 된다. 이외에도, 모델 생물 데이터베이스는 특히 처음 연구를 시작하는 경우에 생물 시스템에 대한 통합적 관점을 익힐 수 있는 학습 자료 및 도구로도 활용할 가치가 충분하다. 이를 통하여 다양한 생명 현상에 대한 총체적 시각을 확장하는 데 도움이 될 것이다.
최근에는 GO 컨소시엄과 MGD, FlyBase, WormBase, SGD, RGD, ZFIN 등의 6개의 모델 생물 데이터베이스 운영 기구들이 함께 모여, 유전체 자원 연합(Alliance of Genome Resources)이라는 공동체를 구성하여 연구 진행과 결과를 수집하고 관리함에 있어 공동으로 협력하기로 한 바 있다. 다만, 최근 사이언스[68]와 네이처에 언급된 바와 같이 생물학 연구의 중심축으로 많은 기여를 해 온 모델 생물 데이터베이스들에 대한 재정적 지원이 불안해지고 있는데, 이러한 현실은 매우 유감스러운 일이다. 모델 생물을 비롯한 다양한 생물 데이터베이스가 활성화되어 있는 현재의 상황에서 이들을 연구에 최대한 활용하는 지혜가 필요하다.
5. 참고문헌
==> PDF 참조
본 자료는 BRIC-KOBIC "유전체 연구동향" 정보제공자 모집으로 작성되었습니다.