[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 동향
Cytiva
배너광고안내
이전
다음
스폰서배너광고 안내  배너1 배너2 배너3 배너4
[우당탕탕 석사 적응기] 석사 1학기 - 새로운 환경, 그리고 후회
전체보기 뉴스 Bio통신원 Bio통계 BRIC이만난사람들 웹진(BioWave)
BRIC View
최신자료 동향리포트 학회참관기 리뷰논문요약 BRIC리포트 외부보고서
농축산분야 육종을 위한 유전체 선발 방법의 연구동향
농축산분야 육종을 위한 유전체 선발 방법의 연구동향 저자 이창용 (공주대학교)
등록일 2018.02.20
자료번호 BRIC VIEW 2018-T06
조회 7707  인쇄하기 주소복사 트위터 공유 페이스북 공유 
요약문
유전체 연구에 지대한 영향을 끼친 차세대 염기서열 분석은 유전체 선발이라는 농축산 분야의 새로운 육종 방법을 가능케 하였다. 유전체 선발은 유전체 내의 고밀도 유전변이를 마커로 사용하여 유전체 육종가를 예측하는 방법으로 기존의 형질 혹은 QTL 매핑을 사용한 육종의 단점을 보완할 수 있는 새로운 방법으로 부상하고 있다. 유전체 선발은 방법론에 대한 이론 연구와 실제 육종에 적용하는 응용 연구 등 두 부분으로 구분할 수 있다. 현재 유전체 선발 방법에 대한 이론 연구가 여러 각도에서 진행되고 있으나, 다양한 방법들의 체계적인 분석 및 마커의 상호작용을 포함한 방법에 대한 연구는 아직 미흡한 실정이다. 국내의 경우는 주로 응용 연구에 치중하고 있는데, 한우 등 축산 분야에는 유전체 선발에 의한 육종 연구가 활발하게 진행되고 있으나 작물 분야에는 아직은 연구의 큰 흐름을 형성하지 못하고 있다. 본 보고서에서는 현재 연구되고 있는 다양한 유전체 선발 방법들의 이론적 특성 및 상호 관련성 등을 체계적으로 고찰하고, 유전체 선발의 적용에 있어 축산과 작물의 차이점을 간단히 논하였다.
키워드: : breeding, genomic selection, genomic estimated breeding value, linear and non-linear model, SNP marker, machine learning, prediction
분야: Agriculture
목차

1. 서론
2. 본론
  2.1 유전체 선발과 기계학습
  2.2 유전체 선발을 위한 모형 개요
  2.3 선형 모형
  2.4 비선형 모형
3. 결론
4. 참고문헌


1. 서론

유전체 선발(genomic selection)이란 유전체 전반에 걸친 고밀도 유전변이 마커(marker)를 사용하여 형질(trait)에 대한 유전체 육종가(GEBV, genomic estimated breeding value)를 예측하는 방법 및 적용을 총칭하는 것으로 2001년 Meuwissen 등에 의해 처음으로 제안되었다 [1]. 유전체 선발은 형질에 의한 선발과 같은 전통적인 육종 방법을 획기적으로 개선한 방법으로 농축산학에서 세대 촉진(shortening of breeding cycle)과 선발 강도(selection intensity)를 향상시키기 위한 잠재적 대안으로 부상되고 있다 [2]. 작물의 경우를 보면, 유전체 선발은 필드 테스트 1년을 포함한 4년의 세대주기(breeding cycle)를 약 4개월로 단축시킬 수 있다. 필드 작업으로 얻을 수 있는 형질은 육종에서 여전히 매우 중요한 요소이나 유전체 선발에서 형질은 더 이상 품종 선발에 사용되지 않고 예측 모형의 학습을 위한 훈련 데이터의 일부로 사용된다.

유전체 선발이 등장하기 전인 1980년대부터 분자 마커(molecular marker) 기술을 육종에 적용하려는 시도 중 하나인 마커를 사용한 선발(MAS, marker assisted selection)이 유전학자와 육종가에 의해서 시도되었다 [3, 4]. MAS는 DNA에 기반한 유전 마커(marker)를 관심 대상의 QTL에 연결하여 육종 프로그램에 적용하는 기법인데, MAS은 매핑(mapped)된 QTL (quantitative trait loci)로 설명할 수 있는 형질에 대한 분산의 비율이 큰 특별한 경우를 제외하고는 효율적이지 않았다. 따라서 MAS 방법은 주요 유전자(major gene)에 기인한 형질의 경우에는 유용하나, 작은 효과를 가진 여러 유전자좌(loci)가 동시에 형질에 영향을 미치거나 형질이 환경에 의해 영향을 받는 경우에는 적합하지 않는데, 그 이유는 형질에 영향을 미치는 유전자좌 식별과 육종치 추정에 불확실성이 크기 때문이다.

대부분의 양적 형질은 작은 효과를 가진 여러 유전자의 복합적 결과 [5]라는 발견이 점점 확실시됨에 따라 양적 형질의 예측을 위해 많은 마커들을 동시에 고려하는 것이 필요해졌다. 양적 형질의 보다 정확한 예측은 가급적 많은 유전자좌에 대한 마커 효과를 동시에 추정하는 것이며, 이를 통하여 유의하지 않을 정도로 작은 효과를 가진 마커도 식별할 수 있다. 이러한 아이디어에서 출발한 것이 유전체 선발이다. 현재 대부분의 유전체 선발은 단일염기다형성(SNPs, single nucleotide polymorphisms)을 마커로 사용하고 있으며, 유전력이 낮은 형질이나 측정하기 어려운 형질에 대해서도 육종가(breeding value)를 추정할 수 있는 장점이 있기 때문에 기존 육종 방법의 대안으로 부상하고 있다.

유전체 선발이 가능하게 된 또 다른 이유는 염기서열 분석 기술의 획기적인 발전인데, 차세대 염기서열 분석(NGS, next-generation next generation sequencing) [6, 7]의 등장으로 염기서열 해독(sequencing)에 걸리는 시간과 비용을 획기적으로 줄일 수 있게 되었다. NGS는 초 병렬(massively parallel)적으로 백만에서 십억 단위의 염기서열 단편인 리드(reads)를 단 몇 시간 내로 해독할 수 있으며, 비용도 급속히 감소하는 추세이기 때문에 현재 유전체 연구에 매우 효율적인 방법으로 자리 잡고 있다. NGS를 사용하면 인간뿐만 아니라 농축산 생명체도 유전체 내의 유전 마커인 SNP를 매우 조밀한 수준까지 규명할 수 있다. < 대부분의 양적 형질은 작은 효과를 가진 여러 유전자의 복합적 결과 [5]라는 발견이 점점 확실시됨에 따라 양적 형질의 예측을 위해 많은 마커들을 동시에 고려하는 것이 필요해졌다. 양적 형질의 보다 정확한 예측은 가급적 많은 유전자좌에 대한 마커 효과를 동시에 추정하는 것이며, 이를 통하여 유의하지 않을 정도로 작은 효과를 가진 마커도 식별할 수 있다. 이러한 아이디어에서 출발한 것이 유전체 선발이다. 현재 대부분의 유전체 선발은 단일염기다형성(SNPs, single nucleotide polymorphisms)을 마커로 사용하고 있으며, 유전력이 낮은 형질이나 측정하기 어려운 형질에 대해서도 육종가(breeding value)를 추정할 수 있는 장점이 있기 때문에 기존 육종 방법의 대안으로 부상하고 있다.

유전체 선발이 가능하게 된 또 다른 이유는 염기서열 분석 기술의 획기적인 발전인데, 차세대 염기서열 분석(NGS, next-generation next generation sequencing) [6, 7]의 등장으로 염기서열 해독(sequencing)에 걸리는 시간과 비용을 획기적으로 줄일 수 있게 되었다. NGS는 초 병렬(massively parallel)적으로 백만에서 십억 단위의 염기서열 단편인 리드(reads)를 단 몇 시간 내로 해독할 수 있으며, 비용도 급속히 감소하는 추세이기 때문에 현재 유전체 연구에 매우 효율적인 방법으로 자리 잡고 있다. NGS를 사용하면 인간뿐만 아니라 농축산 생명체도 유전체 내의 유전 마커인 SNP를 매우 조밀한 수준까지 규명할 수 있다.

현재 유전체 선발 방법으로 사용되고 있는 모형은 15가지 이상이 있으며, 새로운 모형들이 지속적으로 개발되고 있다. 또한 모든 모형들은 각기 고유한 특징을 가지고 있기 때문에 적절한 모형의 선택은 육종 대상과 특성에 따라 다를 수 있다. 특히 같은 모형을 사용하더라도 분야(축산 혹은 작물)에 따라 모형의 적용 방법은 다를 수 있고, 같은 분야라 할지라도 대상 종(species)과 여건에 따라 실험 방법과 계획 등 적용 방식에 차이가 있을 수 있기 때문에 모형의 적용 방법을 일률적으로 규정하기는 어렵다.

본 보고서는 현재 연구되고 있는 다양한 유전체 선발 모형들을 그 특징과 연관성 측면에서 고찰하여 모형들을 보다 체계적으로 이해할 수 있는 토대를 제공하고자 한다. 특히 육종가 및 농생명 연구자들에게 유전체 선발 모형에 대한 전반적인 개요를 마련하여 각자 형편에 맞는 모형을 선택하는데 도움을 주고자 한다. 따라서 본 보고서는 다양한 유전체 선발 모형을 이론적으로 비교 분석하는 것으로 유전체 선발의 구체적인 적용 사례 등은 본 보고서에 포함되지 않았다. 다만, 결론 부분에서 유전체 선발의 적용에 있어 축산과 작물의 차이점을 간단히 논하였다.

유전체 선발을 위한 대부분의 모수적 방법(parametric methods)은 통계적인 선형 모형을 사용하기 때문에 통계적 기법에 속하지만, 비모수적 방법(non-parametric methods)까지 포함한 넓은 의미에서 유전체 선발 방법들은 컴퓨터 과학의 기계학습(machine learning)에 속한다. 따라서 본 보고서에서는 통계적 예측 방법도 넓은 의미에서 기계학습의 일종으로 간주하고 기계학습 측면에서 유전체 선발 방법론을 논하고자 한다.

2. 본론

2.1 유전체 선발과 기계학습

기계학습[8]은 컴퓨터 코드로 명시하지 않은 논리 및 명령 등을 데이터를 통해 학습(learning)하여 실행할 수 있도록 하는 방법론(혹은 알고리즘)을 연구하는 분야로, 입력 데이터, 출력 데이터, 비용 함수(cost function), 그리고 비용 함수를 최적화하는 방법 등 네 가지 요소로 구성된다. 일반적으로 기계학습은 지도학습(supervised learning), 비지도학습(unsupervised learning), 그리고 강화학습(reinforcement learning) 등 세 가지로 구분할 수 있다.

지도 학습은 입력 데이터에 대해 명시적인 정답에 해당하는 레이블(label)을 학습하는 것으로, 학습의 정확도를 높이기 위해 사용하는 방법에 따라 여러 기법이 있다. 또한 지도 학습은 레이블의 특성에 따라 분류(classification)과 회귀(regression)으로 나눈다. 분류는 레이블이 이산적(discrete)으로 유한한 경우에 해당하며 패턴 및 음성 인식 등이 이에 속한다. 회귀는 레이블이 연속적(continuous)인 경우에 해당하는 것으로 입력 데이터와 레이블 사이의 관계를 학습한 후 주어진 입력에 대해 연속적인 실수 값을 예측하는 것이다. 통계학의 회귀분석이 회귀에 해당하는 대표적인 예이고, 학습된 모형에 마커 데이터를 입력으로 하여 실수 값인 유전체 육종가를 추정하는 유전체 선발 역시 회귀에 속한다.

비지도 학습은 레이블이 없는 데이터를 학습하는 것으로 명시적인 정답이 없기 때문에 학습의 성과를 정량적으로 확인하기는 힘들지만, 최근 심층 학습(deep learning)[9]과 관련되어 활발한 연구가 진행되고 있는 분야로 군집화와 분포 추정 등에 적용된다. 따라서 지도 학습과 비지도 학습의 가장 큰 차이점은 레이블의 유무에 있다.

upload image
그림 1. 기계학습의 유형 및 적용 사례.



강화 학습은 레이블과 같은 정답을 학습하는 것이 아니라 현재의 주어진 상태(state)에서 취해야 하는 최적의 행동(action)을 학습하는 것이다. 학습은 행동을 취할 때마다 외부 환경에서 주어진 보상(reward)을 최대화 하는 방향으로 진행된다. 강화 학습을 사용하는 대표적인 예로 게임, 로봇 탐색, 그리고 최근 일반인들의 관심의 대상이 된 알파고(AlphaGo)와 자율주행 등의 인공지능을 사용한 응용을 들 수 있다. 그림 1은 기계학습의 유형과 대표적인 적용 사례를 나타낸 것이다.

유전체 선발 과정을 기계학습 측면에서 보면 크게 두 단계(모형 학습과 적용)로 구분할 수 있다(그림 2). 유전체 선발은 훈련 데이터(training data)를 사용하여 선발 모형의 모수(parameter)를 학습을 통해 추정한 다음, 학습된 모형을 시험 데이터(test data)에 적용하여 예측치인 육종가를 추정하는 것이다. 따라서 유전체 선발에는 두 유형의 데이터(훈련 데이터 및 시험 데이터)를 사용한다. 훈련 데이터는 마커인 SNP 유전자형(genotype)과 표현형(phenotype, 혹은 형질)으로 구성되어 있으며, 유전체 선발 모형을 사용하여 훈련 데이터의 모든 SNP 유전자좌에 대하여 모형의 모수인 유전자 효과(allele effect, 혹은 마커 효과)를 동시에 추정(혹은 학습)한다. 시험 데이터는 형질 데이터가 없는 SNP 유전자형으로만 구성되고, 학습된 모형에 SNP 유전자형이 알려진 시험 데이터(즉, 선발 후보군)를 적용하여 유전체 육종가를 추정하고, 그 결과를 선발에 활용한다.

upload image
그림 2. 유전체 선발 개념 및 과정.



유전체 육종가 측정 단위는 선발 기준에 따라 상이한데, 표현형이 선발 기준인 경우에는 집단이 측정 단위가 되며, 유전자 효과에 기초한 예측이 선발 기준인 경우에는 유전자가 측정 단위가 된다. 또한 예측한 유전체 육종가의 정확도는 실험적으로 추정한 육종가(EBV, estimated breeding value)와 상관 정도로 측정할 수 있으며, 대부분의 경우 표현형의 평균값으로 EBV를 추정한다.

2.2 유전체 선발을 위한 모형 개요

방법론적 측면에서 볼 때 유전체 선발은 추정해야 할 마커 효과(즉, 모형의 모수) 개수(p)가 훈련 데이터의 개수(n)보다 더 큰 경우로, 소위 “p≫n 문제”에 속한다. 이 경우에는 마커 효과 추정을 위한 예측변수(predictor)인 SNP 마커의 자유도가 충분하지 않기 때문에 과적합(overfitting) 현상이 발생한다. 따라서 유전체 선발을 위한 다양한 방법들은 p≫n 문제를 해결하기 위한 기법의 차이라 할 수 있다.

표 1. 범주별로 구분한 유전체 선발을 위한 방법들
upload image

유전체 선발 방법은 선형 모형(linear model)과 비선형 모형(non-linear model) 등 크게 두 가지 유형으로 구분할 수 있다. 선형 모형은 각 마커의 효과를 더한 가법 효과(additive effect)만 고려한 모형으로 주로 표현형과 마커 효과의 확률분포를 가정한 모수적(parametric) 방법을 사용하며, 비선형 모형은 마커와 마커 혹은 마커와 환경 사이의 상호작용 효과(epistasis effects)를 포함한 것으로 대부분 확률분포를 가정하지 않은 비모수적(non-parametric) 방법을 사용한다. 따라서 본 보고서에서는 편이상 선형 모형은 모수적 방법 그리고 비선형 모형은 비모수적 방법으로 간주한다.

선형 모형은 다시 수축 모형(shrinkage model), 변수 선발 모형(variable selection model), 그리고 차원 축소 모형(dimension reduction model)등 크게 3가지로 구분할 수 있으며, 더 나아가 수축 모형과 변수 선발 모형 각각은 벌칙 방법(penalized method)과 베이지안 방법(Bayesian method) 등으로 구분할 수 있다. 표 1은 본 보고서에서 고찰한 모형들과 그들의 범주를 나타낸 것이다.


upload image


upload image


upload image


표 2. 다양한 제약 조건에 따른 벌칙 모형
upload image


upload image


upload image


upload image


upload image


upload image


upload image


upload image
그림 3. 벌칙 방법과 베이지안 방법들 사이의 관련성

upload image


upload image


upload image


upload image


upload image


upload image


upload image
그림 4. 인공신경망 모형(a)과 다양한 활성함수(b).



3. 결론

유전체 선발을 위한 방법은 크게 모수적 방법과 비모수적 방법으로 구분할 수 있으며, 현재는 모수적 방법이 주로 사용되고 있다. 비모수 방법은 잠재적으로 비선형 효과를 고려할 수 있다는 장점이 있으나 아직은 사용이 제한적이다. 모수적 방법 중에서도 선형혼합모형을 사용한 RR-BLUP과 G-BLUP이 많이 사용[표 3]되고 있으며, 또한 다양한 선형 유전체 선발 방법을 시뮬레이션 데이터와 실제 데이터에 적용하여 그 성능을 비교 평가한 연구들도 있다 [29].

유전체 선발은 현재 축산 분야의 육종에 가장 활발하게 적용되고 있는데, 축산 육종에 유전체 선발 적용이 비교적 쉬웠던 이유는 유전체 선발 적용에 필요한 기초 작업이 이미 갖추어져 있었기 때문이다. 예를 들면, 인공 수정을 위한 다수의 황소가 확보되었고, DNA 분리를 위한 정액 샘플을 구하기 용이했으며, 오랜 기간 동안 자손들의 표현형 데이터가 축척되어 있었다. 동기 유발 측면에서 보면, 유전체 선발을 적용함으로 자손 검사에 소요되는 비용의 감소로 인한 경제적인 이득이 명확했기 때문이다. 그러나 육종 시스템의 차이로 인해 다른 가축에 대한 유전체 선발의 적용은 아직 부족한 현실이며, 다양한 유전체 선발 전략들이 현재 시험 중에 있다.

작물에 대한 유전체 선발은 축산에 비하여 늦게 2012년경부터 시작되었는데, 주로 밀과 옥수수에 집중되고 있으며, 육종 대상 형질은 주로 곡물 수확량(grain yields), 개화기, 그리고 열과 가뭄에 대한 저항성 등이 있다(표 3). 작물 분야의 유전체 선발은 축산 분야에 비하여 아직 연구가 활발하지 않는데, 유전체 선발 방법을 작물에 확대 적용하기 위해 추가로 고려해야 할 사항 몇 가지를 언급하면 다음과 같다. 우선 적절한 염기서열 분석 플랫폼을 갖추고, 가법 유전 효과(additive genetic effect)를 통해 유용한 선발 결과를 야기하는 비교적 간단한 육종 계획의 수립과 유전 마커의 적용이 가능한 육종 구조를 개발하며, 과학계와 산업계 사이의 긴밀한 협력 체제를 구축하는 것 등이다 [30].

축산에 비하여 작물을 위한 유전체 선발 모형의 설정이 어려운 추가적인 이유는 다음과 같다. 작물을 유전체 선발에 적용하기 위해서는 육종의 목표가 되는 모집단의 유전체 구조를 잘 대변할 수 있도록 훈련 집단(training population)을 선발해야 한다. 젖소의 경우에는 Holstein-Friesian 종이 대부분임으로 큰 훈련 집단을 형성할 수 있어 보다 정확한 유전체 선발 결과를 얻을 수 있는 반면, 작물은 축산에 비하여 종의 다양성이 크기 때문에 훈련 집단의 선발이 상대적으로 더욱 중요하다. 또한 축산의 경우에는 축사에서 사육이 가능하기 때문에 유전자와 환경간의 상호작용 효과(G×E) 효과가 비교적 미미한 반면, 작물은 축산에 비하여 환경에 영향을 많이 받기 때문에 G×E 효과를 고려해야 하며, 이를 위하여 훈련 집단의 표현형은 환경에 따라 측정되어야 한다. 비록 유전체 선발이 아직까지는 작물 육종에 널리 적용되고 있지 않지만, 이러한 점들이 해결되면 향후 유전체 선발이 작물 육종 프로그램에 지대한 영향을 끼칠 것으로 예상된다.


표 3. 작물에 대한 유전체 선발의 국외 주요 연구 사례
upload image


국내의 유전체 선발 연구는 주로 축산 분야에 집중되어 있으며 방법론 개발보다 응용 분야에 집중되고 있다[31, 32]. 현재 국내의 유전체 선발에 대한 연구는 주로 동물(한우, 젖소, 돼지 등)의 육종에 한정되어 있고, 통계적 모형으로는 대부분 G-BLUP 방법을 사용하고 있다. 이에 비하여 작물에 대한 유전체 선발 연구는 동물의 경우에 비하여 상대적으로 아직 연구의 큰 흐름을 형성하지 못하고 있는 실정이다.

유전체 선발을 위한 계산은 통계학적 모형을 구현한 소프트웨어 패키지를 주로 사용하는데 R 언어를 사용한 패키지(rrBLUP, GAPIT 등)들이 널리 사용되고 있다. 현재 작물에 대한 유전체 선발 연구는 동물의 경우에 비하여 미흡한 실정임으로 작물에 대한 유전체 선발을 위한 소프트웨어를 비교적 쉽게 실행할 수 있는 가이드라인을 제시하는 시스템 개발과 훈련 집단과 검정 집단의 설계를 포함한 통합 시스템의 개발이 필요하다. 특히 대용량 데이터를 통한 유전체 연구는 공동 연구 및 컨소시엄을 통한 연구가 늘어나는 추세이므로, 유전체 선발 결과를 공동으로 사용할 수 있는 데이터베이스의 구축이 필요하다. 또한 이를 종합적으로 분석하기 위한 생물정보학적 분석 알고리즘과 다양한 유전체 유전정보의 활용을 위한 플랫폼 구축도 향 후 개발되어야 할 분야이다.

4. 참고문헌

==> PDF 참조
  추천 0
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
Citation 복사
이창용(2018). 농축산분야 육종을 위한 유전체 선발 방법의 연구동향. BRIC View 2018-T06. Available from https://www.ibric.org/myboard/read.php?Board=report&id=2911 (Feb 20, 2018)
* 자료열람안내 본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다. 내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(view@ibric.org) 바랍니다.
 
  댓글 0
등록
목록
위로가기
동향 홈  |  동향FAQ
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
진스크립트 광고