[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 동향
써모피셔사이언티픽
배너광고안내
이전
다음
스폰서배너광고 안내  배너1 배너2 배너3 배너4
BioLab 박성순 교수
전체보기 Bio통신원 Bio통계 BRIC View BRIC이만난사람들 웹진(BioWave)
목록
조회 8265  인쇄하기 주소복사 트위터 공유 페이스북 공유 
바이오통신원   
[컴퓨터를 이용한 신약개발 (CADD)] 예측 모델 검증 방법
생명과학 신현길 (2017-01-25)
[컴퓨터를 이용한 신약개발(CADD)] 예측 모델 검증 방법

이번 글에서는 예측 모델의 예측력을 검증하는 방법에 대해서 소개를 해보고자 합니다. 예측 모델을 검증하는 과정은 모델이 훈련 데이터에 과적합 되어 있는지 평가하기 위한 단계로, 예측 모델을 만드는 과정에서 필수적으로 들어가게 됩니다.

1. 검증을 위한 데이터 분할

예측 모델을 검증하기 위해서 먼저 확보한 데이터를 훈련 데이터(training set), 검증 데이터(validation set), 테스트 데이터(test set)로 나눕니다. 훈련 데이터는 예측 모델을 개발하기 위해 사용이 됩니다. 훈련 과정을 거치면 훈련 데이터에 대해서 작은 에러를 보이는 모델들이 다수 존재하게 되는데, 이 모델들 중에서 실제 예측력이 어떤지를 살펴보기 위해서 검증 데이터를 예측 모델에 적용해보고, 그 중에서 에러가 작은 모델들을 선별할 수 있습니다. 이렇게 선택된 모델들에 대해서 최종적으로 테스트 데이터를 적용해서 예측력을 평가하게 됩니다. 훈련 데이터는 모델의 계수를 잡는데 사용이 되었고, 검증 데이터는 모델을 선택하는데 사용이 되었으니, 모델을 훈련하는데도 사용하지 않고, 선택하는데도 사용하지 않은 테스트 데이터를 이용해서 최종적으로 모델을 평가함으로써 예측 모델의 예측력을 평가해볼 수 있습니다.

QSAR 모델을 개발할 때, 사용되는 표현자의 개수가 증가할수록 즉 모델의 복잡도가 증가할수록 훈련 데이터에 대한 QSAR모델의 오차는 감소합니다. 그러나, 이때 얻어진 모델들에 검증 데이터를 적용해보면, 검증 데이터에 대한 오차가 어느 선까지는 감소하다가 필요 이상의 복잡도가 증가하게 되면, 검증 데이터에 대한 오차는 오히려 증가하게 됩니다. 그래서 모델이 훈련 데이터와 검증 데이터에 대해서 오차가 적을 때 모델을 선택하게 되면, 예측력이 좋은 모델일 가능성이 높습니다.
 

모델 복잡도증가와 에러의 변화
<그림1. 모델 복잡도증가와 에러의 변화>

데이터가 충분히 있는 경우, 데이터를 나눌 때 훈련 데이터를 전체 데이터의 60%, 나머지는 각각 20%씩 할당하는 것으로 추천을 하는 경우도 있지만, 사실 데이터의 양에 대해서 정해진 방법은 없고, 모델 개발자가 여러가지 경우를 시도해보면서 가장 좋은 모델이 얻어지는 경우를 찾으면 됩니다.

2. 내부 검증 방법

데이터가 충분하게 있으면 데이터에서 훈련데이터, 검증 데이터, 테스트 데이터를 나눠서 모델을 만들면 좋을텐데, 데이터 개수가 충분하지 않은 경우에는 내부 검증 방법을 시도해 볼 수 있습니다. 대표적으로 cross validation, leave-one-out, bootstrapping 방법이 많이 사용이 됩니다.

n-fold cross validation (CV)은 주어진 데이터를 n토막 내서 한 토막은 검증용으로 사용하고 나머지 데이터는 모델을 훈련하는 데이터로 사용하는 방법입니다. 그림에서 예를 든 것처럼 3-fold면 데이터를 3토막내서 모델을 검증하고, 5-fold면 5토막을 내서 검증에 사용하게 됩니다.
 
3-fold cross validation 방법
<그림2. 3-fold cross validation 방법>

Leave-one-out (LOO) 방법은 데이터가 n개 있으면, 1개를 제외한 나머지 데이터로 모델을 만들고 제외시켰던 1개의 데이터로 검증하는 방법입니다.
 
Leave-one-out 방법
<그림3. Leave-one-out 방법>

Bootstrapping방법에서는 n개의 데이터가 있으면, 임의로 n번 데이터를 선택을 합니다. 이때, 중복을 허용해서 데이터를 뽑고, 이 과정에서 중복된 데이터를 포함해서 선택된 데이터는 훈련용 데이터로 사용하고, 선택이 되지 않았던 데이터들만 모아서 검증용 데이터로 사용하는 방법입니다. 샘플링은 20-200번 정도 하는 것을 추천합니다.
 

Bootstrapping 방법
<그림4. Bootstrapping 방법>

참고자료
Ravichandran Veerasamy et al., Validation of QSAR models - strategies and importance, International journal of drug design and discovery, Vol.2, Iss 3., Jul, 2011, 511-519

  추천 0
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
신현길 (안전성평가연구소 독성정보연구그룹)
컴퓨터는 게임기인줄 알고 살아왔었는데, 컴퓨터라는게 아주 유용하고 나의 수고를 덜어줄 수 있는 좋은 도구라는 것을 대학원 과정 중에 깨닫게 되었습니다. 호기심이 많아서 MOOC에서 재미있는 강의들을 골라서 틈틈히 공부하고 있고, 취미는 외국어 공부입니다. <...
다른 연재기사 보기 전체보기 >
[컴퓨터를 이용한 신약 개발] 양자 계산 결과
1.Quantum mechanics (QM) vs Molecular mechanics (MM) 몇 회 전에 소개했던 force field(FF)에 기반한 분자 동역학 (molec...
[컴퓨터를 이용한 신약 개발] 양자 계산 파일 형식 (File format for quantum mechanical calculation)
양자 계산을 수행하게 되면 분자의 전자 구조를 알 수 있다. 필자는 주로 QSAR 모델 개발을 하는데 필요한 descriptor를 계산하는 수준에서만 사용을 해봤다. 독성 실험 값...
[컴퓨터를 이용한 신약 개발] Molecular dynamics & Monte Carlo simulation
많은 분자들로 구성된 시스템의 성질은 구성 분자들의 서로 다른 구조 및 에너지 상태의 종합적인 결과라고 할 수 있다. 단백질-리간드 복합체를 하나의 시스템으로 본다면 많은 원자들로...
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다. [기사 오류 신고하기]
 
  댓글 0 댓글작성: 회원 + SNS 연동  
첫 댓글을 달아주세요.
 
위로가기
동향 홈  |  동향FAQ
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
필코리아테크놀로지 광고