[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 동향
한국벡크만쿨터
배너광고안내
이전
다음
스폰서배너광고 안내  배너1 배너2 배너3 배너4
브릭이만난사람들
전체보기 Bio통신원 Bio통계 BRIC View BRIC이만난사람들 웹진(BioWave)
목록
조회 1975  인쇄하기 주소복사 트위터 공유 페이스북 공유 
바이오통신원   
[Mad Scientist] 아미노산 1자 코드는 누가 만들었나?
생명과학 Mad Scientist (2021-02-16)

- 본 글은 Mad Scientist님의 개인 블로그 자료로 BRIC에서 소개 할 수 있도록 허락해 주신 Mad Scientist님께 감사 드립니다. 

생화학을 공부한 사람이라면 20종류(+2종) 의 단백질을 의미하는 3자 혹은 1자 코드에 대해서 알고 있을 것이다.
 

 

사실 3자 코드는 아미노산의 영어 이름의 첫 3글자로 거의 되어 있기 때문에 이것이 어디서 나왔는지 모르는 사람이 없다. 그러나 1자 코드는? 물론 세린 (Serine), 알라닌(Alanine), 류신 (Leucine), 메티오닌 (Methione) 등은 앞 글자로 되어 있기 때문에 외우기 어렵지 않지만 문제는 앞 글자와 다른 것들이다. 아르기닌 (Argnine) 이 R, 타이로신 (Tyrosine)이 Y 인 것은 이미 A와 T가 다른 아미노산이 사용하고 있기 때문에 두번째 글자를 사용했다고 하면 그래도 외워질 수 있으나 페닐알라닌은 왜 F이며 트립토판은 왜 W인가? 글루탐산은 왜 E 이며 아스파르트산은 왜 D 인가?

누가 어떤 의미를 가지고 어떤 목적으로 1글자 코드를 만들었을까?

를 궁금해 해 본 사람은 없는가?

일단 아미노산의 One-Letter Code를 제안한 사람은 오늘날에도 일부 학계에서 그 이름이 잘 알려진 분이다. 이 분은 바로..
 

 

 

 

 

 

 

 

Margaret Oakley Dayhoff (1925-1983)


이 분은 생물정보학에 조금이라도 관련이 있는 사람이라면 몰라서는 안되는 분인데, 그 이유는 거의 생물정보학의 창시자라고 불러도 될 분이기 때문이다. 아직도 ? 이라고 생각하는 사람이라면 치환행렬 (Substitution Matrix) 라는 개념을 생물정보학에서 처음 제창하였고 이 분이 만든 PAM (Point Accepted Mutation) 이라는 개념은 아직도 사용된다는 것 정도는 기억할 것이다. 이러한 개념을 처음 제안한 사람이 바로 이 분이다.

그렇다면 이 분은 어떤 배경을 가졌길래 생물정보학의 창시자라고 불릴 만한가? 자세한 문헌은 여기를 참고하도록 하고..

이분은 원래 양자화학 (Quantum Chemistry) 으로 1948년에 학위를 했는데, 연구 주제는 화합물의 공명에너지를 당시에 희귀했던 컴퓨터를 이용하여 계산을 하는 것이었다. 당시에 컴퓨터라는 것이 발명된지도 얼마 되지 않은 상황에서 컴퓨터를 잘 다룬다는 것이 그당시로는 얼마나 대단한 스킬이겠는가? 어쨌든 그는 박사학위를 마치고, 컴퓨터를 이용하여 화학 관련 계산을 하는 당시에는 흔치 않은 전문가가 되었고, 1960년 메릴렌드의 National Biomedical Research Foundation 이라는 곳에 자리를 잡았다. 여기서 컴퓨터 기술을 이용하여 여러가지 생물학적인 문제를 해결하는 다양한 연구를 하게 되었다.

그러던 중 그의 관심을 끌게 된 것은 ‘서열 정보’ 였다. 오늘날은 주로 DNA 서열을 먼저 결정하고 유전 암호에 의해서 번역된 서열로 단백질 서열을 유추하지만, 실용적인 DNA 서열 결정방법이 개발된 것은 1970년대 후반이고, 1960년대에 있던 단백질의 서열은 1952년 프레데릭 생어 (Frederic Sanger)가 개발한 단백질의 서열 결정 방법에 의해서 결정된 것이다.
 

 

 

 

 

 

 

 

 

 




물론 이 양반은 1977년에 DNA 서열을 결정하는 방법도 개발하긴 했지만, 여튼 1970년대 후반까지 인류가 알고 있던 단백질의 서열은 모두 정제된 단백질을 분해하여 어떤 폴리펩타이드로 구성되었는지를 알아내서 알아낸 것이었다. 1960년대 중반쯤 인간이 알고 있던 단백질 서열은 약 70종류였고, 이들은 대부분 사이토크롬 c 나 헤모글로빈과 같이 대량으로 많이 얻기 쉬운 단백질이었고, 여러 가지 다른 생물 유래의 것들이 많았다.

이들은 이렇게 얻어진 단백질 서열을 정리하면서 서로를 비교할 필요성을 느꼈다. 그렇다면 이것을 어떻게 비교해야 하는가? 기존에는 단백질의 아미노산 서열을 3자로 기록했었다. 그러나 당시의 후진 컴퓨터는 진짜로 보잘것 없는 기억용량을 가지고 있었으며, 기억용량을 줄이기 위해서는 아미노산의 글자를 1자로 하는 것이 절대적으로 유리했다. 그리고 여러가지 다른 생물의 서열을 비교할때 프린터로 출력하여 서열을 비교하는데도 3자 대신 1자로 비교하는 것이 보기 편했기 때문에 데이호프는 각각의 아미노산에 대응하는 코드를 만들기로 했다. 일반적으로 많이 사용되는 단백질의 아미노산은 20종이고, 알파벳은 26종이므로 적어도 아미노산에 대응하는 글자가 모자랄 염려는 없다.

일단 시스테인 (C), 히스티딘 (H), 이소류신 (I), 메티오닌 (M), 세린 (S), 발린 (V), 알라닌 (A), 글리신 (G), 류신 (L), 프롤린 (P), 쓰레오닌 (T)은 그대로 첫 글자를 사용하였다. 글자가 겹치는 아미노산들이 있는데 왜 이들을 선택했을까? 그 기준은 그때까지 알려진 단백질 서열에서 더 자주 사용되며, 구조가 간단한 아미노산에게 우선권을 주었다고 한다.

그러나 이제부터 첫글자가 겹치는 것이 등장하는데..

아르기닌 Arginine

타이로신 Tyrosine

이들은 두번째 글자인 R과 Y를 이용하여 지정하였다. 그러나 페닐알라닌 Phenylalanine과 트립토판 Tryptophan은? 두번째 글자인 R 역시 이미 사용되는 코드이므로 겹치지 않아야 한다. 페닐알라닌의 경우에는 비슷한 발음인 Fenyl…을 따서 F로, 트립토판은 화학구조에서 두 개의 링 (Double Ring)이 있다는 것에 착안하여 W(Double U, 더블유) 로 지었다.

그리고 다음은

아스파르트산 Aspartic Acid

아스파라긴 Asparagine

글루탐산 Glutamic Acid

글루타민 Glutamine

아미노산의 화학 구조를 아는 사람이라면 아스파르트산과 글루탐산에 암모니아가 하나 더 붙으면 아스파라긴과 글루타민이 된다는 것을 알고 있다. 따라서 아스파르트산과 아스파라긴, 글루탐산과 글루타민은 뭔가 연관이 있는 것이 좋다. 그리고 아스파르트산은 글루탐산보다 작고, 아스파라긴은 글루타민보다 작다는 것을 떠올렸다.

따라서 남은 글자 중에서 아스파르트산을 D, 글루탐산을 그 다음 글자인 E로 정하였다. 그리고 분자량이 더 큰 (아미노기가 붙어서) 아스파라긴과 글루타민을 같은 순서로 남는 글자인 N과 Q로 정하였다고 한다. 왜 N 다음의 글자가 아닌 O가 아닌 Q를 글루타민으로 정했을까? 정확한 이유는 알 수 없지만 Q의 발음이 Glu와 그나마 유사해서 그런 것일지도 모른다. (O는 한참 나중에 22번째 아미노산인 파이로라이신의 약자로 사용된다)

마지막으로 남은 것은 라이신 Lysine 으로써 크기가 비슷한 류신 (Leucine,L) 에서 그리 멀지 않은 곳에 위치한 K를 선택하였다.

U를 사용하지 않은 이유는 손으로 쓴 글자를 해독할때 V와 혼동되지 않도록, O는 프린터 인쇄가 잘못되는 경우 G,Q,C,D와 혼동될 수가 있어서였다고 한다 (지금은 상상하기 힘들지만 그때는 빈번히 아미노산 서열을 손으로 쓰거나 도트 프린터로 인쇄하던 시대라는 것을 생각해야 한다. 결국 이 두 가지 코드는 그런 문제가 없어졌을때 셀레노시스테인과 파이로라이신의 코드로 채용된다)

Dayhoff는  Richard V. Eck 라는 학자와 함께 이렇게 편찬한 ‘현재까지 알려진 단백질 서열’ 을 모두 담고 있는 약 100페이지(!) 짜리 책을 출판하였는데, 이 책의 이름은 ‘Atlas of Protein Sequence and Structure‘ 였고, 이 책이 현재의 Uniprot, NCBI Genbank 등등 모든 서열을 모아놓은 정보의 시초가 되는 셈이다. 이렇게 처음 등장한 아미노산 1자 코드는 1968년 국제생화학회의 작명 위원회의 인증을 받아서 공식 표기법이 되었다.

그런데 사실 아미노산을 1자로 표기할 생각을 한 것이 아니었다. 적어도 수 명의 학자가 자기만의 1자 코드를 주장했었는데, 1963년의 키모트립신의 구조를 다룬 논문에서는 우리가 지금 사용하고 있는 1자 코드와 다른 코드를 사용하고 있다는 것을 볼 수 있다.
 

 

페닐알라닌에 F를 사용한 것은 같지만 류신에 U, 이소류신에 W, 아스파르트산에 A, 글루탐산에 G…등 오늘날 알려진 코드와 공통적인 것이 별로 없다. 그러나 아스파라진과 글루타민에 N과 Q를 사용했고 아르기닌에 R을 사용했다는 것은 오늘날의 코드와 동일하다. Dayhoff와 Eck이 자신의 코드를 만들 때 여기에 얼마나 영향을 받았는지는 모르겠지만, 몇 가지 아이디어를 빌려왔을 가능성은 있다.

 

어쨌든 오늘날의 1자로 된 아미노산 코드는

  1. Margaret Dayhoff와 Richard V Eck 이 출간된 1965년의 ‘Atlas of Protein Sequence and Structure‘ 에 처음 등장하였으며,
  2. 1자 코드가 등장한 이유는 당시의 부족한 컴퓨터 기억용량을 낭비하지 않고 서열 비교 계산을 하기 위해
  3. 그리고 서열 비교를 할때 출력물에서 한눈에 알아보기 쉽게 하기 위해서

만들어졌다고 생각하면 된다.

이렇게 1자 코드를 이용하여 서열 분석을 시작한 이후, 서로 다른 종의 생물 유래의 단백질이 변한다는 것을 깨닫게 되고, 이것이 분자 수준의 진화 연구와 생물정보학의 첫걸음이 시작이 된 것에 대해서는 여백이 없으므로 나중에 (….)

기타 참고할 만한 링크

http://www.biology.arizona.edu/biochemistry/problem_sets/aa/dayhoff.html


출처: https://madscientist.wordpress.com/2021/02/15/

  추천 6
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
Mad Scientist
대개의 매드사이언티스트와 마찬가지로 최종 목표는 지구정복. 그러나 현 단계에서는 정체를 위장하고 괴수생산을 위한 기초연구 수행 중.
다른 연재기사 보기 전체보기 >
[Mad Scientist] 아미노산 1자 코드는 누가 만들었나?
요즘은 단백질을 표시할 때 다음과 같은 리본 다이어그램 (Ribbon Diagram) 을 많이 이용한다. 즉 알파 나선(Alpha-Helix)을 리본 형태로, 베타 쉬트(Beta-...
[Mad Scientist] SARS-Covid-2를 '인공적으로 만드는 것' 은 가능한가?
일단 현재까지 자연계에서 알려진 코로나바이러스 중에서 SARS-CoV-2 와 가장 비슷한 것은 이녀석입니다. 박쥐에서 발견된 넘입니다. 그리고 우한에서 제일 먼저 발견된 SARS-...
[Mad Scientist] 황열병 모기에 직접 물린 사람들
황열병(Yellow Fever)는 모기를 숙주로 옮겨지는 바이러스성 질병으로써 2013년에는 약 12만 7천건이 발생하여 45,000명의 사망자를 내고 있는 질병이다.주로 아프리카...
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다. [기사 오류 신고하기]
 
  댓글 2 댓글작성: 회원 + SNS 연동  
회원작성글 8ㅅ8  (2021-02-17 09:10)
1
선생님 너무 유익하고 재밌습니다..!
회원작성글 purify  (2021-02-20 04:06)
2
선생님 글 늘 재미나게 읽고 있습니다!
 
위로가기
동향 홈  |  동향FAQ  |  동향 문의 및 제안
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의 member@ibric.org
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
진스크립트 광고