다양한 스토리를 담고 있는 연재를 만나보세요.
[당신의 논문 동료] 다양한 public database (HPA, GTEx…) 소개부터 활용까지
Bio통신원(쿼카(필명))
Protein expression은 모든 조직의 slide를 항체로 염색한 후 항체 염색 정도에 따라 high, middle, low로 구분하였습니다. 사람이 임의대로 구분한 데이터라서 이 데이터를 자체를 그대로 인용하기보다, 필요 시에 각 슬라이드를 직접 살펴보면서 항체 염색 패턴을 살펴봅니다.
아래쪽에 세포 염색 사진을 클릭하면 확대된 사진을 볼 수 있습니다. 기본 마커로 nucleus, microtubule과 ER을 염색해서 보여줍니다. 이 마커들과 target protein (e.g. SREBF1)을 on/off 하면서 세포 내 위치를 특정 면밀하게 살펴볼 수 있습니다. 실험자 본인이 연구를 하기 전 충분히 좋은 참고자료가 될 수 있다고 생각합니다.
저는 제가 실험을 직접 하기 전에 Human Protein Atlas 데이터와 GeneCards 데이터를 참고하여 특정 단백질의 세포 내 위치를 대략적으로 조사하는 편입니다 (출처: https://www.genecards.org/cgi-bin/carddisp.pl?gene=SREBF1&keywords=srebf1).
Human Protein Atlas의 장점은 Alphafold version 2 데이터와 함께 known antigen sequences, transmembrane regions 및 InterPro domains을 병합하여 단백질 구조의 특성을 보여준다는 점입니다.
위에서부터 차례대로
1) Antibody 인식 서열(epitope)
2) 다른 단백질과의 구조 유사성 (자주 관찰되는 중요한 단백질 도메인). 10개 또는 50개 아미노산 단위에서 분석한 각각의 데이터를 보여줌
3) Transmembrane domain
4) Protein domain (LC: low complex, IP: InterPro)
5) Alphafold version 2. Confidence level로도 보여주지만, 제가 domain을 선택할 수 있습니다. 예를 들어 IP-reg. 에서 300 ~ 400 a.a 막대(bHLH-Zip으로 잘 알려진 도메인)를 클릭하면 alphafold가 데이터 위에 highlight 해줍니다. 이 기능은 alphafold 홈페이지에서도 제공되지 않는 기능인 것 같습니다 (https://alphafold.ebi.ac.uk/entry/P36956). 이 기능을 잘 활용하면 더 풍요로운 연구를 할 수 있을 것 같아서 더 공부를 해볼 생각입니다.
여러 조직에서 수행한 Single cell RNA-seq 정보를 제공합니다. 다만 아쉬운 것은 scRNA-seq의 데이터 출처나 curation, quality control이 다른 데이터들에 비해 잘 되어 있는 것 같지는 않습니다. 본 데이터를 참고할 수 있지만, 특정 유전자가 어느 세포 유형에서 많이 발현하는지를 보려면 이전 글에서 소개한 single cell portal이나 tabula sapiens에서 검색하시는 것이 좋지 않을까 싶습니다.
세포 유형을 대표하는 유전자와의 correlation을 기반으로 어느 세포 유형에서 발현하는지를 추론한 결과를 보여줍니다. 사실 설명을 열심히 읽었지만 무슨 말인지 잘 모르겠습니다… 이 탭도 single cell RNA-seq 결과들이 더 많이 분석된다면 보다 의미 있는 데이터가 되지 않을까 기대합니다.
TCGA 데이터를 불러와서 분석한 데이터를 보여줍니다. 통계적으로 유의미한 암을 대상으로 생존 함수에 대표적인 Kaplan-Meier curve를 그려서 보여줍니다. 보라색(핑크색)은 SREBF1을 높게 발현하는 암환자, 파란색은 SREBF1을 낮게 발현하는 환자의 생존 곡선입니다. TCGA 결과는 SREBF1은 endometrial cancer와 pancreatic cancer에서 보다 우호적인(favorable) 유전자로 판단, 즉 SREBF1을 높게 발현하면 보다 오래 생존하는 것을 보여줍니다. 다른 암 종에서 SREBF1의 발현을 보고 싶다면 아래 그림과 같이 CANCER 옆 목록 버튼을 누르면 됩니다.
Disease는 12가지 암종 환자의 혈액 샘플에서 단백질 양을 조사한 데이터를 보여줍니다. 분비되는 단백질 1463가지를 조사하였고, 그중 83개의 단백질이 특정 암 환자 혈액에서 특이적으로 높은, 즉 암 진단 마커로 사용될 후보 단백질로 예측됩니다.
GTEx의 데이터의 정수인 eQTL 정보입니다. 어떤 SNP가 SREBF1의 발현량을 어느 조직에서 변화시킬 수 있는지를 보여주는 데이터입니다. Search에 조직을 검색하면 되고, 보이는 화면은 eQTL violin plot을 클릭한 것입니다. 이러한 eQTL 정보를 앞서 소개한 T2Dgenetic와 함께 분석하면 더 좋지 않을까 싶어서 열심히 공부를 한 적 있습니다. 하지만 제 공부가 모자라서 이 정보를 어떻게 적극적으로 활용을 할 수 있는지, 어떻게 활용하는 것이 맞는 것인지 몰라서 추후 공부할 영역으로 남겨둔 상황입니다. 혹시 잘 알고 계신 분이 있다면 저에게 꼭 알려주세요…. 미리 고맙습니다.
eQTL 이외에도 sQTL (splicing quantitative trait loci), ieQTL, isQTL 등의 데이터들이 제공된다고 합니다. 사용법을 잘 알고 계신 분이 있다면 댓글로 꼭 남겨주세요…
메모장에 복사한 내용을 붙여 넣으면 데이터 정렬이 예뻐진 것을 보실 수 있습니다.
이를 다시 전체 선택 🡺 복사 🡺 엑셀에 붙여넣기를 하시면 아래와 같은 샘플 데이터를 얻으실 수 있습니다.
샘플 별 RNA-seq 데이터 시료 수는 17382개이고, gene_tpm.gct.gz 파일은 크기가 1.6G, 압축을 풀면 4G가 되는 파일입니다.
엑셀에서는 열리지 않고 다른 프로그램을 사용해야 합니다. 저는 R을 이용해서 이 파일을 정리하고, tissue 별로 모았습니다. Tissue 별 GTEx RNA-seq 파일을 구글 드라이브에 올렸으니 많이 활용해 주시면 좋을 것 같습니다.(링크: https://drive.google.com/drive/folders/1FHYQbposG3PFJeE4OwXZ4Nu5fix2PSeK?usp=sharing)
PTM public site들을 모은 논문을 참고하시길 바랍니다 (출처: https://doi.org/10.1093/database/baab012).
제가 참고해 온 사이트는 아래와 같습니다.
- PhosphoSitePlus: https://www.phosphosite.org/homeAction
- dbPTM: https://doi.org/10.1093/nar/gkab1017 (논문: https://doi.org/10.1093/nar/gkab1017)
- BioGrid: https://thebiogrid.org/
- PhosphoNet: http://www.phosphonet.ca/
5. 나가며
옛날에 public data를 사용할 때는 참 편하게 데이터를 뽑는다고 생각했었습니다. 그게 착각이라는 것은 곧 알게 되었습니다. 다른 사람의 데이터를 제 연구에 의미 있게 사용하는 것은 제가 실험하는 것보다 훨씬 어렵고 힘든 일인 것 같습니다. 제 가설을 검증하는 실험도 아닐뿐더러, 사람 데이터는 편차도 워낙 크기 때문입니다. 그럼에도 불구하고 계속 조사를 하는 것은 제 연구 방향이 여러 측면에서 검증되고, 또 사람 데이터에서 충분히 의미를 지니기를 희망하기 때문입니다. 한동안 public dataset을 잘 들어가 보지 않았는데 이제 다시 열심히 들여다봐야겠네요.
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다.
[기사 오류 신고하기]