[DEBUG-WINDOW 처리영역 보기]
BRIC을 시작페이지로 회원가입    로그인
BRIC동향
   
통합검색
배너1 배너2 스폰서배너광고 안내
오늘의 BRIC정보
모바일 BRIC RSS
트위터 페이스북
검색 뉴스레터 안내
좋은 연구문화 만들기
Bio일정
Bio일정
 
Bio일정 프리미엄(유료) 등록이란?
실험
실험
바이오 형광사진
실험의 달인들
Bio마켓
Bio마켓
BioJob
BioJob
Biojob 프리미엄(유료) 등록이란?
커뮤니티
커뮤니티
전체메뉴
대메뉴안내: 동향
뉴스 Bio통신원 Bio통계 BRIC View BRIC이만난사람들 웹진
BRIC View
최신자료 동향리포트 학회참관기 리뷰논문요약 BRIC리포트 외부보고서
Genome Informatics 참관기
Genome Informatics 참관기 저자 이진영 (연세대학교)
등록일 2018.01.11
자료번호 BRIC VIEW 2018-C02
조회 1834  인쇄하기 주소복사 트위터 공유 페이스북 공유 
요약문
2017년 11월 1-4일, 미국 뉴욕주 롱아일랜드시, CSHL (Cold Spring Harbor Laboratory)에서 유전체정보학 학회(Genome Informatics Meeting)가 열렸다. 유전체학(Genomics), 전사체학(Transcriptomics) 및 후성유전체학(Epigenomics) 영역을 아울러서, 코딩(coding) 및 비코딩(non-coding) 유전체의 해석, 더 나아가 비교유전체학(Comparative genomics) 및 메타유전체학(Metagenomics, genomics of microbiome)에 관한 최근 연구 성과가 발표되었고, 최근 지속적으로 화두가 되는 맞춤형 의료 유전체학(personal & medical genomics)에 관한 최근 연구 성과 또한 발표되었으며, 각 연구 분야의 저명한 연구자들 사이에 활발한 토론이 밤낮없이 이어졌다. 오전 9시부터 밤 11시까지 빼곡히 들어찬 힘든 스케줄이었으나, 오믹스(Omics) 데이터를 활용한 다양한 연구들을 접하고, 아이디어들을 들을 수 있는 귀중한 자리였다.
키워드: CSHL, Omics, Genomics, Transcriptomics, Epigenomics, Metagenomics, Personal genomics, non-coding genome
분야: Bioinformatics
써모피셔 사이언티픽
목차

Ⅰ. 주요 발표 내용
  A. 11월 1-2일 주요 내용
    1. Session 1: Variant Discovery and Genome Assembly
    2. Session 2: Transcriptomics, Alternative Splicing, Gene Predictions
    3. Keynote Speaker 1: protein-domain approach for the analysis of disease mutations
    4. Session 3: Data Curation and Visualization
  B. 11월 3-4일 주요 내용
    1. Session 4: Comparative and Metagenomics
    2. Session 5: Epigenomics and Non-coding Genome
    3. Keynote Speaker 2: Post-procrustean bioinformatics (New feature in Kallisto RNA-seq tool)
    4. Session 6: Personal and Medical Genomics
Ⅱ. 총평


Ⅰ. 주요 발표 내용

• 주요 토픽

- 유전체 변이 발굴 및 유전체 재구성(Variant Discovery and Genome Assembly)
- 전사체학, alternative splicing, 유전자 예측(Transcriptomics, Alternative Splicing, Gene Predictions)
- Data Curation and Visualization
- 비교 유전체학 및 메타 유전체학(Comparative and Metagenomics)
- 후성 유전체학 및 비코딩 유전체 분석(Epigenomics and Non-coding Genome)
- 맞춤형 의료 유전체학(Personal and Medical Genomics)

upload image
학회 강연이 진행된 Grace Auditorium. DNA 구조 규명 40주년 기념 조형물이 전시되어 있다.



A. 11월 1-2일 주요 내용

1. Session 1: Variant Discovery and Genome Assembly (유전체 변이 발굴 및 유전체 재구성)

• Variation and assembly resources at EMBL-EBI.
- Laura Clarke (EMBL-EBI, Cambridge, United Kingdom)

EMBL-EBI (European Molecular Biology Laboratory - European Bioinformatics Institute)는 방대한 양의 유전체 변이와 재구성된 유전체의 보관과 발굴을 수행하고 있는 기관이다. 이번 발표에서는, EMBL-EBI에서 제공하는 서비스의 개선과, 새로운 서비스 도입에 관한 소개가 이어졌다. EGA (European Genome-Phenome Archive, 유렵 유전체-표현체 보관소)는 다양한 오믹 데이터를 보관하며 연구자 간의 데이터 교류를 돕는 서비스이다. 최근, UK-BioBank상의 50만 명에 대한 비식별화된 건강 정보를 이용할 수 있게 되었다. 장래에는, 클라우드 인터페이스(Cloud Interface)를 통해, 데이터 다운로드 필요 없이 분석이 가능한 환경을 제공할 것이며, 이와 관련하여 HTS-get 등의 프로그램이 개발되고 있다. EVA (European Variation Archive, 유럽 변이 보관소)는 3년 전에 창설되어, 대규모 유전체 변이 데이터의 보관 및 접근에 관한 서비스를 제공하고 있다. 앞으로는, 인간 이외의 종(species)의 변이에 대해서도 rs 번호를 부여할 것이고, 반년에 한 번씩(biannually) 통합할 것이며, 현재, 구조변이(structural variation)를 VCF*에 최적으로 표현할 수 있는 방식을 고안해내고 있다. 이외에도, 문헌상의 GWAS (Genome-wide association study) 결과의 디지털화, 병원체(pathogen) 데이터로부터 actionable한 정보를 주는 서비스를 준비하고 있으며, PDX (Patient Derived Xenograft)의 방대한 정보의 보관 및 접근 서비스를 제공해주는 PDX finder를 준비 중이다.

*VCF: variant call format, 유전체 변이 데이터를 저장하는 데에 가장 널리 쓰이는 파일 포맷.

Q: EMBL-EBI가 제공하는 Ensembl이 표준유전체 및 annotation 정보를 등록하는 기준은 무엇인가?
A: 목표는 모든 종의 유전체이다. 현재 4~6개월 소요되던 분석 파이프라인을 개정하여 2일 만에 끝낼 수 있기 때문에 앞으로 더욱 많은 종을 커버하게 될 것이다.

• tmVar 2.0—Integrating information on genomic variants from biomedical literature with dbSNP and ClinVar.
- Tim Hefferon (National Institutes of Health, Bethesda, Maryland)

dbSNP의 1억 5천만여 개의 variant에 대해 질병과의 연관성 및 임상적인 중요성에 관한 정보가 부재하였다. 이에 반해, 문헌 상의 변이 정보는 넘쳐나는 실정이며, 이 정보를 활용하기 위해, 텍스트 마이닝을 이용한 연구가 기존에 많이 이루어졌으나, 결과가 표준화되지 않고, curated data와 통합되지 않아 활용되지 않은 문제가 있었다. 이에, 연구진은 변이에 관한 문헌상의 정보를 텍스트 마이닝으로 수집하여 HVGS 포맷으로 표준화 하고 dbSNP rs 번호와 연결하는 파이프라인을 개발하였고, F-measure가 90% 정도로 매우 정확함을 확인했다. PubMed 초록 데이터를 분석하여, ClinVar에 존재하지 않는 새로운 변이-질병 연관성을 다수 발견했고, deleterious한 희귀 변이 또한 다수 발견하였다. 또한 발견된 연관성에 우선 순위를 매겨 10개의 매우 희귀한 변이를 선정하였고, 이중 몇 가지가 ACMG에서 가이드라인을 제시한 58개 유전자에 있음을 확인하여 이 접근법의 유용성을 제시하였다. 장래에는 본문 전체를 마이닝하는 방향으로 진행할 예정이다.

• Identification and correction of problematic copy number calls in TCGA.
- Smruthy Sivakumar (UT MD Anderson Cancer Center, Houston, Texas)

TCGA (The Cancer Genome Atlas)의 CNV (Copy Number Variation) 분석은 SNP 칩 기반으로 순환 이분 분할(Circular binary segmentation) 방법을 통해 이루어지며, 이때 변형되지 않은 지역을 기준점 calibration하여 copy number gain/loss가 일어난 지역을 선정한다. 하지만, TCGA의 파이프라인은, 유전체 불안정성(Genomic Instability)가 심한 암유전체에서 calibration 기준점 선정에 상당한 오류를 보여, 광학현미경으로도 감지 가능한 CNV를 감지 못하는 문제를 보인다. 이러한 점을 해결하기 위해, 대립유전자 불균형(AI, allelic imbalance)을 매우 민감하게 감지하는 hapLOH를 기반으로 정상 지역을 정확히 발견하여 기준점으로 잡아 TCGA CNV call을 보정하였다. 결과적으로, 기존 TCGA 파이프라인을 사용하면 AI가 매우 큰 샘플 중 81%에서 정상지역의 시그널이 작게 잘못 잡히는 것에 반해, 이 연구진의 접근법은 67%의 샘플에서 정확한 보정을 이루어내었다.

• Mastering variant calling of SNPs and small indels with deep neural networks.
- Cory Y McLean (Google, Mountain View, California)

그 동안 많은 variant calling 연구가 있었지만, 다양한 에러 요인들과 파라미터화된 통계 모델을 사용으로 인해 False Negative과 False Positive가 너무 많았다. 이에, 변이 발굴 문제를 read pileup 이미지 분류(classification) 문제로 해석하여, Deep convolutional neural network를 활용한 DeepVariant를 개발하였다. 이 툴은, 예상되는 변이지역에서, read pileup 이미지와 알려진 variant genotype(유전자형) call 사이의 통계적 관계를 deep convolutional neural network를 기반으로 학습하여, 맵핑된 NGS 데이터로부터 변이를 발굴하였다. FDA 주관 변이 발굴 challenge에서 highest performance를 수상하였다. 이 모델은 다른 genome build와 ploidy, 더 나아가 다양한 종의 유전체에도 적용될 수 있으며, 다양한 sequencing depth와 실험 디자인에서도 사용 가능하다.

• Can Nanopore sequencing finally finish the human genome?
- Sergey Koren (National Institutes of Health, Bethesda, Maryland.)

표준유전체는 이를 활용하는 다양한 분석의 결과물의 품질에 크게 영향을 미치지만, 가장 품질이 좋다고 알려진 인간 표준 유전체도 상당한 gap이 존재하는 등 불완전하였다. 그러나, PacBio 및 Nanopore long-read sequencing을 통해 이러한 문제가 해결되고 있으며, 더 나아가 reference-quality genome의 재구성을 비교적 저비용으로 수행할 수 있게 되었다. 이 연구진은, NA12878에 대해 Nanopore long-read 데이터를 생산하였고, 그 중에는 ultra-long reads (N50 >100Kbp, 최대 길이 >800Kbp) sample이 존재한다. Ultra-long read를 사용하여, MHC 및 텔로미어를 span하는 contig를 얻었고, 50Kbp이상의 큰 gap들을 커버하였다. Hi-C data를 사용해야 scaffolding 및 phasing을 하게 되면, 앞으로 다양한 척추동물의 온전한 haplotype을 재구성할 수 있을 것이다.

2. Session 2: Transcriptomics, Alternative Splicing, Gene Predictions

• A new comprehensive human gene catalog.
- Mihaela Pertea (Johns Hopkins University, Baltimore, Maryland)

GTEx (Genotype-Tissue Expression) 콘소시움를 통해 다양한 조직에 대한 9,795개의 human gene expression data (RNA-seq)가 생산되어, 이를 기반으로 human gene collection (RefSeq)을 재평가하고, 확장하고자 한다. 이를 위해, HISAT2 및 StringTie로 대표되는 빠르고 효율적인 RNA-seq pipeline을 개발했다(new Tuxedo). 이 파이프라인으로 GTEx RNA-seq data로부터 transcript 전체 set을 재구성하고, stringent한 filtering을 거쳐 새로운 human gene catalog를 얻었다(CHESS1.0). 새로 발견한 유전자는 2,000여 개였으나, 새로 발견한 transcript는 기존의 transcript catalog를 두 배로 확장하였다.

Q: RNA-seq에만 의존하는데 viral contamination은 없는지?
A: 90% precision이 있음을 simulation data에서 확인함

Q: kallisto, cufflinks와 비교 했을 때, 어떤 점이 좋은지?
A: 다른 tool들과 비슷한 정밀도(precision)를 유지하면서도, transcript를 60% 더 많이 발견함

• IsoCon—A novel algorithm combined with targeted transcriptome sequencing of multicopy gene families traces the origins of highly similar transcripts to individual gene copies.
- Kristoffer Sahlin (Pennsylvania State University, University Park Pennsylvania)

5~10%의 human gene은 copy number가 둘 이상인 multicopy gene으로, 다양한 질병과 연관된 바 있으나, copy 간 sequence 유사도가 너무 높아 연구가 어려움. Illumina RNA-seq의 경우 long transcript isoform들을 정확하게 phasing하지 못하므로, 이에 따라 transcript에 대한 multi-pass long read sequencing을 수행하여 CCS (circular consensus sequence)를 얻는 PacBio Iso-seq이 개발 되었으나, 유사도가 매우 높은 transcript를 구분하며 중복된 transcript를 제거할 수 있는 알고리즘이 그 동안 부재했다. 이러한 부분을 해결하고자, 확률적 오류 모델링(probabilistic error modeling)을 통해 중복된 것을 정확히 제거하는 IsoCon 알고리즘을 개발함. IsoCon은 어떠한 CCS read도 유일하지 않을 때까지 read를 병합함으로써 에러를 제거하여 consensus를 얻고, 그러한 consensus에 CCS reads 맵핑 후 변이(variant)에 대한 통계 검정을 진행하여 실제 변이와 sequencing 오류를 구분한다. 성능 검증을 위해 palindromic arms on Y chromosome상의 ampliconic gene에 대해 targeted Iso-Seq을 진행했다. 변이가 illumina support(>=2 reads)를 받는 경우가 98%였고, transcript 전체가 그러한 경우는 57%. ENSEMBL isoform과도 잘 매치되고, sample간 concordance를 보인다. 더 나아가 multi-copy gene에서 각 copy에서 나온 isoform을 구분할 수 있었다. 이후 계획은 IsoCon을 non-targeted Iso-Seq에 적용하고, 영장류 data에 적용하는 것이다.

• The landscape of isoform switches in human cancers.
- Kristoffer Vitting-Seerup (University of Copenhagen, Copenhagen, Denmark)

Isoform은 같은 genomic loci에서 나온 서로 다른 transcript로서, RNA-seq을 통해 재구성 및 quantification이 가능하다. Isoform usage가 조건에 따라 변하는 것을 isoform switch라고 하는데, 발생 과정, 항상성 및 질병에서 중요성이 알려져 있고, 암에서 굉장히 많이 일어나는 것으로 알려져 있다. 그러나 Isoform 연구가 많이 수행되지 않았는데, 이는 적절한 isoform switch 분석 툴이 부재하고, isoform 분석이 필요 없다는 인식 때문인 것으로 생각됨. 첫 번째 문제를 해결하기 위해, isoform identification 및 isoform switch의 예상되는 결과까지 쉽게 분석할 수 있는 isoformSwitchAnalyzeR R 패키지를 개발한다. 두 번째 부분을 해결하고자, 개발한 툴을 이용해 TCGA 6000 RNA-seq data (5,000patients, ~20 cancer types)에 대해 분석을 진행함. 결과적으로, 유전자 발현양 변화는 크지 않지만, isoform switch가 크게 일어난 경우가 빈번함을 확인하였다. Isoform switch의 결과는 대개 domain loss 쪽으로 치우쳐져 있으며, non-coding RNA가 되는 경우도 확인하였다. 환자 생존과 연계 분석한 결과 임상적으로 중요한 isoform switch들을 발견했다.

Q: non-coding으로 바꾸는 isoform switch가 tumor neoantigen을 숨기는 기작은 아닐지?
A: ground hypothesis는 loss가 survival에 중요할 것이라는 건데, 그것도 괜찮은 아이디어인 것으로 보임.

Q: survival이 gene expression level과 independent했는지?
A: age와 gender에도 independent.

• Computational approaches for understanding single-cell expression variation.
- Oliver Stegle (European Bioinformatics Institute, EMBL-EBI, Cambridge, United Kingdom)

Single cell RNA-seq을 이용하면, 세포주기, 분화, 세포자살(apoptosis) 단계에 따른 차이 등, bulk RNA-seq으로는 확인이 불가능한 숨겨진 변동성을 찾을 수 있다. 이를 위해, cell-cell covariance matrix를 구축, cell state covariance를 fitting하여 분석하고자 한다. 방법론을 validation을 하고자, 서로 다른 세포주기 stage의 300 ES cell에 대한 single RNA-seq data로부터 세포주기 유전자 발현양의 covariance를 분석하였을 때, 서로 다른 세포주기 단계를 잘 구분하고, Hoest dye만큼 세포주기 변동성을 잘 발견하였다. 더 나아가 single cell transcriptome variability를 여러 biological process의 variance으로 분해(decomposition)하기 위해, process별 gene set을 이용하여 factor model을 구축하였고, 앞서 사용된 300 ESC dataset에 다시 적용한 결과, G2/M checkpoint와 같은 세포주기 관련 process가 중요한 것으로 나와 model이 잘 작동함을 확인하였다. 신경세포에 적용하여, 특정 process (ex, 근육 수축, 선천적 면역)에 어떤 cell type이 중요하게 작용하는지, 어떤 gene이 중요하게 작용할지 예측할 수 있었다. 마지막으로, 이 approach를 mouse olfactory bulb에 적용하여, 조직 내의 위치에 따라 발현이 변하는 gene들을(spatially variable genes, spatialDE) 찾아낼 수 있었다.

3. Keynote: A protein-domain approach for the analysis of disease mutations.
- Maricel Kann (University of Maryland)

한 gene 내의 mutation이라도 서로 다른 protein domain에 속하게 되면 그 영향과 연관되는 질병이 달라질 수 있다. 이러한 점을 고려하여, domain을 기준으로 여러 gene의 mutation을 모아서 분석하는 domain-centric approach를 고안해 냈고, http://bioinf.umbc.edu/dmdm에서 활용할 수 있다. 특정 domain에서 유의미하게 mutation되는 protein domain hotspots을 찾기 위해, DS-score (domain significance score)를 만들어, cancer 및 non-cancer disease data에 적용하였다. Cancer에서 score가 매우 높은 hotspot들을 발견하였는데, 대부분 ALK, BRAF와 같은 oncogene들에 해당되었다. 이를 TCGA dataset에 적용했을 때, gene-centric approach로 significant gene을 발굴하는 MutSigCV나 CHARM과 같은 tool보다 더 많은 known cancer genes를 찾아냈고, known cancer gene이 아닌 gene들의 경우에도, cancer gene들과 domain family 및 Gene ontology면에서 공통점을 보여, cancer gene을 효율적으로 발굴함을 제시하였다. 또한, domain을 기준으로 mutation을 모으기 때문에, 굉장히 rare한 variant의 significance도 찾아낼 수 있음을 제시하였다.

4. Session 3: Data Curation and Visualization

• Discovery informatics and clinical diagnosis with iobio web tools.
- Gabor Marth. (University of Utah, Salt Lake City, Utah)

Genome sequencing data는 그 사이즈가 너무 커서, processing에 시간이 너무 오래 걸리므로, 특정한 주제에 집중을 하거나, 임상에 적용하는데 어려움이 있었다. 이를 위해, 사용하기 쉬운 웹 기반 실시간 genomic analysis tool을 개발하고자 했고, genomic big data의 실시간 분석 문제는 random sampling을 통해 해결하였다. 이를 임상적으로 적용할 경우, 중요한 gene의 read depth를 빠르게 분석하여 disease gene이 deletion 되었는지 단시간 내에 알아낼 수 있었다. 또한, 소수의 gene list에 집중하여 on-demand variant calling을 할 수 있었다.

B. 11월 3-4일 주요 내용

1. Session 4: Comparative and Metagenomics

• The role of regulatory complexity in transcriptional evolution.
- Paul Flicek (EMBL-EBI, Hinxton, United Kingdom.)

Gene expression level은 조직별 발현 패턴까지 진화적으로 stable하지만, 이러한 expression을 조절하는 TF (transcription factors, 전사인자)의 binding pattern은 진화적으로 보존이 잘 되지 않는 모순이 있었다. 이 부분을 조사하기 위해 포유류 20종의 간에 대한 ChIP-seq (H3K4me3, H3K27ac)을 생산하여, H3K4me3+H3K27ac로 active promoter를, H3K27ac만을 이용하여 active enhancer를 profiling하였고, RNA-seq를 생산하여 분석한다. Conserved activity를 보이는 enhancer가 promoter보다 훨씬 적은 것으로 보아, enhancer가 더 빠르게 진화한다고 볼 수 있었다. 각 종별로, active enhancer의 절반 정도는 해당 종에 특이적이므로 최근에 진화된 것으로 볼 수 있고, 대부분 ancestral DNA에서 유래함을 확인. Gene expression level은 그 종류에 상관없이, promoter의 유무와 enhancer의 개수에 따라 결정되는 경향성을 보였는데, 이러한 특성 때문에 regulatory element는 빠르게 진화하면서도 expression level은 진화적으로 stable한 현상이 가능하다고 볼 수 있었다. 마지막으로, gene expression의 level과 evolutionary stability가 조사된 20종의 collapsed regulatory landscape의 복잡도와 보존도를 반영하고 있음을 확인하였다.

Q: 실제 transciption되는 정도를 GRO-seq으로 확인 해보았는지?
A: 확인해 볼 예정이다.

Q: 어떤 bias가 있는지, 특정 tissue에서만 확인한 것, immune response에 관련된 것 때문에 이런 현상이 보이는 것은 아닌지?
A: 현재 다른 tissue에서도, non-immune에서도 확인하고 있는데, 비슷한 경향을 보인다.

• Strains, functions, and dynamics in the expanded Human Microbiome Project.
- Jason Lloyd-Price (Harvard T. H. Chan School of Public Health / Broad Institute)

2012년에, normal human microbiome을 정확히 정의하기 위해, 건강한 사람 300명에 대해 microbiome을 조사하여 700개의 metagenome을 생성한 Human Microbiome Project 1 (HMP-1)이 진행된 바 있었다. 2017년 올해에, 이를 확장한 HMP1-II가 진행되어, 신체 부위 별로, biological replicate 수와 sampling하는 시점의 수를 늘렸고, technical replicates 또한 늘려서, 2,400여 개의 metagenome을 생성하여 분석을 진행하였다.

우선, Strain variation의 패턴을 확인해 보았을 때, 사람 간의 차이는 컸지만, 개인 내에서는 시간에 따라 크게 변하지 않음을 확인하였다. 또한, 특정 body site과 관련 있는 Sub-species structure가 있는 것을 발견하였고, microbiome의 niche adaptation 현상이 존재할 것임을 제시하였다. 두 번째로, Co-assembly로부터 microbial gene catalog를 확장하였고, 그럼에도 불구하고 아직 gene family 발견이 포화상태 이르지 않았음을 제시하였다. 마지막으로, Gaussian process를 이용하여, strain abundance의 시간에 따른 변동을, 사람간 차이 및 biological noise로부터 분리하여 분석함. 이를 통해, microbiome community에 중요한 것은, function이고, strain은 이를 제공하는 다양한 조합이 가능하다는 가설을 재확인하였고, pathway로 대표되는 function의 변동에 있어 사람 간의 variation은 크지 않으며, 시간에 따른 변동이 주요함을 확인했다.

2. Session 5: Epigenomics and Non-coding Genome

• Modeling methyl-sensitive transcription factor motifs with an expanded epigenetic alphabet.
- Coby Viner (University of Toronto; Margaret Cancer Centre)

Transcription factor (TF)는 특정한 DNA sequence를 인식하여 transcription을 촉진하는데, 이는 sequence-specific transcriptional control을 가능하게 하였다. 일부 TF들은 Cytosine이 5-methylcytosine (5mC) 및 5-hydroxymethylcytosine (5hmC) 등으로 변형되는 것을 인지한다고 보고된 바 있다. 이에 따라, 변형된 cytosine 염기가 유전자 발현조절에 미치는 영향을 확인하고자, 염기서열 표현할 때 사용하는 알파벳 A/C/G/T에 m(5mC), h(5hmC)를 추가하고, TF binding affinity를 표현하는 Position Weight Matrix(PWM)을 이에 맞게 변형함. Naïve ex vivo mouse T cell(5mC, 5hmC) 및 K562 human leukemia cell line에 대해 변형된 염기서열을 반영하여 재구성한 genome과, ENCODE 등의 DB에서 얻은 ChIP-seq data, 그리고 expanded-alphabet PWM을 사용하여 modification에 따른 TF binding의 차이를 분석하였다. 결과적으로, 기존에 알려진 methylation binding preference를 확인하였고(ZFP57 및 C/EBPβ -> methylated motif/c-Myc -> unmethylated E-box motif), 추가적으로 5개의 novel preference 및 새로운 5mC 및 5hmC motif를 다수 발견하였다. PWM clustering 기법을 통해, methylation이 된 DNA와 되지 않은 DNA에 대해 motif가 달라지는 것을 확인하였고, 이를 확장하면, 기존에 발견된 bidirectional하거나 모호했던 methylation preference를 명확하게 할 수 있을 것임을 제시했다.

• Near-nucleotide mapping of R-loops shows that promoter associated R-loops are bounded at first exon-intron junctions.
- Jason G. Dumelie (Weill Cornell Medicine, Cornell University, New York.)

R-loop은 풀려 있는 dsDNA의 한 strand가 RNA와 hybridize 되어 있는 구조로서, transcription start sites (TSS)에 집중되어 있고, 유전자 발현을 조절한다고 알려져 있다. 기존의 R-loop mapping 방법은 S9.6 Antibody로 RNA-DNA hybrid를 immuno-precipitate하였는데, 이는 nucleotide-level mapping을 제공하지 못하였다. 이에 따라, near-nucleotide-level로 R-loop을 매핑할 수 있는, bisDRIP-seq을 개발하였는데, 이는, Bisulfite conversion시, DNA는 open 혹은 closed 상태에서, 양 strand 모두 변형되거나 또는 모두 변형되지 않는 것에 반해, R-loop은 RNA가 hybridize되지 않은 한 쪽 strand만 변형된다는 점을 이용하여, bisulfite 처리 후 S9.6 Ab로 IP하여 sequencing함으로써 R-loop mapping 정보를 제공한다. 결과적으로, R-loop이 대부분 transcription start에 중요한 TSS 근처 downstream region에 존재하는 것을 확인했고, R-loop이 대개 first exon junction에서 끝나고 first exon 길이에 따라 R-loop가 넓게 나타남을 확인하여 first splice site이 R-loop expansion을 제한하는데 중요할 것임을 제시했다.

3. Keynote Speaker 2: Post-procrustean bioinformatics (New feature in Kallisto RNA-seq tool)
- Lior Pachter (University of California, Berkeley)

Soneson and Robinson, 2017에 제시된, 30개의 single cell RNA-seq differential expression 분석 툴 중 어느 것도 differential transcript usage를 다루는 툴이 없었고, 모두 gene-level의 count data를 raw data로 두고 분석을 시작하였음. 이러한 문제로, CD45의 서로 다른 isoform을 발현하는 naïve T-cell과 memory T-cell을 구분할 수 없음을 확인하였다(FACS로 구분한 cell type이 single cell RNA-seq 기반으로 구분이 되지 않음). 이에 따라, gene-level이나 transcript level보다 더욱 근본적인 수준에서 differential expression을 분석하고, 그 p-value를 Fisher’s method와 같은 meta-analysis 방법으로 gene-level로 통합하고자 하였다(analysis then aggregation instead of aggregation then analysis, 통합 후 분석하기보다 분석을 한 후 통합하는 방식). 그러한 데이터로서, “read가 pseudo-align되는 transcript 종류의 집합”을 제시하였고, 각 집합에 해당되는 read의 count (TCC, transcript compatibility count)를 사용하였다. Differential TCC를 사용하여, naïve T cell과 memory T cell에서 CD45 isoform의 differential usage를 확인할 수 있었다. 이에 따라, TCC-based clustering으로 immune cell type을 더욱 자세하게 나눌 수 있음을 확인하였다. 결론적으로, single cell RNA-seq의 raw data로서, TCC matrix를 사용할 것을 제시했다.

4. Session 6: Personal and Medical Genomics

• Completing a human gene knockout catalog through accurate phasing of 15K rare, deleterious compound heterozygous mutations in 61K exomes.
- Jeffrey Staples (Regeneron Genetics Center, Tarrytown, New York.)

Homozygous LoF(Loss of Function) mutation은 그 phenotypic effect로부터 gene function을 유추할 수 있게 해주는 등 그 중요성이 매우 크다. 두 heterozygous LoF mutation이 서로 다른 allele에 존재하는 Compound heterozygous mutations (CHMs)는 기능적인 면에서 homozygous LoF mutation과 동등하므로, double heterozygous LoF mutation이 trans(서로 다른 allele) 혹은 cis(같은 allele)에 존재하는지 구분할 수 있다면, human gene knockout(KO) catalog를 크게 늘릴 수 있을 것이고, 이에 따라 통계 분석의 power가 증가될 것이다. 이를 위해 92K WES (whole exome sequencing) 코호트(DiscoverEHR WES 코호트, GHS (Geisinger Health System)과 RGC (Regeneron Genetics Center)가 콜라보로 생성됨)를 생성하였고, dataset 내의 cryptic relationship을 활용하여, PLINK 및 PRIMUS를 사용해 2만여 명을 단일 가계도 내에 위치 시킴. 그리고, 발견된 4만여 개의 putative CHM (pCHM)의 segregation pattern을 allele frequency 기반 phasing (EAGLE) 혹은 가계도 기반 pahsing 방법으로 분석하여, pCHM이 cis인지 trans인지 구분하였다. 결과적으로, 11K 명의 개인에 분포된, 38%(1만 5천여 case)의 pCHM가 trans임을 밝혀내었고, 20명 이상의 KO carrier를 지닌 gene의 수를 79명에서 393명으로 400% 증가시켰다. 결론적으로, rare deleterious CHMs이 population allele frequency와 cryptic relationship(쉽게 말해, 추론된 혈연관계)를 통해 phasing하여, gene KO catalog를 증가시킬 수 있고, 앞으로 phenotypic data와 연계하여 human gene function을 다수 알아낼 수 있을 것임을 제시하였다.

*phasing : 서로 다른 loci의 variant가 같은 혹은 다른 haplotype에 존재하는지 알아내는 것.

• An ultra-high resolution capture-C promoter ‘interactome’ implicates causal genes at SLE GWAS loci.
- Alessandra Chesi (The Children’s Hospital of Philadelphia)

Systemic Lupus Erythematosus (SLE)는 건강한 조직을 공격하는 auto-reactive antibodies(항체)의 생성으로 인한 auto-immune disease (자가면역질환)으로서, 소아 및 성인 모두에게 나타날 수 있으며, 다양한 organ이 영향 받을 수 있고, Auto-antibody를 생성하는 B cell의 생존에 TFH (T Follicular Helper) cell이 필요한 것으로 알려져 있다. 이전에 GWAS를 통해 SLE와 연관 있는 loci가 60개 이상 보고되었으나, GWAS loci는 연관성만 제시할 뿐, causal varian (trait의 실제 원인이 되는 variant)를 알려주지는 않기 때문에, ATAC-seq opem chromatin data를 통해 중요한 variant를 mapping하였다. 하지만, variant가 조절하는 유전자를 정확히 알 수 없다는 문제가 있는데, 이를 해결하기 위해, Promoter Capture-C를 기반으로 sub-1kb (4bp cutter인 DpnII 이용) resolution의 genome-scale promoter Interactome을 TFH cell에 대하여 구축하였다. 결과적으로, SLE GWAS loci로부터 candiate causal variant와 그 target gene을 얻었고, 70% 이상의 ATAC-seq implicated SLE proxy SNP가 nearest gene이 아닌 distant gene과 interact함을 확인하였으며, 연관된 gene들이 SLE와 기능적으로 연관된 network에 enrich된 정도가 nearest gene의 경우보다 훨씬 더 큼을 확인하여 결과를 뒷받침하였다. 이후에 follow up study를 통해, 해당 gene들이 실제 SLE에 중요함을 확인할 예정이다. 결론적으로, high resolution promoter interactome을 disease 관련 cell type에 적용하여, 올바른 cellular context에서 SLE GWAS loci가 조절하는 target gene을 찾아야만 GWAS 결과를 정확히 해석할 수 있음을 제시하였다.

Ⅱ. 총평

Omics data를 사용해 Genome-wide trend를 분석하면, 기존에 알 수 없었던 새로운 생물학적인 개념들을 발견할 수 있으며, 여러 Omics data를 통합하여 사용함으로써, 질병과 관련된 유전자 및 메커니즘에 대한 단서를 얻을 수 있다. Genome Informatics 학회에서는 이러한 Omics data를 분석하는 툴, 분석하는 방법론 등에 대해 배우고 많은 아이디어를 얻을 수 있었다. 특히, 최근에 가장 집중적으로 연구되고 있는, 비코딩 유전체(non-coding genome), 단일 세포 전사체 (single cell transcriptome), 후성유전체(epigenomics )에 관한 다양한 연구를 접할 수 있었다.

CSHL에서 주최되는 학회의 경우, 학회 후 1달 정도의 기간 동안 강연 비디오 자료가 참석자에게 제공된다. CSHL 소속 연구원일 경우, CSH에서 주최되는 수많은 학회를 무료로 참석할 수 있다고 하니, 아름다운 자연경관을 만끽하며, 다양한 연구 분야를 접하고 싶다면 CSHL이 좋은 목표가 될 수 있을 것이라 생각된다.

upload image
숙소에서 강연장으로 가는 길목에 놓여있는 조각상. The Waltz of the Polypeptides.



  추천 0
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
Citation 복사
이진영(2018). Genome Informatics 참관기. BRIC View 2018-C02. Available from http://www.ibric.org/myboard/read.php?Board=report&id=2888 (Jan 11, 2018)
* 자료열람안내 본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다. 내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(member@ibric.org) 바랍니다.
 
  댓글 0
등록
목록
KAIST 생명과학과
이전페이지로 돌아가기 맨위로 가기
 

BRIC 홈    BRIC 소개    회원    검색    문의/FAQ    광고    후원
Copyright © BRIC. All rights reserved. Contact member@ibric.org

 
에펜도르프코리아