Method는 내가 이 논문의 실험을 따라 하고 싶은 경우가 아니라면 논문을 읽을 때 많이들 생략하기도 하지만, 사실 데이터를 깊게 이해하고 싶을 때 꼭 함께 읽어야 하는 파트이다. 데이터를 데이터의 맥락적 의미만 이해하기보단, 어떤 실험을 통해서 얼마나 신뢰 가능한 데이터가 만들어진 것인지를 함께 이해해야만 한다. Method 파트는 저널에 따라 procedure, protocol 등의 이름으로 작성되기도 한다. 이번 연재에서는 내가 따라 하고 싶은 실험이 있을 때 method 파트를 어떻게 읽어야 하는지, 데이터 해석을 위해 result와 함께 어떤 식으로 함께 읽어야 하는지에 대해 다뤄보고자 한다.
원래 Method의 작성 기준은 처음 보는 사람도 따라 할 수 있을 정도로 자세히 기술하는 게 원칙이다. 줄글로 풀어서 썼다 뿐이지 우리가 상업적으로 판매되는 제품의 프로토콜을 보고 따라 하는 것과 마찬가지로, method 내용을 읽고 따라 할 수 있어야 된다. 때문에 만약 필자는 논문에서 사용된 실험 기법의 프로토콜이 필요하면 이 method 내용을 프로토콜처럼 step by step으로 정리하여 실험에 사용한다. Method 파트에는 실험의 기법뿐만 아니라, 사용한 시료와 제품을 적어두기도 한다. Antibody는 어떤 제품을 사용했는지, 시약과 키트는 어느 회사의 것을 사용했는지도 적혀있다.
데이터 분석의 경우 어떤 프로그램과 코드를 썼는지, 어떤 파라미터를 써서 어떤 알고리즘을 적용하여 분석했는지 또한 적혀있다. 만약에 논문에서 사용한 실험을 그대로 따라가고 싶다면 method 파트를 꼼꼼히 참고해야 한다.
하지만 첫 문단에서 설명했듯, method는 단순한 프로토콜 참고용 단락이 아니다. Result에서 데이터를 제대로 이해하기 위해서 역시 method에 적힌 내용을 자세히 읽어야 한다. 어떤 방법론을 사용했느냐에 따라 데이터를 어떻게 받아들여야 하는지가 달라지기 때문이다. 몇 가지 사례들을 통해 이를 알아보고자 한다.
Fig.1 같은 gene을 다른 방법을 knock-down한 여러가지 사례
예를 들어 어떤 단백질의 기능을 알기 위해 loss-of-function 실험을 진행한다고 생각해 보자. 데이터를 보고 추상적으로만 받아들인다면 그냥 해당 단백질이 사라졌을 때 일어나는 현상으로 이해할 수 있다. 틀린 내용은 아니다. 하지만 어떻게 loss-of-function을 했는지에 따라 깊은 해석은 달라질 수 있다.
Loss-of-function을 가할 수 있는 방법은 여러 가지가 있다. 하지만 knock-out을 했는지, knock-down을 했는지, knock-down을 한다면 siRNA로 했는지 shRNA로 했는지, 혹은 degron 시스템을 이용해 acute 하게 depletion을 했는지, inhibitor 약물을 쳤는지에 따라 다양한 방법이 존재할 수 있다. siRNA는 transfection을 하고 나서 24-72hr 뒤에 phenotype을 관찰한다. shRNA는 발현 construct를 지속적으로 발현하는 stable cell line으로 만드는 경우가 많다. Degron 시스템은 수 시간 안에 대부분의 단백질이 분해된다. '똑같은 loss-of-function'이 아닌 것이다. 본문만 읽거나 피규어의 데이터가 친절하지 않은 경우에는 그냥 타깃 단백질의 loss-of-function이라는 맥락적 이해만 하고 넘어갈 수도 있지만, method에는 구체적인 방법론이 적혀있다. siRNA를 넣었다면 몇 시간 뒤에 관찰했는지, 약물은 어떤 농도로 쳤는지 등에 따라 관찰된 현상을 어떻게 해석해야 하는지가 다를 수 있다.
Degron 시스템은 수 시간 안에 단백질이 대부분 사라진다. 따라서 그 단백질에 의한 downstraem effect는 배제할 수 있다. 반면 shRNA expressing stable cell line을 만들면 shRNA를 발현하고 나서도 세포 분열을 여러 번 거칠 정도로 오랜 시간이 지난 세포이다. siRNA transfection은 RNA interference가 일어난 지 24-72hr이 지난 시점에서 관찰하기 때문에 만약 타깃 단백질의 life time이 길다면 단백질의 loss-of-function 효과가 덜 할 수 있다.
위 figure는 HNRNPU(a.k.a. SAF-A)라고 하는 단백질을 knock-down 한 서로 다른 3개의 논문이다. Nozawa et al.에서는 siRNA를 transient transfection 하였다. 반면 Fan et al.은 shRNA 발현 벡터를 넣은 stable cell line을 만들었고 Sharp et al에서는 HNRNPU의 acute depletion을 유도하기 위해 degron 시스템을 활용하였다.
Fig.2 서로 다른 방법으로 fluorescent imaging한 RNA polymerase II또 다른 예시를 들여다보자. 현미경 이미징 데이터를 관찰할 때, 세포에서 특정 단백질에 형광을 표지하여 분포나 양을 관찰하는 경우가 있다. 하지만 타깃 단백질을 형광으로 시각화하는 방법에도 여러 가지가 있다. 단백질에 GFP 같은 형광 단백질을 tagging 한 플라스미드를 transfection 하여 transient overexpression 하는 방법도 있고, antibody로 immunofluorescence 기법을 통해 시각화하는 방법도 있고, 때로는 CRISPR knock-in을 통해서 endogenous gene에 직접 tagging 하는 방법도 있다.
얼핏 보면 타깃 단백질을 시각화해서 분포나 양을 관찰했다고 추상적으로만 이해할 수도 있지만, 방법론에 따라 해석이 아주 많이 달라질 수 있다. 예를 들어, 발현양에 따라 화학적 성질과 분포가 달라지는 단백질이 있을 수 있다. 세포 내 농도가 특정 수준 이상으로 올라가면 자기들끼리 aggregation이 일어나는 단백질은 transient overexpression을 통해 관찰한 모습이, 실제 natural truth와 거리가 멀 가능성이 높다. Antibody의 경우 제품의 종류에 따라 affinity도 다르고, 특히 polyclonal antibody의 경우 타깃 단백질 1개당 결합하는 antibody의 개수가 다르기 때문에 서로 다른 antibody를 이용해 형광 intensity 정량 비교하기엔 적합하지 않다.
위 figure는 다 똑같이 세포핵 안에 있는 RNA polymerase II를 이미징 한 것이지만, 그 방법은 전혀 다르다. 우선 Cho et al(2016)에서는 Dendra2-Pol II를 발현하는 piggyBac 벡터를 이용하여 stable cell line을 만들었으며, 심지어 Pol II inhibitor chemical의 일종인 a-amanitin의 저항성을 가진 Pol II를 발현하기 때문에 이 약물을 가지고 selection을 통한 셀라인을 제작하였다. Cho et al(2018)에서는 endogenous Pol II 서브유닛에 Dendra2를 CRISPR knock-in 한 뒤 FACS로 형광을 띈 세포만 sorting 하였다. 마지막으로 Guo et al에서는 그냥 wild type세포에 antibody로 immunolabeling 한 이미지이다.

Fig.3 SAR-seq 프로토콜
Bioinformatics 데이터의 경우 이러한 차이는 더더욱 두드러진다. Sample prep 프로토콜이 무엇인지, 분석에 적용한 알고리즘이 무엇인지에 따라 해석은 천차만별로 달라진다. 사실 sample prep과 분석 기법이 해당 시퀀싱의 아이덴티티 그 자체이기 때문이다. 하지만 피규어의 데이터에는 peak, heatmap, plot 등의 추상적 정보만이 눈으로 보일 뿐이다. 이 데이터가 어떤 의미를 가지는지 깊게 이해하기 위해서는 어떤 방법으로 진행된 실험인지를 이해해야 한다.
예를 들어서 필자가 공부했던 한 논문에서는 SAR-seq이라는 시퀀싱의 데이터를 보여주면서 nuclear matrix에 해당하는 genomic region을 정의하는 주장을 한다. 그런데 대관절 SAR-seq이 뭐 하는 시퀀싱이길래 이 기법으로 나온 output을 nuclear matrix라고 정의하는지를 peak와 heat map만 보고서는 이해할 수 없다. 데이터에서는 샘플 간의 차이라던가 해석의 결과만을 보여주기 때문이다. 이럴 때 바로 method를 보아야 한다.
SAR-seq이라는 실험 기법은 DNA 샘플을 추출할 때, 다양한 버퍼를 이용해서 세포핵의 insoluble fraction만 추출해 낸다. 그다음 DNase I처리를 하여 nuclear matrix 단백질에 의해 코팅되어 있지 않은 염색질은 모두 분해한다. 그다음 남아있는 DNA만 긁어모아 시퀀싱을 진행한다. MNase-seq이나 DHS-seq과 비슷한 목적의 실험인 것이다. 이렇게 프로토콜을 파악하는 것을 통해 이 시퀀싱의 결과물이 무엇을 의미하는지를 더 깊게 이해할 수 있다.
줄기세포를 대체 어떤 방법으로 differentiation 시켰는지, 약물 어떤 종류를 어떤 농도로 쳤는지, 특정 유전자를 어떤 방법으로 발현시키고 정량하는지, method를 보지 않고 실험 데이터를 보는 것은 마치 영화를 직접 보지 않고 줄거리 요약한 글만 읽는 것과 같다. 줄거리 요약만 봐도 영화가 무슨 내용인지를 파악하는데 큰 문제가 없다. 하지만 어떤 사건, 대사, 연출들에 의해 해당 줄거리가 구성되는지는 직접 보지 않는 한 알 수가 없다. 위의 가벼운 예시들만 나열했지만, method가 데이터 해석을 좌지우지하는 경우는 끝이 없다. 논문을 읽다가 '대체 이런 데이터는 어떻게 만드는 거야'가 궁금해진다면, 해당 실험의 method를 함께 읽어보는 습관을 들여보도록 하자.