지난 연재를 통해 우리는 오픈 사이언스(Open Science)가 단순한 유행이 아니라, 과학이 직면한 여러 문제를 돌파하기 위한 필수적인 패러다임임을 살펴보았습니다. 위조, 변조, 표절이라는 전통적인 연구 부정행위에 집중하는 것이 과거의 기준이었다면, 이제는 연구의 전 과정을 투명하게 공개하여 동료 연구자들이 언제든 검증하고 재사용할 수 있게 하는 것이 더 신뢰할 수 있고 진실된 연구를 위한 새로운 기준이 되고 있습니다.
하지만 좋은 개념을 아는 것과 현실에서 적용하는 것은 다른 문제입니다. 연구자들에게 오픈 사이언스는 마치 ‘좋은 건 알지만, 내 노동과 시간을 들여야 하는 너무나 버거운 숙제’와 같습니다. 데이터셋을 정리하고, 분석 코드를 주석과 함께 업로드하며, 연구 디자인 단계를 사전에 등록하는 과정은 모두 상당한 추가 노동을 요구합니다. 그러나 현재의 연구 평가 시스템이 최종 논문에만 집중되어 있다 보니, 연구자가 투명성을 위해 들인 수십 시간의 노력은 성과 평가나 연구비 수주 과정에서 거의 반영되지 않습니다.
결국 많은 연구자가 “나의 시간과 노력을 투자해 가며 이 시스템에 동참해야 하는가?”라는 근본적인 회의감을 느끼게 됩니다. 이번 글에서는 이러한 연구자들의 현실적인 고민을 바탕으로, 오픈 사이언스를 지속가능한 표준으로 만들 수 있는지, 그 방안은 무엇일지 이야기해보려고 합니다.
연구자 개인레벨에서
오픈 사이언스를 타인을 위한 봉사 혹은 그저 행정일이라고 생각하면 금세 지치게 됩니다. 하지만, 관점을 조금만 바꿔보면, 오픈사이언스를 위한 데이터 정리와 기록은 사실 미래의 나를 위한 가장 강력한 투자이자 보호막입니다.
연구를 진행하다 보면 정말 많은 것들이 계획과 달라집니다. 교수님과의 디스커션, 시행착오 과정에서 수정 보완하는 것들 등 계획과 다르게 진행되고 변화하는 것들이 가득합니다. 이런 변화들을 체계적으로 기록해 두지 않으면, 투고 과정에서 리뷰어로부터 추가 분석 요청을 받거나, 1년 전 데이터를 기반으로 후속 연구를 진행해야 경우, 연구자 본인조차 자신의 결과를 재현하지 못하는 상황에 직면합니다. 이런 문제는 실제로 연구 일상에서 정말 많이 일어나고, 저 역시 이런 일로 초반에 많이 고생했던 기억이 있습니다. 오픈 사이언스 프레임에 맞춰 연구 과정을 정리해 문서화하는 것은 추후 다른 연구자들을 위해서도 도움이 되지만, 내 연구 자체의 연속성을 확보할 수 있게 도와줍니다. 제대로 내 연구를 팔로업할 수 있게 주석을 잘 달아둔 코드와 구조화해 둔 데이터는 연구의 효율을 크게 향상시켜 줍니다.
또한, 분석 시작 전 연구 가설과 방법을 사전등록 플랫폼에 미리 등록하는 것은 스스로에게 정직한 가이드라인을 제시할 뿐 아니라, 외부의 부당한 압박으로부터 자신을 방어하는 수단이 됩니다. 예를 들어, 위계적인 연구 환경에서 결과에 맞춰 가설을 수정하라는 압박을 받을 때, 이미 등록된 계획은, “나는 계획대로 수행했으며 이 부정적 결과 (Negative results) 역시 과학적으로 가치 있다”라고 당당하게 주장할 수 있는 근거가 됩니다. 따라서 상세한 분석 계획을 미리 업로드하는 것은 스스로, 그리고 외부의 유혹과 압박으로부터 연구자 본인을 보호하는 수단으로 작용할 수 있습니다.
개인을 넘어 구조로
오픈 사이언스의 실천은 연구자 개인의 노력만으로는 한계가 있습니다. 이를 지속가능하게 하려면 국가 차원의 지원이 필요합니다. 오픈사이언스를 적극적으로 권장하고 있는 네덜란드에서는 이러한 우려를 2017년 국가 차원에서 논의했고, 이후 구조적인 연구지원과 인프라 구축 등을 진행하고 있습니다 [1].
전문인력과 자본 투입: 네덜란드에서는 ‘Open science NL’이라는 전담 기구를 통해 연간 수백억 원 규모의 예산을 투입하고 있습니다. 예를 들어, 연구자가 혼자 담당하던 데이터 관리 부담을 덜어주기 위하여 데이터 스튜어드 (data steward) 등 전문 인력을 양성하고 있습니다. 이런 투자는 오픈 사이언스를 추가 업무가 아니라 연구 환경에서 당연한 시스템으로 만드는 중요한 동력이 되고 있습니다 [2]. 또, 학교나 연구기관에서도 오픈사이언스를 위한 연구 인프라 구축에 투자하고 있습니다. 재사용 가능성을 위한 파일 구조와 문서를 명확히 하고, 이를 저장할 수 있는 저장소를 구체화합니다. 데이터는 이제 자산입니다. 연구자가 힘들게 쌓아온 모든 데이터들을 한 번의 연구에만 사용하는 것은 낭비입니다. 체계적으로 데이터를 관리하여 연구비의 낭비를 막고, 연구 자산의 축적을 이루는 것이 필요합니다.
유연한 공개 원칙: 연구자가 오픈 사이언스에 참여하고 싶어도 기술적, 법적, 윤리적 제약 때문에 주저하는 경우도 많습니다. 제가 사용하고 있는 데이터처럼 민감한 개인정보를 다루는 연구, 혹은 인체 유래물을 다루는 연구, 기업과 공동으로 진행하는 연구의 경우 데이터를 공개하고 싶어도 할 수 없는 부분이 존재합니다. 이때 필요한 것이 유연한 오픈입니다. 유럽 등 오픈 사이언스를 국가에서 적극 강조하는 곳에서는 무조건적인 공개보다는 가능한 만큼 공개하고, 필요한 만큼 가린다는 원칙이 존재합니다. 특히 이곳에서는 오픈 사이언스만큼 개인정보 보호 또한 중요한 문제이기에 이 둘의 밸런스를 맞추기 위한 여러 제안점들이 존재합니다. 원데이터 (raw data)의 보안이 중요한 경우, 데이터 자체가 아닌 데이터의 형태에 대한 정보를 공개하는 것을 권장합니다. 어떤 데이터가 어떤 형식으로 어디에 보관되어 있는지 아는 것만으로도 필요한 경우 연구 데이터에 대한 접근을 가능하게 만들어줍니다. 이는 협업의 기회로도 이어지게 됩니다. 혹은 통계 요약치를 공개하는 경우도 있습니다. 대표적으로 uk biobank의 데이터 플랫폼은 데이터의 대략적인 형태를 공개하고 있습니다 (
https://biobank.ndph.ox.ac.uk/showcase/). 이 데이터를 바탕으로 데이터가 필요한 연구자의 경우 원 데이터에 대한 접근을 신청합니다.
평가와 보상: 우리는 그동안 연구의 최종 결과물인 논문을 중점으로 성과를 평가해 왔습니다. 그러나, 잘 정리된 데이터셋이 수많은 연구 협력의 기회와 후속 연구를 낳는다면, 그 데이터셋 자체를 하나의 독립된 연구 성과로 인정해야 할 것입니다. 또한, 저자 기여도에도 이러한 데이터를 누가 관리했는지 누가 코드를 작성했는지에 대해 명확한 기록을 포함하는 것이 필요합니다. 연구지원 기관에서도 연구비를 지원할 때 이러한 데이터 관리 계획을 평가하는 것이 필요합니다. 연구가 투명하게 관리되고 데이터 계획이 잘 세워질수록 연구에 더 많은 가산점을 준다면, 오픈 사이언스는 자연스럽게 학계의 필수 요소가 될 것입니다.
마무리
오픈사이언스는 단순히 결과를 공유하는 것이 아닌, 연구의 전 과정을 정직하게 기록하고 공유하는 것입니다. 오픈 사이언스가 장기적인 예산과 인프라 지원으로 뒷받침될 때, 비로소 연구 현장에서도 단순한 행정일이 아닌 연구의 효율성과 투명성을 높이는 실질적이고 지속가능한 문화로 발전할 수 있을 것입니다.
참고문헌
1. van Wezenbeek, W., Touwen, H., Versteeg, A., & van Wesenbeeck, A. (2017). Nationaal plan open science. Ministerie van Onderwijs, Cultuur en Wetenschap. https://doi.org/10.4233/uuid:9e9fa82e-06c1- 4d0d-9e20-5620259a6c65
2. Open Science NL (2023). Work programme 2024–2025.
3. 본문은 생성형 AI를 구성 아이디어의 정리와 문장 표현 개선 등 작성 과정 전반에서 참고 자료로 활용했습니다. 그러나, 최종 원고의 표현은 직접 검토 및 수정 후 완성했습니다.