다양한 스토리를 담고 있는 연재를 만나보세요.
[새로운 플랫폼 F1000Research] 데이터 공유에 대한 오해를 깨다
Bio통신원(테일러앤프렌시스)
“나는 어떠한 오해도 두려워하지 않는다” - 데이터 공유에 대한 오해를 깨다.
이용자들이 더 쉽게 정보를 찾을 수 있도록 오해와 진실로 섹션을 나눠 설명하고자 한다. 아래 내용을 통해 다양하고, 풍부한 양질의 데이터를 접할 수 있기를 바란다.
나와 내 데이터 – 알고 있는 다양한 데이터 유형과 형식에 대해 바로 기록하고, 설정하기
“나는 데이터가 하나도 없다”
확실한가? 연구 데이터는 텍스트, 숫자, 데이터베이스, 지리공간, 이미지, 시청각 기록, 기계나 계측기에 의해 생성된 데이터 등 다양한 형태로 존재한다.
비디지털 자료나 ‘출처’도 연구 데이터에 포함될 수 있다. 특히, 디지털 데이터가 아닌 일부 데이터를 디지털화할 수도 있다. 예를 들면, 스캔된 문서나 문자로 기록한 아날로그 형태의 청각 자료 등도 이에 포함된다.
데이터를 다른 이용자에게 유용한 방식으로 쉽게 디지털화할 수 없는 경우, 데이터 객체, 데이터 저장 위치, 액세스 방법 등을 설명하는 광범위한 메타데이터 레코드를 생성해 데이터를 ‘공유’할 수 있다.
이 메타데이터 레코드를 레포지토리에 공개 보관해 다른 이용자가 찾을 수 있게 한다. 이용자는 문서와 데이터셋 사이의 관계를 설정하기 위해 관련 논문(혹은 그 반대)에 메타데이터 레코드를 인용할 수 있다.
게시한 논문에 관련 데이터가 전혀 없는 경우, 데이터 이용 설명서에서 이를 명확히 명시하는 것이 좋다. 이는 독자에게 데이터 공유를 빼 먹은 것이 아니라 공유할 데이터가 없음을 확인시켜 준다.
“데이터 공유는 내 연구 분야에서 해당사항이 아니다.”
데이터 공유 관행은 규범과 지원에 따라 각 분야별로 상당히 다르지만, 데이터 공유의 핵심인 재현성 (reproducibility), 인정 (credit), 잠재적인 재사용성 (reuse) 은 동일하다.
FAIR 데이터 원칙은 분야와 상관없이 모든 연구 데이터에 적용되며, 광범위한 유형의 데이터를 수용하는 일반 레포지토리도 다수 존재한다. 여러 분야에서 국가, 후원자, 기관 수준에서 데이터 공유 의무가 점점 더 보편화되고 있으며, 이 기회를 통해 자신의 분야에서 리더도 될 수 있다.
웰컴 오픈 리서치(Wellcome Open Research)의 Early Career Advisory Board Data Sharing 캠페인의 일환인 분야별 사례 연구를 참고하면 도움이 된다.
당신은 혼자가 아니다- 데이터를 공유하는 과정 곳곳에서 도움을 받을 수 있다.
“데이터 공유는 너무 힘들다”
데이터 공유는 힘든 것이 아니다!
데이터 공유를 위한 지원을 받을 수 있다.
많은 기관이 숙련된 연구 데이터 사서나 ‘데이터 담당자’를 통해 연구 데이터 관리를 지원한다.
데이터 담당자는 데이터 공유에 대한 전문가의 가이드라인을 지원하고, 데이터 관리 계획을 사용해 초기 계획을 쉽게 수립할 수 있다. 수많은 후원기관이 데이터 공유 촉진을 위해 수혜 연구자에게 서비스를 제공한다. (예, Springer Nature와 함께 진행한 Wellcome의 Research Data Service 파일럿). 이 외에도 많은 후원 기관들이 프로젝트 예산에 데이터 관리 비용 포함을 허용하기 시작했다. 향후 제안서에서는 리서치 데이터 관리 자원 할당도 중요해 질 것이다.
“내가 내 데이터의 공유 권한이 있는지 모르겠다”
공동 연구자에게 물어봐라.
데이터 공유를 포함해 최적의 연구 데이터 관리 방법에 대해서는 초기부터 모든 이해 관계자가 참여해 데이터 관리 계획을 세우고, 수행하는 것이 가장 좋다. 데이터 관리 계획을 통해 누가 데이터 공유 권한을 갖고 있는지, 언제, 어떻게 공유할 수 있는지를 명확히 할 수 있다.
데이터 오용에 대한 우려와 어떻게 데이터 공유하면 데이터 소유권과 크레딧을 얻을 수 있는지에 대한 고민은 우선 접어 두어라.
“내 데이터는 너무 민감한 데이터라 공유할 수 없다”
데이터는 ‘가능한 한 개방되고, 필요한 경우에 비공개’하는 것이 중요하다.
연구를 승인한 윤리위원회가 명시하는 데이터 공유 관련 지침과 참가자로부터 허가된 데이터 공유 권한 수준에 따라 익명 또는 제한된 액세스를 따르는 데이터셋을 공유할 수 있다.
여전히 데이터를 공유할 수 없는가?
그렇다면, 메타데이터를 공유해라! 데이터에 대한 설명 (흔히 ‘메타데이터 레코드’로 알려짐)을 공개적으로 게시할 수 있다. 이는 다른 사용자가 당신의 데이터를 발견할 수 있도록 도와주며, 데이터에 접근하고, 인용하는 방식에 대한 필수적인 정보를 제공한다.
예를 들어, 레포지토리에 데이터셋에 사용된 변수를 설명한 ‘데이터 코드북’ 또는 ‘데이터 사전’을 게시할 수 있다. 이 문서에 데이터 설명과 문서의 연관성을 확인시켜 주도록 당신의 논문을 인용할 수 있다. 마찬가지로, 데이터 이용 설명서의 일환으로 당신의 논문에 메타데이터 레코드를 인용할 수 있으며, 여기에는 데이터에 액세스할 수 있는 조건도 포함되어야 한다.
“내 데이터가 잘못 해석될 수 있다”
데이터 제공시, 다른 사용자가 데이터셋을 완전히 이해할 수 있도록 상황별 정보를 충분히 포함하는 것이 중요하다.
데이터 사전은 단위와 범위를 포함한 각 변수가 분리된 파일이며, 종종 데이터셋을 해석하는데 유용한 다른 정보를 포함하고 있다. 데이터 사전은 다른 사용자(또는 미래의 자신)가 데이터를 더 잘 이해할 수 있도록 하여 데이터 재사용과 재현성을 지원하고, 잘못된 해석을 피할 수 있도록 한다.
“내 데이터가 부적절하게 재사용될 수 있다”
데이터 사용을 유도하고, 부적절한 사용을 식별하기 위해서는 좋은 문서 (good documentation) 가 핵심이다. 데이터셋의 목적과 제한을 모두 충분히 기술한 메타데이터로 데이터를 지원하는 것이 중요하다.
중요한 데이터가 포함된 경우, ‘데이터 사용 계약’을 통해 데이터를 사용할 수 있는 조건을 명확히 한다.
“데이터를 공유해서 내 연구를 뺏길까 봐 걱정된다”
연구 결과를 뺏길 수도 있다는 우려가 실제로 있으나, 이 주장을 뒷받침하는 증거는 없다. 반면, 데이터 공유를 통해 데이터 소유권을 설정하면 저작권을 통해 데이터 소유권을 확인할 수 있다.
연구 결과 도용을 걱정하기보다는 연구 결과에 대해 인정받을 수 있는 가능성으로 받아들이도록 권한다. 제 3자에 의해 데이터가 재사용되는 경우, 연구자는 공식적인 데이터 인용을 통해 연구에 대해 인정 받게 될 것이다. (연구 데이터에 DOI가 반드시 있어야 하는 이유이기도 하다!) 그 결과, 새로운 공동 연구 기회를 얻을 수도 있다.
크게 생각해야 할 때다 - FAIR 데이터는 매우 중요하며, 이는 연구자와 커뮤니티에 혜택을 줄 수 있다.
“내 데이터가 다른 이용자에게는 유용하지 않다”
연구 데이터는 연구자가 생각하는 것보다 훨씬 더 널리 사용될 수 있다.
연구자 뿐만 아니라 정책 입안자, 교육자 등 다양한 이해관계자가 연구 데이터를 소비한다. 데이터 공유는 통합 분석을 촉진하는 동시에 작업 중복을 줄이는데 도움이 된다.
“지금 데이터를 공유할 경우, 추후 논문 게시에 영향을 줄 수 있다”
대다수의 저널과 출판사는 연구 논문의 참신성과 가치가 데이터 공유로 인해 훼손되지 않는다는 데 동의한다.
즉, 초기에 데이터를 공유하더라도 추후에 연구 논문을 출판하는데 영향을 미치지 않아야 한다. 이는 데이터셋과 관련된 출판물이 인용되는데 우위에 있다는 의미다.
“데이터를 공유할 수 있다. 추가 파일로 첨부하거나, 내 웹사이트에 올리거나 이메일로 데이터를 요청하도록 할 것이다”
공유한 데이터가 최대한의 널리 이용되도록 하기 위해서는 가능한 공정하게 데이터를 공유하는 것이 중요하며, 이것이 연구에 있어서 가능 유용하다. 다시 말해, 찾기 어렵고, 손실 되기 쉬웠던 기존의 데이터 공유 방식에서 벗어나 신뢰할 수 있는 데이터 레포지토리에 장기 보관하는 방식으로 데이터 공유 방식이 변화하고 있음을 의미한다.
“데이터를 공유하지 않더라도 내 경력에 해가 되지 않는다”
데이터를 공유하지 않더라도 경력에 해가 되지는 않을 것이다. 그러나 데이터 공유는 새로운 공동 연구 기회를 열어주고, 연구 결과가 인용될 수 있는 기회를 높여줄 것이다. 최근 팬데믹 비상사태가 증명하듯이 데이터를 공유하지 않을 경우, 매우 심각한 영향을 미칠 수도 있다.
공공 및 자선기금 모금 단체와 더불어 Wellcome은 데이터 공유가 보건 개선에 있어 더 빠른 진척을 가져오며, 돈의 가치를 높이고, 양질의 과학 발전에 기여한다고 믿는다.
더불어, 오픈 사이언스 인센티브 구조로 향한 추세도 변화하고 있다. 지금 데이터를 공유한 것이 언젠가 당신의 경력에 소중한 자산이 될 수 있다.
위 글은 F1000Research의 Hollydawn Murray 씨글을 번역하여 올린 글입니다.
https://blog.f1000.com/2020/08/20/i-aint-afraid-of-no-myth-busting-the-myths-on-data-sharing/
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다.
[기사 오류 신고하기]
최근 논문 출판 시장은 Open Science 개념에 기반한 Open Access, Open Peer review과 같이 투명성, 개방성, 고도화된 윤리성을 강화하는 방향으로 재편되는 추세이다. 이에 따라 세계적인 연구 기금 재단인 Wellcome trust 나 Bill & Melinda Gates 재단에서도 연구 발주 시 논문을 Open Access 로 출간할 것을 권고 또는 강제하기 시작하였으며, 심지어 자신들이 직접 플랫폼을 만들어 해당 플랫폼에 논문을 게재하도록 하고 있다. 유럽 내 최대 연구지원 단체인 EU집행위원회에서도 2020년 3월 F1000Research (https://f1000research.com/)을 공식플랫폼으로 선정하고 2021년부터 논문을 게재하도록 추진하고 있다. 해당 컨텐츠는 해외 연구자들과 학술교류 활동을 하는데 있어 한국 연구자들에게 관련 정보를 전달하고, 이해를 돕는 것을 목적으로 한다.
다른 연재기사 보기
전체 보기