최신 연구동향 정보를 제공하기 위해 생명과학관련 정보제공자를 모집합니다.
Bio리포트 동향리포트
인공지능 기술 연구의 연구재현성 문제: 헬스케어·바이오를 중심으로
김재호(교수신문)
목 차
1. 서론
2. 인공지능 기술 연구 동향
2.1. AI 적용 기술의 확산: 연구 도구
2.2. AI의 연구재현성: 문제점과 개선점
2.2.1. 문제점: ① 공개성 ② 민감성 ③ 주관성
2.2.2. 개선점: 문서화·표준화·집적화
3. AI와 연구재현성 이슈
3.1. AI 적용의 연구재현성 한계
3.2. AI의 연구재현성 이슈: 헬스케어
3.3. AI의 연구재현성 이슈: 바이오
4. 인공지능 기술의 미래
5. 결론
6. 참고문헌
그림과 표
그림 1. 「인간 팔의 모든 자유도를 재현해 내는 로봇팔」
그림 2. 「전체 과학적 작업흐름과 AI가 구현되는 형태·지점」
그림 3. 「생성형 AI 챗GPT는 과연 믿을 만한가」
그림 4. 「AI 콘퍼런스에서 논문으로 발표된 400개 알고리즘 분석」
그림 5. 「같은 알고리즘 적용 후 나타난 다른 방식의 결과」
그림 6. 「막대 모양의 가상 ‘유사 치타’ 테스트 결과」
그림 7. 「강화 학습 알고리즘 테스트 베드 '짐'」
그림 8. 「레파지토리 오픈 ML의 작동 방식」
그림 9. 「컴퓨터과학 분야의 오픈 액세스 피어리뷰 저널 <ReScience>」
그림 10. 「예측적 임상 AI 모델에 대한 연구의 보편적인 구성 요소」
그림 11. 「생물학 분야에서 AI 적용 논문에 대한 평가 적절도 응답」
그림 12. 「AI가 연구에 미치는 긍정적·부정적 영향」
그림 13. 「RENOIR의 워크플로」
그림 14. 「영화 ‘아틀라스’의 한 장면」
표 1. 「AI·로봇의 재현성 이슈와 실험·연구」
표 2. 「생명과학의 머신러닝 적용 연구를 위한 연구재현성 체크리스트」
표 3. 「AI의 연구재현성에 대한 과학자들의 말말말」
1. 서론
최근 만난 한 로봇 전문가는 로봇이야말로 연구재현성을 100% 구현 가능하게 해줄 수 있다고 강조했다. 실제로 미국에선 ‘약국 자동화’를 통해 일일이 약사들의 제조 과정을 동영상 촬영한다고 한다. 왜냐하면 의사의 처방대로 약을 제조해야 함에도 불구하고, ‘휴먼 에러’가 발생하기 때문이다. 그 사례는 한 해에 약 30만 건이다 [1]. 이러한 사례는 실험 재현성의 자동화에 해당한다. 즉, 하드웨어 기반의 재현성이다.
연구재현성을 달성하기 위한 싸움이 과학사라고 해도 과언이 아니다. 예를 들어, 1989년 3월 23일 공표된 ‘상온 핵융합’의 사례가 있다. 영국의 전기화학자 마틴 플레이슈만(1927~2012) 전 사우샘프턴대학교 교수와 미국 유타대 화학과 학장인 스탠리 폰즈는 실온 혹은 실온 근처에서 일어날 것으로 추정되는 핵반응 유형이 가능하다고 주장했다. 1억 도 씨 이상의 초고온 플라스마 상태에서 발생하는 핵융합 반응과 대조적이었다. 만약 가능하면 인류에게 엄청난 에너지를 제공할 수 있을 터였다. 하지만 연구가 재현되지 못했다. 그 이후에도 여러 시도가 있었지만 과학사에서 상온 핵융합은 퇴출의 길을 걷고 있다 [2-4].
로봇은 이미 인공지능과 연동돼 지능형으로 나아가고 있다. AI와 로봇이 하나가 되는 것이다. 인간과 좀 더 닮은 AI 로봇이야말로 인류의 꿈이다. AI는 인간을 닮으려 하고, 인간은 AI의 능력을 갈망한다. 그 과정에서 소프트웨어는 하드웨어화하고, 하드웨어는 소프트웨어화 하는 단계로 나아간다.
AI는 다음과 같이 정의된다. “코드(알고리즘) 또는 기계에 의해 표시되거나 시뮬레이션되는 지능으로 정의할 수 있다.”, “인간 지능의 기준에 따라 지능적이라 여겨지는 능력을 갖춘 기계의 과학 및 공학.”, “다양한 정보 처리 능력이 풍부하게 구조화된 공간.” 알고리즘은 “컴퓨터, 스마트폰, 기계, 로봇 또는 그것이 내장된 모든 것에 무엇을 해야 하는지 알려주는 조리법과 같은 일련의 명령들”이다 [5].
그런데 여기서 과연 ‘지능’이란 무엇인지 연구재현성 차원에서 고민할 필요가 있다. 고도의 지능을 갖춘 존재가 있다고 하더라도, 100% 재현은 쉽지 않다. 그 지점은 항상 가능성으로 남겨져 있다. 어제까지 잘 작동하던 AI 로봇이 어떤 이유에서인지 오늘 멈출 수 있다. 또한 생성형 AI한테 질문했을 때, 어제와 오늘 그리고 내일의 답변이 달라질 수 있다. 이는 AI 자체의 재현성 문제이며 일반적인 연구재현성과 질적으로 다르다.
예를 들어, 대형 언어 모델(LLM)의 오염 문제가 있다. LLM은 훈련 데이터에서 파생된 모델을 사용하여 텍스트와 이미지를 포함한 새로운 데이터를 생성한다. 그런데 이와 같은 생성형 AI 시스템의 경우 위험할 수 있다. 연구자들은 LLM 알고리즘을 사용하여 이미지의 해상도를 향상시킨다. 그러나 그 과정에서 세심한 주의를 기울이지 않으면 원본 데이터 이외의 인공물이 유입돼 오염될 수 있다 [6].
며칠 전 들른 한 식당에서는 서빙로봇이 활약하고 있었다. 음식을 담아 식당 이곳저곳을 돌아다니는 로봇은 반드시 ‘돌아가기’ 버튼을 눌러야 제자리로 되돌아갔다. 서빙로봇의 움직임은 아직 둔한 듯 보였고, 일을 하지 않을 때는 물건을 놓아두는 선반 역할을 했다.
물론 서빙로봇의 경우 돌아가기 버튼이 있는 경우도 있고, 자동 리턴되는 경우도 있다. 식당 손님들의 확인을 위해 돌아가기 버튼을 쓰는 편이다. 그럼에도 불구하고, AI 로봇의 현재는 불투명한 것 같았다. 미래는 어떨지 아무도 장담할 수 없다. 이 사례는 하드웨어 기반, 좁은 의미의 AI가 탑재된 경우라고 할 수 있다.
이 보고서에서는 크게 두 가지 차원에서 연구재현성을 다루고자 한다. 첫째, AI의 연구재현성이다. 이미지나 영상 분석, 텍스트 작성, 데이터 분석 등 연구·실험·논문 작성 등에 적용되는 AI다. 최근 주목받고 있는 대형 언어 모델의 생성형 AI도 포함된다. 예를 들어, 음성 인식 알고리즘 연구, 대규모 신경 정보 처리 시스템 구축, 망막 이미지 분석 등에 활용되는 AI가 있다. 둘째, 하드웨어 기반의 로봇 재현성이다. 이는 액체 핸들링 등 실험 자동화에 가깝다. 하드웨어의 자동화라고 해도 생성형 AI 등이 탑재돼 기능을 향상시킬 수 있다. 이 보고서에서 중점을 두는 분야는 첫째인 ‘AI의 연구재현성’이다.
이 보고서에서는 ‘연구재현성’(reproducibility)을 중심에 두고 논의를 이어가고자 한다. 연구반복성(repeatability), 연구복제성(replicability), 연구재현성(reproducibility)을 포괄적으로 ‘연구재현성’으로 사용한다. 연구반복성·연구복제성이 가장 협소한 개념이고, 그다음이 연구재현성이다. 가장 넓은 개념은 연구진실성이다 [7].
2. 인공지능 기술 연구 동향
2.1. AI 적용 기술의 확산: 연구 도구
가능하다면, 과학기술 분야에서 연구재현성은 시스템으로 고려할 필요가 있다. 시스템은 사람들이 참여하는 절차와 과정일 수 있고, 혹은 자동화 차원의 알고리즘일 수 있다. 이 둘은 동시에 작용하기도 한다. 문제는 과학자에 대한 믿음이 너무 커질 때다. 그래서 시스템에 기댈 필요가 있는 것이다. 아래 그림 2는 전체 과학적 작업흐름과 AI가 구현되는 형태·지점을 그래픽으로 보여준다. 헬스케어·바이오 분야에서도 아래 그림 2와 같은 형태로 AI가 적용된다.
과학저널리스트인 샘 킨은 잔혹한 과학사를 통해 비극적인 사건들을 파헤친 바 있다. 그는 “우리 문화는 과학자를 우러러본다. 우리는 정직성과 진실을 그 무엇보다 중시하는 사람들이 있다고 생각하길 좋아한다”라고 지적한다. 특히 “데이터를 얻기 위해(세계에 대한 이해를 증진시키기 위해) 비행을 저지르는 사람은 오직 과학자뿐”이라고 비판한다. 왜냐하면 과학자들은 성과에 대해 내외부적으로 심각한 압박을 받기 때문이다. 그래서 과학자들은 “과학 자체보다는 과학의 과시적 요소를 추구”하는 경향이 있다 [9]. 물론 모든 과학자가 그렇다는 일반화의 오류에 빠질 필요는 없다.
연구 도구로서 AI가 권장되고 AI 활용은 기하급수적으로 확산되고 있다. 그런데 생성형 AI가 작성한 논문이 우후죽순 생겨나면서 오히려 논문 철회가 급격히 늘어나고 있다. 극심한 경쟁과 실적 압박에 시달리는 과학자들은 시간에도 쫓긴다.
① 생성형 AI 적용: 논문 철회 늘어
2024년 3월, 미국 하버드대·이스라엘 히브리대 공동 연구진이 간의 손상 관련 「영상의학 사례 보고」를 엘스비어 간행 학술지에 게재했다. 하지만 논문에는 “미안하지만 나는 AI 언어모델이기 때문에 환자의 실시간 정보와 데이터에 접근할 수 없다”라는 말도 안 되는 문장이 들어가 있었다. 이 때문에 이 논문은 삭제됐다. 공동저자들은 이 논문 작성에 생성형 AI를 활용했다는 사실을 적시하지 않았다 [10].
위와 비슷한 사례가 과학계에 파장을 일으키고 있다. 대규모 언어 모델을 사용한 논문들이 쏟아져 나오고 있는 것이다. 이 때문에 그동안 잘 쓰지 않았던 ‘realm(영역)’·‘pivotal(중추적인)’ 표현들이 등장했다. 과학계에서 거의 쓰지 않았던 단어들인데, 챗GPT가 방대한 콘텐츠를 학습하면서 벌어진 일이다. AI가 연구 수행 방식을 바꾸고 있는 셈이다 [10].
AI가 연구 도구로 활용되면서 논문 철회 건 수도 폭발적으로 늘어났다. 지난해에만 1만 건 이상이 철회됐다. 이에 따라 <네이처>·<사이언스> 등은 연구 방법 차원에서 AI 활용 여부를 명기해야 한다는 원칙을 강조한다 [10]. 결국 중요한 건 사람이다. 과학자가 어떤 환경에서 연구하고 논문을 쓰느냐에 따라 연구 진실성과 재현성의 질은 달라질 수밖에 없다.
② 실험동물 행동 분석 AI: 방대한 데이터 반복 분석 가능해
AI·로봇이 가장 잘할 수 있는 부분은 1) 방대한 데이터에 대한 분류·분석과 2) 오랜 시간 동안의 작업 반복성에 있다. 인간이 접근하기에 어려운 지점은 바로 ‘규모와 지루함’이다.
실험동물의 행동 변화를 분석하는 프로그램이 주목받고 있다. 사람이 실험동물의 위치마다 프레임별로 행동 변화를 기록하던 것을 자동화하는 것이다. 이를 통해 궁극적으로 개발 약물의 효능성을 높일 수 있다. 특정 공간에 있는 실험용 생쥐를 인공지능 프로그램이 머리와 코 등 9개 포인트별로 골격 좌표를 생성해 분석한다. 특이한 행동 변화가 감지되면 생쥐에 약물을 투여하고 결과를 정량적으로 파악할 수 있다. [11]
그동안 사람이 실험용 생쥐를 촬영한 영상을 보고 프레임별로 행동 변화를 기록했다. 하지만 시간이 오래 걸리는 것뿐만 아니라 2.2.1에서도 살펴보겠지만 주관성이 개입할 가능성이 높다. AI는 행동 기준별로 10만 프레임을 학습할 수 있었다. 그 결과 AI는 미세한 골격 변화를 감지해 냈다. 이 바이오 기업은 다발성 경화증과 뇌전증 치료제 관련 동물실험에 AI를 적용했다 [11].
AI는 실험동물의 털 고르기 등 유사성이 있는 행동들을 따로 모아 분류할 수 있다. 따라서 실험동물뿐만 아니라 인간이나 원숭이 등 영장류의 행동 변화 분석과 이에 따른 약물 효과 등을 파악해 볼 수 있다. 기존의 행동 변화 분석은 앞으로의 행동도 예측할 수 있도록 해준다. AI는 휴머노이드 로봇의 이상행동 감지에도 활용될 전망이다 [12]. 물론 정밀도에 대한 판단은 결국 사람의 몫이다.
행동 분석 AI는 아마도 연구재현성을 높이기 위해서 가장 주목해야 할 분야일 것이다. 영상 데이터 분석은 행동 변화의 스펙트럼과 그에 따른 지정 변수(함숫값)가 상대적으로 제한적이다. 그만큼 돌발 행동이나 변수를 컨트롤하기가 비교적 수월할 수 있다는 뜻이다.
③ 로봇 자동화: 환경·로봇마다 다른 작동 방식
HW·SW 기반의 연구재현성에 대해서도 우려가 제기됐다. 바이오 실험에서 ‘액체 핸들링’ 과정은 90% 이상을 사람이 진행한다. 이를 AI·로봇으로 자동화하려는 것이다. 액체 핸들링에는 스포이트로 시약 등을 검체로 옮기는 과정 등이 포함된다. 사람이 하다 보니 재현성이 떨어지고 유해 물질에 노출되거나 오염이 발생하는 등 문제가 있다 [13].
실험실에서는 시료와 검체 분석 등 액체를 다루는 일이 많다. 그런데 액체 핸들링을 사람이 하다 보니, 연구자에 따라 차이가 발생한다. 또한 시간도 많이 걸린다. 이 때문에 웹 기반 SW 솔루션을 제공하는 로봇 자동화를 실현하려는 것이다. 액체 핸들링 로봇 자동화는 약물 스크리닝 과정에서 효율성을 높일 수 있다. 하지만 소규모 실험에서 활용이 쉽지 않다는 점, 연구 환경에 따라 로봇마다 작동 방식이 다를 수 있다는 점 등이 문제점으로 제기됐다 [13].
이 때문에 AI·로봇이 가진 한계점을 극복하려는 ‘스마트연구실(맞춤형 금속 나노입자 설계 플랫폼)’도 등장했다. 기술의 한계점을 기술로 극복하는 것이다. 스마트연구실로 효율성을 높이고 안전사고를 미리 대비한다. 각각 다른 연구 환경과 로봇의 작동 방식을 최대한 ‘맞춤형’으로 설계하는 셈이다 [14]. 맞춤형은 표준화와 집적화의 세부 단계로 나아간다.
2.2. AI의 연구재현성: 문제점과 개선점
AI 연구자 중 약 5%가 소스 코드를 공유하고, 그중 3분의 1 미만이 연구 논문에서 테스트 데이터를 공유한다. 즉, AI 연구의 3분의 1 미만이 재현·검증 가능하다. 이 때문에 AI의 (연구) 재현성 문제가 발생한다 [15].
「재현 가능한 AI: 왜 중요하고 2024년에 이를 개선하는 방법은 무엇인가?」에 따르면, AI의 재현성이란 다음과 같다. 동일한 환경 내에서 동일한 데이터 세트와 AI 알고리즘을 사용해 동일하거나 유사한 결과를 얻을 수 있는 능력을 의미한다. AI의 재현성 관련해서 중요한 건 세 가지다. ① 데이터 세트는 AI 알고리즘이 예측을 위해 입력값으로 사용하는 학습 데이터 세트를 의미한다. ② AI 알고리즘은 △모델 유형 △모델 매개변수 △하이퍼 매개변수 △기능 △기타 코드로 구성된다. ③ 환경은 알고리즘을 실행하는 데 사용되는 소프트웨어 및 하드웨어를 나타낸다. AI 시스템에서 재현성을 달성하려면 세 가지 구성 요소 모두의 변경 사항을 추적하고 기록해야 한다 [15].
AI의 재현성은 AI 연구와 ‘비즈니스 AI 애플리케이션’ 두 차원에서 중요하다. 첫째, AI/ML(머신러닝) 연구의 경우, 과학적 발전은 연구 결과를 면밀히 조사하고 재현하는 독립적인 연구자의 능력에 달려 있다. 재현성이 부족하면 과학적 생산과 마케팅 사이의 경계가 모호해진다 [15].
둘째, 비즈니스 AI 애플리케이션의 경우 재현성을 통해 오류 가능성이 적은 AI 시스템을 구축할 수 있다. 오류가 줄어들면 비즈니스에 도움이 되며 고객은 어떤 구성 요소가 특정 결과로 이어지는지 이해할 수 있으므로 신뢰성과 예측 가능성이 향상된다. 이는 의사결정자가 AI 시스템을 확장하고 더 많은 사용자가 AI 시스템의 혜택을 누릴 수 있도록 설득해 여러 팀 간의 의사소통과 협업을 개선하는 데 필요하다 [15].
2.2.1. 문제점: ① 공개성 ② 민감성 ③ 주관성
① 공개성
첫 번째는 공개성이다. 그 어떤 창작자도 자신의 모든 영업 비밀을 공개하지 않는다. 특히 소프트웨어·로봇 전문가들은 AI와 인공지능으로 인해 자신의 직업을 잃을지 모른다는 두려움이 가장 큰 사람들이다. 따라서 한 번 공개된 소스 코드와 노하우는 되돌리기 어렵다. 그래서 오픈소스라는 대명제에 부응하면서 동시에 자신의 비밀을 지키기 위해 일부 공개라는 전략을 취한다. 마치 콘텐츠에 대한 미리 보기·미리 듣기와 같다. 이게 바로 AI와 연구재현성에 가장 중요한 첫 번째 문제점이다. 즉, 코드 공개에 대한 여부가 관건이다.
2019년의 연구에 따르면, AI의 방법을 사용하는 255개의 논문 중 63.5%만이 연구재현성을 담보했다. 그래서 캐나다 몬트리올에 있는 맥길대학교의 컴퓨터 과학자이자 기업 ‘메타’의 AI 연구 부사장이기도 한 조엘 피노(Joelle Pineau)는 나중에 원저자가 데이터와 코드를 적극적으로 제공하면 연구재현성이 85%까지 증가할 수 있다고 강조한 바 있다. 이 때문에 AI 방법을 적용하는 논문에 대한 연구개발 프로토콜이 제안됐다. 표준화된 머신러닝 연구재현성을 기준으로 삼아 평가하자는 것이다 [6].
물론 연구재현성을 위해 충분한 세부 정보를 제공하는 것은 쉽지 않다. AI를 포함해 그 어떤 컴퓨터과학에서도 어렵다. 네덜란드 에인트호번공과대학교의 컴퓨터 과학자 호아킨 반쇼렌은 “매우 영향력이 큰 AI 모델 중 다수는 적어도 코드를 거의 제공하지 않는 대기업에 의해 만들어졌다”라며 “연구자들은 때때로 자신의 코드가 대중의 검사를 받을 준비가 돼 있지 않다고 생각하기 때문에 코드 공개를 꺼린다”라고 강조했다 [6].
“<사이언스>, <네이처> 등 저널에 게재된 AI 논문에도 코드가 없는 경우가 많다.” <사이언스>는 지난 2018년 2월 16일 자 분석 기사 「인공지능, 재현성 위기에 직면하다」를 통해 “코드가 공개되지 않고 알고리즘 학습 조건이 민감하기 때문에 많은 주장을 검증하기 어렵다”라고 지적했다 [16, 17].
2017년 캐나다 몬트리올대학교의 컴퓨터 과학자들은 ‘새로운 음성 인식 알고리즘’을 선보이고 싶었다. 그래서 그 알고리즘을 유명한 과학자의 알고리즘 기준(벤치마크)과 비교하고 싶었다. 유일한 문제점은 기준이 되는 알고리즘의 소스 코드가 공개되지 않았다는 것이다. 그래서 연구자들은 공개된 설명 정도만을 바탕으로 재현에 나서야 했다. 하지만 기준이 되는 알고리즘에서 주장하는 성능과 일치하는 버전의 알고리즘을 얻을 수 없었다. 몬트리올대학교의 박사과정생인 난 로즈마리 케(Nan Rosemary Ke)는 “우리는 두 달 동안 노력했지만 근처에도 다가갈 수 없었다”라고 토로했다. [16]
급성장하고 있는 AI 분야는 지난 10년 동안 심리학·의학 등 여러 분야를 괴롭혔던 것과 마찬가지로 연구재현성 위기를 겪고 있다. AI 연구자들은 과학 분야에서 여러 연구 결과들을 재현하는 것이 어렵다는 걸 알게 됐다. 이 때문에 연구 및 실험하는 방법과 출판할 때의 규약(프로토콜)에 관해서 이전과는 다른 성실성(conscientiousness) 문제를 불러일으킨다 [16, 17].
보르도에 있는 프랑스 국립 컴퓨터 과학 및 자동화 연구소의 컴퓨터 신경과학자인 니콜라스 로져는 “실제 현장에서 연구하는 사람들은 자신이 코드를 보유하고 있어 연구재현성이 일정 부분 보장된다고 생각할 수 있지만, 실제 상황은 그렇지 않다”라고 말했다. 2018년 2월 초, 국제 인공지능 학회(AAAI) 회의가 열렸다. 미국 루이지애나주 뉴올리언스에서 개최된 회의에서 연구재현성이 안건이었다. 일부 팀은 연구재현성 문제를 진단했고, 한 팀에서는 문제를 완화하기 위한 도구를 제시했다 [16, 17].
가장 기본적인 문제는 AI 학회의 회의임에도 연구자들이 소스 코드를 공유하지 않는 경우가 많았다는 점이다. AAAI 회의에서 400개 알고리즘에 대한 분석 결과가 공유됐다. 두 곳의 주요 AI 콘퍼런스에서 이전에 수년 동안 발표된, 400개의 논문 속에 포함된 알고리즘이었다. 발표자는 오드 에릭 군더센(Odd Erik Gundersen)이었다. 그는 트론헤임에 있는 노르웨이 과학기술대학교의 컴퓨터 과학자이다. 그 결과, 논문을 게재한 연구자들 중 단지 6%만이 알고리즘 코드를 공개한다는 것이 드러났다. 그 가운데 약 30%만이 알고리즘을 테스트한 데이터를 오픈했다. 54%는 ‘의사(擬似) 코드’(프로그램을 실행하기 전에 기계어로 바꿔야 하는 코드)를 공개했다. 의사 코드는 제한된 형태의 알고리즘 요약본이다. [16, 17]
알고리즘 공유 차원에서 세부 사항이 누락된 이유는 여러 가지이다. 그 코드들이 △ 연구 수행 중인 경우 △ 회사가 소유한 경우 △ 연구 경쟁 우위에 서려고 일부 연구자가 꽉 쥐고 있는 경우 등이 있다. 또는 공개되지 않은 다른 코드에 종속적인 코드일 경우도 있다. 아울러, 손상된 디스크나 도난당한 노트북에서 코드가 단순히 유실되었을 수도 있다. 니콜라스 로져는 이를 “내 개가 내 프로그램을 먹어버린 문제”라고 표현했다 [16].
역설적이게도 너무 많은 데이터 유출이 오히려 연구재현성 위기를 촉발시킬 수 있다. 최근 머신러닝을 이용한 연구가 연구재현성 위기를 악화시키고 있다는 분석이 있다. 머신러닝의 특성상 너무나 많은 자료를 활용하다 보면, 데이터 왜곡이 발생할 가능성이 있기 때문이다. 가장 두드러진 문제는 모델이 사전에 학습하는 데이터 세트에 나중에 평가되는 데이터가 포함되는 ‘데이터 유출’이다. <네이처>는 「AI가 과학의 재현성 위기를 증폭시키나?」라는 주제로 심층 보도한 바 있다. 다양한 분야에서 머신러닝을 이용한 연구가 신뢰성을 저하시킨다는 것이다 [17, 18].
미국 프린스턴대 연구원들은 실제로 340개의 논문을 조사했다. 이들은 17개 분야에서 각각 20개의 리뷰 논문을 분석한 결과, 340개 중 329개의 논문에서 머신러닝 적용 방법에 따라 연구재현성이 심각하게 떨어졌음을 발견했다. 그 이유는 연구자들이 통계학적 방법에 지나치게 의존했기 때문이다. 예를 들어, 2019년에 발표된 의학 관련 AI 활용 이미지 연구 논문 2만 개를 분석한 결과, 이 중 5%만이 유효했다. 즉, 극소수만이 임상 환경에서 적용할 수 있을 만큼 충분히 설명되어 있었다 [17, 18].
② 민감성
두 번째는 같은 알고리즘이라고 해도 다른 결괏값이 도출될 경우가 있다는 점이다. 바로 (훈련) 조건 민감성이다. 예를 들어, 같은 제품이자 같은 사양인 AI 서빙로봇을 비슷한 식당에 적용시킨다고 해보자. A라는 식당과 B라는 식당이 거의 똑같은 환경이라고 해도, 다르게 작동하거나 한 곳에서 오류를 일으킬 수도 있다. 영화 「바이센테니얼 맨」(감독 크리스 콜럼버스, 2000)에 등장하는 앤드류 마틴이라는 휴머노이드가 수많은 다른 휴머노이드와 다른 행동(결괏값)을 보인 것과 마찬가지다.
원본 코드를 가져와 실행할 수 있다고 가정하더라도 여전히 예상한 대로 작동하지 않을 수 있다. 컴퓨터가 경험을 통해 전문 지식을 도출하는 머신러닝(ML)이라는 AI 영역에서는 알고리즘을 위한 훈련 데이터가 성능에 영향을 미칠 수 있다. 난 로즈마리 케 박사과정생은 음성 인식을 위한 훈련 데이터 기준을 알지 못한 점에 의구심을 품었다. 이 때문에 연구팀이 실패한 게 아니냐는 것이다. “알고리즘을 실행할 때마다 무작위성이 있다.”, “정말 정말 운이 좋으면 적절한 데이터로 알고리즘을 실행할 수 있다. 대부분의 연구자들이 이렇게 보고한다 [16]. ”
AAAI 회의에 몬트리올의 캐나다 맥길대학교 컴퓨터 과학자인 피터 헨더슨이 참석했다. 그는 시행착오를 통해 학습하도록 설계된 인공지능의 실행이 △ 사용된 정확한 코드 △ 훈련을 시작하기 위해 생성된 난수 △ ‘하이퍼파라미터’(알고리즘의 핵심은 아니지만 얼마나 빨리 학습하는지에 영향을 미치는 설정)에 매우 민감하다는 것을 보여주었다 [16].
헨더슨은 다양한 조건에서 이러한 ‘강화 학습’ 알고리즘 중 여러 개를 실행했으며 매우 다른 결과를 발견했다. 예를 들어, 모션 알고리즘에 사용되는 막대 모양의 가상 ‘유사 치타(half-cheetah)’는 한 테스트에서 질주하는 방법을 배울 수 있었다. 하지만 다른 테스트에서는 질주하지 못하고 바닥에서 몸부림쳤다 [16].
③ 주관성
세 번째는 주관성의 문제다. 인간 과학자가 연구재현성을 평가하는 것은 매우 주관적일 수밖에 없다. 아무리 뛰어난 전문가라고 해도 편견을 배제할 수 없다.
예를 들어, AI 알고리즘과 머신러닝을 활용해 특정 국가가 언제 내전에 빠질지 예측하는 모델을 개발했다고 가정해 보자. 혁신적인 모델을 만들어낸 것이다. 이러한 경우, 심사자나 동료 연구자들이 그 모델에 쉽게 동의하지 않을 가능성이 크다. 그들의 기준에 맞춰 모델을 수정하다 보면, 그 모델은 일반적인 사회과학 모델로 전락할 위험이 있다. 또한, 머신러닝 기법을 적용하는 과정에서 실수가 발생했을 때, 그 실수를 지적하는 것 역시 주관적일 수밖에 없다. 객관적인 판단을 위해서는 머신러닝과 해당 분야에 대한 전문성이 필수적이다 [17, 18].
머신러닝을 습득하는 것도 쉽지 않다. 다수의 화학 연구자들은 머신러닝에 대한 특정한 기법들을 신속히 따라잡기가 어렵다. 순수 화학 연구에만 매진하기에도 벅차다. 아울러, 동료 평가자들 역시 각 연구에 맞춤형으로 적용되는 머신러닝 모델을 일일이 살펴볼 만큼 여유가 없다 [17]. 현대의 과학 연구가 대규모화 하면서 더욱 복잡해졌기 때문이다.
2.2.2. 개선점: 문서화·표준화·집적화
연구재현성에서 중요한 건 문서를 공유하는 것이다. 결론을 도출한 실험은 제3자와 공유되는 문서 형식으로 설명돼야 한다 [8]. 그러므로 표준화·집적화가 공유 차원에서 더욱 중요해질 수밖에 없다.
연구재현성을 위해 필수 구성 요소를 문서화하지 않으면 기계 학습을 다른 영역에 적용하거나 개선할 수 없다 [15].
컴퓨터 과학자 피터 헨더슨은 연구자들이 AI 실행에서 주요 세부 사항을 더 많이 문서화해야 한다고 말했다. “우리는 더 나은 실험 절차와 더 나은 평가 방법을 갖기 위해 연구 현장에 압박을 가하고 있다 [16].”
「인공지능 연구의 재현성을 향상시켜 신뢰도와 생산성을 높이기」에 따르면, 문서화 관련해서 실험은 두 종류로 나뉜다. 첫째, 전 과정이 아니라 실험 자체에 대해서만 보고하는 종류다. 이러한 경우 실험 문서를 작성해 보고서 형식으로 공유한다. 분석은 일반적으로 통계 소프트웨어인 SPSS 또는 Excel 등을 사용해 수행되거나 R, Matlab 및 Python과 같은 언어의 코드로 작성되며 제3자와 공유할 수도 있다. 보고서는 실험 자체에 대해서만 작성하기 때문에 결과에 영향을 미칠 수 있는 세부 정보를 생략하는 경우가 많다 [8].
둘째, 전 과정이 보고되는 종류의 실험이다. AI와 머신러닝을 활용한 대부분의 연구에서 주로 보고된다. 이러한 종류의 실험은 실험 자체에 대해서만 보고하는 종류보다 분명한 이점을 가지고 있다. 전체 워크플로는 종종 완전히 캡처돼 코드로 문서화될 수 있다. 이로써 어떤 단계가 어떤 순서로 수행됐는지, 어떤 매개변수와 임곗값이 사용됐는지에 대한 모호성을 제거한다 [8].
실험의 모든 단계가 코드로 구현되더라도 전 과정이 보고되는 종류의 실험은 여전히 코드로 완전히 설명되지 않는다. 그 이유는 라이브러리·프레임워크·운영 체제와 같은 보조 소프트웨어는 물론 실행할 하드웨어에도 의존하기 때문이다. AI와 머신러닝을 활용해 전 과정이 보고되는 종류의 실험에서는 실험을 설명하는 코드 외에 보조 소프트웨어, 하드웨어 및 데이터가 문서에 지정되어 있지 않으면 완전히 문서화되지 않은 것이다. 기술 솔루션을 통해 지원될 수 있는 전체 문서에는 이러한 설명도 포함돼야 한다 [8].
실험 자체에 대해서만 보고하는 종류에서도 실험을 수행할 때 사용되는 장비를 지정하는 것이 중요하다. 이는 화학 및 물리학 학생들이 실험실 과제의 일부로 가장 먼저 배우는 것이다. 하드웨어와 소프트웨어의 선택으로 인해 편향이 발생할 수 있기 때문이다 [8].
그렇다면 AI의 재현성을 어떻게 향상시킬 수 있을까? 하나의 실마리는 바로 ‘MLOps(머신 러닝 운영)'이다. MLOps는 머신 러닝과 데브옵스의 합성어이다. MLOps는 기계 학습 모델을 더욱 안정화하고 효율화하려는 것을 목표로 하는 패러다임이다. 데브옵스는 소프트웨어 개발과 운영을 합친 말로써 개발자와 전문가 간의 소통·협업·통합을 강조하는 개발 환경이다 [15, 20, 21].
다시 말해, MLOps는 기계 학습 시스템의 구축 및 배포 프로세스를 표준화하고 간소화하기 위한 일련의 사례이다. 데이터 수집부터 모델 관리까지 기계 학습 애플리케이션의 전체 수명주기를 다룬다. MLOps의 특징은 표준화·집적화로 압축된다 [15].
재현성을 촉진하는 일부 MLOps 도구 및 기술은 다음과 같다 [15].
1) 실험 추적: AI 및 ML 모델 개발은 실무자가 데이터세트, 모델 매개변수, 코드 등 다양한 모델 구성요소를 실험하는 반복 프로세스이다. 실험 추적 도구는 이러한 실험에 대한 중요한 정보를 구조화된 방식으로 추적하는 데 도움이 된다.
2) 데이터 계보: 기록 및 시각화를 통해 데이터의 출처와 데이터에 어떤 일이 발생하는지, 데이터 수명주기 동안 데이터가 이동하는 위치를 추적한다.
3) 데이터 버전 관리: AI 시스템은 기본 환경의 변화를 반영하는 동적 데이터 세트에 의해 훈련되는 경우가 많다. 데이터 버전 관리 도구는 특정 시점에 생성되거나 변경된 다양한 버전의 데이터를 저장하는 데 도움이 된다.
4) 모델 버전 관리: 다양한 모델 유형, 매개변수, 하이퍼 매개변수 등을 사용해 AI 모델의 다양한 버전을 추적하고 비교할 수 있도록 도와준다.
5) 모델 레지스트리: 모든 모델과 해당 메타데이터의 중앙 저장소이다. 이는 데이터 과학자가 다양한 시간에 다양한 모델과 해당 속성에 액세스 하는 데 도움이 된다.
6) 특성 저장소: 특성은 AI 모델로 해결하려는 문제와 관련된 훈련 데이터의 속성이다. 특성 추출 후 특성 저장소는 더 쉽게 재사용할 수 있도록 데이터의 다양한 특성을 표준화하고 저장한다.
과학 연구자들은 경고한다. 이미 틀린 데이터에 토대를 둔 AI 활용으로 무용한 연구들이 마구잡이로 쏟아지고 있다고 말이다. 그래서 견고하고 재현 가능한 연구를 위해 ‘모듈식 오픈 소스 플랫폼’을 요청했다. 이러한 플랫폼을 통해 표준화·집적화에 한 걸음 더욱 다가가기 위해서다. 모듈화·라이브화는 표준식 파이프라인을 통해 더욱 투명하고 검증 가능한 연구재현성을 꿈꾸게 해 준다 [17].
컴퓨터 과학자 핸더슨의 실험은 캘리포니아 주 샌프란시스코에 본사를 둔 비영리 단체 오픈AI가 만든 ‘짐(Gym)’이라는 강화 학습 알고리즘 테스트 베드에서 수행됐다. 짐을 만드는 데 도움을 준 오픈 AI의 컴퓨터 과학자인 존 슐만은 짐을 이용한 수행이 실험을 표준화하는 데 도움이 된다고 말한다. “짐 이전에는 많은 사람들이 강화 학습을 연구하고 있었지만 모두가 실험을 위해 자신만의 환경을 준비했기 때문에 여러 논문에서 결과를 비교하기가 어려웠다 [16].”
IBM 연구소는 AAAI 회의에서 연구 재현을 지원하는 또 다른 도구를 제시했다. 이 도구는 공개되지 않은 소스코드를 자동으로 재생성하는 시스템으로 연구자의 노력을 며칠 또는 몇 주 절약하게 해 준다. 즉, 다른 신경망을 재현하도록 설계된 신경망이다. 신경망은 뉴런과 유사한 작은 계산 단위의 층(레이어)으로 구성된 기계 학습 알고리즘이다 [16].
IBM 연구소의 도구는 신경망을 설명하는 차트나 다이어그램을 찾는 AI 연구 논문을 스캔하고, 해당 데이터를 각각의 레이어와 연결점으로 분석하고, 새로운 코드를 통해 네트워크를 생성한다. 이 도구는 현재 수백 개의 공개된 신경망을 재현했으며, IBM은 그 결과들을 개방형 온라인 저장소에서 사용할 수 있도록 할 계획이다 [16]. 네덜란드 에인트호번공과대학교의 컴퓨터 과학자인 호아킨 반쇼렌(Joaquin Vanschoren)은 연구 재현도구가 될 가능성이 있는 또 다른 저장소(레파지토리)인 오픈 ML(Machine Learning)이라는 웹사이트를 만들었다. 알고리즘·데이터 세트뿐만 아니라 관련된 모든 세부 정보가 포함된 800만 개 이상의 실험·수행을 오픈 ML에서 관리한다. “당신이 수행하는 실험은 문서화되지 않은 가정과 결정으로 가득 차 있다. 이러한 세부 사항 중 많은 부분이 결코 논문으로 공개되지 않는다 [16].”
심리학계는 연구재현성을 선호하는 문화를 조성해 부분적으로 연구재현성 위기를 해결했고, AI 컴퓨터과학 분야도 같은 일을 시작했다. 2015년 니콜라스 로져는 연구재현성 전문 컴퓨터 과학 저널인 <리사이언스(ReScience)>의 창간을 도왔다. 대규모 신경 정보 처리 시스템 콘퍼런스에서는 가능한 경우 웹사이트에서 발표된 논문의 소스코드를 연결하기 시작했다. 난 로즈마리 케 연구자는 다가오는 콘퍼런스에 제출된 논문들이 연구 재현될 수 있도록 연구자들을 초대하는 ‘연구재현성 도전’ 조직을 만드는 데 기여하고 있다. 그녀는 학생들에 의해 거의 100개의 연구 재현 시도가 진행 중이며, 이에 대해 학생들은 학점을 얻을 수 있다고 말한다 [16].
그러나 AI 연구자들은 연구재현성을 위해 노력해서 얻는 이점이 그다지 크지 않다고 생각한다. 모든 조건에서 알고리즘을 테스트할 시간도 없고, 시도한 모든 하이퍼파라미터를 문서에 기록할 공간도 없다. 동료 심사 없이 매일 ‘아카이브’(arXiv: 출판 전 논문들을 게시하는 무료 논문 오픈사이트)에 온라인으로 게시되는 논문들이 많기 때문에, 연구자들은 빨리 출판해야 한다는 압박감을 느낀다. 아울러, 많은 연구자들이 실패한 연구재현의 보고를 꺼린다. 특히 젊은 연구자들은 선배 연구자를 비판하길 망설인다. 핸더슨은 연구재현에 대해 솔직하게 말하는 문화가 조성돼야 한다고 강조한다 [16].
3. AI와 연구재현성 이슈
3.1. AI 적용의 연구재현성 한계
AI의 연구 적용에서 나타나는 문제점은 크게 세 가지로 압축된다. 첫째, ‘시간적 유출’이다. 앞서 '2.2.1. ① 공개성'에서 언급한 데이터 유출은 감지하기 어렵다. 시간 차이를 둔 누출은 훈련 데이터에 테스트 데이터보다 늦거나 빠른 시점의 정보(points)들이 포함되는 경우다. 이러한 경우는 미래가 과거에 달려 있기에 문제가 된다. 예를 들어, 2011년 발표된 논문은 트위터 사용자의 기분을 분석하는 모델을 활용해 87.6%의 정확도로 주식 시장의 종가(closing value)를 예측할 수 있다고 주장했다. 그러나 연구팀이 일부 훈련 세트보다 이전 기간의 데이터를 사용해 모델의 예측력을 테스트했기 때문에 알고리즘이 효과적으로 미래를 볼 수 있었다 [18].
둘째, ‘좁은 데이터 세트’ 문제다. 궁극적으로 반영하려는 모집단보다 좁은 데이터 세트에 대한 훈련 모델을 적용하는 경우다. 예를 들어, 흉부 엑스레이에서 폐렴을 발견하는 AI가 노인들에게만 훈련된다고 해보자. 그렇다면 그 AI가 젊은 사람들을 대상으로 할 때는 정확도가 떨어질 수 있다 [18].
예를 들어, 캘리포니아 팔로알토에 있는 구글 헬스팀 사례가 있다. 연구원들이 개발한 AI는 실명을 유발할 수 있는 당뇨병성 망막병증의 징후가 있는지 망막 이미지를 분석하는 데 사용됐다. 구글 헬스팀의 다른 연구진이 태국의 병원에서 실험했을 때, 이 시스템은 고품질 스캔으로 학습되었기 때문에 최적이 아닌 조건에서 촬영된 많은 이미지를 거부했다. 즉, 연구재현 자체가 안 된 것이다. 높은 거부율로 인해 환자와 더 많은 후속 진료 예약이 필요했고, 이는 불필요한 업무량으로 이어졌다 [6].
셋째, ‘지름길 의존’의 문제다. 알고리즘이 항상 유지되지 않는 지름길에 의존하게 되는 경우가 많다. 예를 들어, 컴퓨터 비전 알고리즘은 대부분의 소 이미지에서 잔디 배경으로 소를 인식하는 방법을 학습할 수 있다. 그런 경우, 산이나 해변에 있는 동물의 이미지를 만나면 소를 인식하기가 어렵다 [18].
한 전문가는 AI 자체에 대한 연구(컴퓨터 과학, 데이터 사이언스 등)의 70%가 재현 불가능하다고 강조했다. 권위 있는 AI 콘퍼런스에서 발표된 연구 중 단 5%만이 어떤 가설이 테스트됐는지 명시했다. 특히 단 6%만이 어떤 연구 질문에 답하고 있는지 명시적으로 밝혔다. AI에 대한 연구의 연구재현성은 △ 이미지 인식 △ 자연어 처리 △ 시계열(time series) 예측 △ 강화 학습 △ 추천 시스템 및 생성적 적대 신경망 등에서 문제가 나타났다. 아울러, AI와 머신러닝 자체에 대한 연구에서 재현 불가능성의 원인은 6가지 유형으로 나뉠 수 있다. △ 연구 설계 요소 △ 알고리즘 요소 △ 구현 요소 △ 구현 요소 △ 관찰 요소 △ 평가 요소 △ 문서화 요소 [8].
더욱이, AI 자체에 대한 연구에서 과연 재현성은 무엇일까? 동일한 코드가 다른 컴퓨터에서 실행되며 동일한 데이터를 사용하는 경우, AI 자체에 대한 재현성 실험은 원래와 동일한 환경인 것일까? AI를 포함한 컴퓨터 과학에서 재현성 실험의 계산 실행 결과는 원래 실험과 동일할 수 있다. 이는 일부 계산 실험의 고유한 결정론 때문이다. 반대로 의학·생물학·심리학 등에서는 동일한 결과를 산출할 가능성이 많이 없다. 이 같은 분야에서 실험은 인간과 살아있는 물질을 포함하며 결정론과는 거리가 있다 [8].
자기 연구에서 필요한 결과를 얻을 때까지 AI를 계속 사용할 수 있는 것도 문제다. 캔자스주립대의 컴퓨터 과학자인 리오르 샤미르(Lior Shamir) 교수는 “AI는 결과가 기대에 부합할 때까지 연구자가 데이터와 매개변수를 ‘사용’할 수 있는 도구를 제공한다”라고 지적한 바 있다 [6].
3.2. AI의 연구재현성 이슈: 헬스케어
2020년 말 코로나19 팬데믹 기간 동안 일부 국가는 바이러스 감염에 대한 진단 키트가 부족했다. 그래서 흉부 엑스레이로 코로나19 감염을 진단하는 아이디어가 매력적으로 들렸다. 인도의 한 연구팀은 기계 학습을 토대로 일련의 엑스레이 이미지를 분석해 감염된 사람과 감염되지 않은 사람을 AI가 확실히 구분할 수 있다고 보고했다. 이와 관련된 한 논문은 900회 이상 인용됐다 [6].
하지만 이듬해 9월, 캔자스주립대학교의 연구원들이 좀 더 상세히 들여다봤다. 연구원들은 동일한 이미지들을 기반으로 머신러닝 알고리즘을 학습시켰다. 그러다가 신체 부위가 전혀 보이지 않는 빈 배경 부분만 활용해 보았다. 그런데도 AI는 여전히 코로나19 확진자를 확률 수준 이상으로 찾아낼 수 있었다. 문제는 머신러닝 알고리즘이 학습한 데이터 세트 중 의료 이미지의 배경에 일관된 차이가 있다는 점이었다. 그 차이를 AI가 파악해 낸 것이다. 악화가 양화를 구축한 셈이다. AI 시스템은 임상적으로 관련된 특징을 학습하지 않고도 이러한 인공물을 포착해 진단 작업에 성공할 수 있었다. 그러나 임상 관련 특징을 학습하지 않은 AI 시스템은 의학적으로 쓸모가 없다 [6].
기계뿐만 아니라 과학자도 훈련이 필요하다. 헬스케어 분야에서 AI를 적용시키고 있는 미국 드폴대학교의 연구원 케이시 베넷은 “과학적 가설을 테스트하기 위해 머신러닝을 적용하는 적절한 방법이 있는데, 많은 과학자들은 이 분야가 아직 비교적 새로운 분야이기 때문에 제대로 훈련받지 못했다”라고 비판했다. 그녀는 “흔히 저지르는 실수가 계속해서 반복되는 것을 많이 본다는 점”이라며 헬스케어 연구에 사용되는 머신러닝에 대해 “지금은 마치 서부 시대(개척 시기)와 같다”라고 말했다 [6].
2022년 파리에 있는 프랑스 국립 디지털 과학기술 연구소(INRIA)의 데이터 과학자들은 국제 챌린지를 진행했다. 자기공명영상(MRI)으로 얻은 뇌 구조 데이터로 자폐 스펙트럼 장애를 정확하게 진단할 수 있는 알고리즘을 개발하는 것이었다. 이 챌린지에서 61개 팀의 알고리즘 589개가 제출되었으며, 그중 우수한 10개 알고리즘(대부분 머신러닝을 사용)은 유전자형을 사용하는 기존 진단 방법에 비해 MRI 데이터를 사용하여 더 나은 성능을 보인 것으로 나타났다 [6].
그러나 이러한 알고리즘은 일반성이 떨어졌다. AI 모델을 훈련하고 테스트하기 위해 팀에게 제공된 공개 데이터에는 잘 작동했지만, 비공개로 유지된 다른 데이터 세트에는 제대로 일반화되지 않았다. 이는 앞서 ‘2.2.1. 문제점: ① 공개성’와 ‘3.1. AI 적용의 연구재현성 한계’(좁은 데이터 세트)에서 언급한 문제이다. 즉, 데이터 유출을 방지하려고 소규모 데이터 세트를 통해 방법을 개발하고 테스트하는 것이 본질적으로 해당 데이터에 항상 ‘과적합(overfitting)’하게 될 것이라는 지적이다. 데이터의 특정 패턴에 너무 밀착하여 AI 방법론이 일반성을 잃게 되는 셈이다 [6].
AI는 향상된 질병 진단·위험 예측·치료 최적화를 가능하게 해 주기에 헬스케어 분야에서 중요하다. 여기서 핵심 키워드는 질병 ‘예측‘과 치료 ‘최적화‘다. 특히 연구재현성과 임상 타당성, 대중의 신뢰를 위해서 AI 연구에 대한 투명하고 포괄적인 보고가 중요하다고 지적된다. 결함이 있거나 불완전한 보고로 인해 다음과 같은 위험이 발생할 수 있다 [22].
▷ 과장된 성능: 데이터 유출이나 대표성 없는 데이터 세트 등의 기술적 단점으로 발생
▷ 평가할 수 없는 임상적 유용성: 결과를 독립적으로 검증하기 어려움
▷ 업데이트 어려움: 현장이 발전함에 따라 모범 사례를 지속적으로 개발해야 함
▷ 통찰력 부족: 윤리적 위험·편견·한계에 대한 통찰력 부족
위와 같은 위험들은 세 단계에서 분석이 가능하다. 첫째, 인간의 실수다. 주관성이 개입하거나 의도적으로 데이터를 누락시키는 경우가 발행할 수 있다. 통찰력이 부족한 건 실수라기보다는 인간의 한계에 가깝다. 둘째, AI 자체의 한계다. 너무 많은 데이터로 인해 평가가 어려워지거나 편견이 개입하는 경우다. 또한 수시로 바뀌는 현장을 지속적으로 업데이트하기가 어려워 연구재현성에 영향을 미친다. 셋째, 환경 자체의 도달 불가능성이다. 최적의 데이터가 갖춰졌더라도 질병에 대한 진단·예측·치료가 불가능할 수 있다. 예를 들어, 인류는 여전히 알츠하이머가 왜 발생하는지 근본적 원인을 모른다. 가장 흔한 감기조차 정복하지 못한 상황이다.
현재 AI를 의료 데이터 사용하는 연구에 대해서 보편적이고 양질인 보고 표준(reporting standard)이 없다. 예를 들어, 의료 영상 연구를 규제하는 ‘클리어(CLEAR)’ 지침이 있다. 전문가들이 <커뮤니케이션즈 메디신>에 발표한 검토에 따르면, 26개 보고 지침 중 12개는 특정 의료 분야만을 다룬다. 26개 보고 지침 중 20개는 AI 기반 모델의 임상 평가에 대한 전방위적 연구가 아니라 전임상 또는 중개 연구만을 대상으로 한다 [22].
초기 단계 전임상 연구에 대한 가이드라인은 소수의 임상시험 가이드라인에 비해 세부 전문 분야가 좁고 포괄적인 합의 절차 없이 개발되는 경우가 더 많았다. 보편적이고 양질인 보고 지침의 부족은 결국 헬스케어 분야에서 발표된 AI 연구의 일부만이 투명하고 포괄적인 보고가 가능하게 끔 했다 [22]. 그 결과, 헬스케어 분야에서 AI의 연구재현성을 더욱 부족하게 만들었다. 그래서 그림 10에 제시된 권장된 항목을 눈여겨볼 필요가 있다.
3.3. AI의 연구재현성 이슈: 바이오
전문가들은 세포 유형에서 얼굴 인식에 이르기까지 AI에 의한 이미지 분류에 성공한 것으로 알려진 여러 사례들을 분석했다. 그랬더니 이미지의 공백이나 의미 없는 부분에서도 비슷한 결과가 나온다는 사실을 발견했다. 이 알고리즘은 ‘세포가 없는 세포’와 ‘얼굴이 없는 얼굴’을 인식하는 데 우연보다 더 나은 성능을 보였다 [6]. 하지만 생물의학에서 잘못된 분류는 생사의 문제가 될 수 있다. 캐나다 토론토대학교의 컴퓨터 생물학 연구원인 벤자민 하이브-카인스는 “AI가 놀랍도록 유연하고 조정 가능하고, 모델 개발에 대한 엄격함이 부족해 너무 많은 여지를 제공한다”라고 말했다 [6]. 생물학 분야에서 AI가 적극 도입되고 있지만 질적 수준은 오히려 악화하고 있는 걸로 나타났다. 과학 연구자들은 AI를 적용한 연구가 과학의 가치를 오히려 망가뜨린다고 우려했다. 이 때문에 국제적으로 연구 리소스가 낭비되고 있다는 지적이다. 2000년 이후, 생물학 관련 AI 적용 출판물은 약 8배 늘었다. 하지만 이 저작들은 연구재현성이 떨어지고 연구 결과를 범용화하기 어려웠다 [17, 23].
실제로 1,659명을 대상으로 <네이처>가 설문조사를 실시했다. AI 적용 논문을 관계자들이 제대로 평가할 수 있는지 물었다. 이에 대해 AI 프로그램을 직접 개발하지 않고 적용만 한 연구자 498명 중 절반은 “잘 모르겠다”라고 답변했다. 25%는 “그렇다”라고, 나머지 25%는 “안 그렇다”라고 답했다. 반면 AI 프로그램을 직접 만든 연구자들은 좀 더 낙관적으로 답했다 [17, 23].
문제는 과학자의 전문성 부족과 적절한 데이터의 공개 여부이다. 던컨 왓슨 패리스 미국 캘리포니아대 샌디에이고 캠퍼스 교수(스크립스 해양학 연구소)는 논문을 평가하는 이들이 전문적인 기술을 충분히 보유하고 있지 않다고 지적했다. 특히 여러 논문들이 기초적인 오류를 담고 있거나 연구재현성을 높일 수 있는, 밑바탕이 되는 데이터가 모자란다고 밝혔다. 많은 연구자들은 더욱 보편적인 AI 적용이 가능하다고 예상했다. 그러나 그 연구 과정에 대해서는 중대한 염려를 나타냈다 [17, 23].
AI는 분명 장점이 있다. 노스캐롤라이나주 더럼 소재의 듀크대학교 컴퓨터 생물학자인 아이린 카플로(Irene Kaplow)는 “생물학적 질문에 답하는 데 이전에는 진전이 불가능했었는데, AI로 인해 발전을 이룰 수 있었다”라고 강조했다. 설문에 응답한 절반 이상은 AI가 데이터를 처리하는 데 속도를 높여준다면서 시간과 비용을 절약할 수 있다고 보았다. 그런데 또한 절반 이상은 AI에 대한 잘못된 사용은 사기를 유발하거나 연구재현성을 불가능하게 만든다고 우려했다. 코네티컷 주 파밍턴에 있는 잭슨 연구소에서 암의 이미지 분석을 연구하는 제프리 추앙 박사는 “가장 큰 문제는 AI가 증거와 진실에 대한 기존 표준에 도전한다는 것”이라고 지적했다 [23].
현재 이사벨라 데겐은 영국 브리스톨대에서 의학 분야에 AI를 사용하는 연구 관련 박사과정을 밝고 있는 소프트웨어 엔지니어이자 전 기업가이다. 데겐은 “대규모 언어 모델의 오용이 분명히 있다”라며 “부정확하고 공허하지만 전문적인 결과인 것처럼 보이는 연구결과들은 창의성이 부족하다”라고 비판했다 [23].
규모의 문제도 지적된다. 옥스퍼드대학교의 화학자이자 신약 발견용 프로그램 개발 작업을 하고 있는 가렛 모리스는 대형 언어 모델의 원리가 생물정보학·혈액정보학에서 유사한 모델을 구축하는 데 유용하게 적용될 수 있다고 강조했다. 하지만 모델이 극도로 커야 한다고도 당부했다. 그는 “지구상에서 소수의 기업만이 매우 큰 모델을 훈련할 수 있는 능력을 갖추고 있다. 이를 위해서는 많은 수의 GPU(그래픽 처리 장치)가 필요하고 이를 몇 달 동안 실행할 수 있으며 전기 요금을 지불할 수 있는 능력이 필요하다. 장치와 비용의 제약으로 인해 종류의 발견을 수행하는 과학의 능력이 제한되고 있다”라고 우려했다 [23].
특히 적절한 리뷰어를 찾는 것도 힘들다. 익명의 한 일본인 응답자는 “편집자로서 머신러닝 방법과 머신러닝이 적용되는 과학에 모두 익숙한 리뷰어를 찾기가 매우 어렵다”라고 답했다 [23].
특히 바이오 분야에서는 신체나 세포 대사 등 살아 있는 생명체를 다루는 경우가 많다. 이 때문에 앞서 ‘3.1. AI 적용의 연구재현성 한계’에서 언급된 결정론이 낄 틈이 많이 없다. 왜냐하면, ‘A이면 B이다’라는 식의 환원주의적 결정론이 어렵기 때문이다. 예를 들어, 유전자 변형 식품(유전자 변형 생물(GMO)을 만들어 특정 유전자가 특정 형질에 어떤 영향을 미치는지 연구하는 실험이 있다. 하지만 특정 유전자를 변형하면 예상치 못한 방식으로 다른 유전자나 생물학적 경로에 영향을 끼칠 수 있다. 또한 많은 형질은 한 유전자가 아니라 다수의 유전자에 의해 조절되기에 전체적인 효과를 예측하기 어렵다.
그럼에도 불구하고 환경과 상호작용을 종합적으로 고려하는 건전하고 좋은 환원주의에 기댈 수밖에 없다 [24]. 문서화·표준화·집적화를 통한 연구재현성은 더욱 그러하다. AI가 적용되는 바이오 연구 분야에서는 ‘결정론적으로 설정된 분석 구성 요소’ (표 2)가 중요하다. 결정론을 어느 수준까지 간주하느냐에 따라 실험과학의 연구재현성을 담보하는 수준이 좌우된다.
그렇다면 AI 기반의 과학적 연구에 대한 표준 체크리스트가 대안이 될 수 있다. 32개의 질문으로 구성된 한 체크리스트에는 △데이터 품질 △모델링 세부 사항 △데이터 유출 위험 등의 요소가 포함된다. 생명과학·화학 등 특정 분야에 대한 다른 체크리스트도 있다 [6].
AI 커뮤니티에서는 ‘DOME(데이터, 최적화, 모델 및 평가)’, ‘MI-CLAIM(임상 인공지능 모델링에 대한 최소 정보)’, ‘MINIMAR(의료 인공지능 보고를 위한 최소 정보)’ 등의 가이드라인과 체크리스트를 제안했다 [25].
생명과학의 머신러닝 적용 연구를 위한 연구재현성 체크리스트는 컴퓨터 계산과학적 차원에서 고려된다. △데이터 △모델 △코드 공개 △프로그래밍 모범 사례 △작업 흐름(워크플로) 자동화를 기반으로 하는 표준이 제안되는 것이다. 이 표준을 충족함으로써 생명과학에 기계 학습법을 적용하는 연구자 커뮤니티는 자신의 분석이 신뢰할 만한 가치가 있다는 것을 보장할 수 있다 [26].
머신러닝 적용의 생명과학이 신뢰할 수 있고 검증 가능한 연구를 주도하기를 원한다면, 컴퓨터 계산과학적인 적용으로 재현성에 대한 표준을 설정하는 것이 좋은 출발점이다. 아래는 상-중-하(원문에서는 ‘금-은-동’임)로 나눠 컴퓨터 계산과학적으로 연구재현성이 점차 증가하도록 표준 보고의 체크리스트가 제시된 것이다 [26].
‘하’는 분석에 사용된 데이터, 모델, 코드를 공개적으로 제공한다. ‘하’는 연구재현성을 위한 최소 표준이다. ‘중’은 ‘하’보다 △ 단일 명령으로 종속성(dependencies) 설정 △ 주요 분석 내용이 기록됨 △ 결정론적으로 설정된 분석 구성 요소이 추가됐다. ‘중’은 연구재현성을 위한 최소 표준과 완전 자동화 사이의 중간 지점이다. ‘상’은 단일 명령으로 전체 분석이 재현 가능하다. 연구재현성에 대한 최적의 표준은 완전 자동화이다. 연구가 ‘상’을 충족하면 과학자가 연구를 재현하는 데 드는 노력이 거의 필요하지 않다 [26].
최근 연구에 따르면, 생명과학 분야에서 AI의 학습 측면에 초점을 맞춘 모듈식 오픈 소스 플랫폼인 ‘RENOIR’도 주목된다. RENOIR는 ‘기계 학습을 위한 반복적 무작위 샘플링’(REpeated random sampliNg fOr machIne leaRning)의 약어다. RENOIR는 강력하고 연구재현 가능한 기계 학습 분석을 위해 훈련 및 테스트용 리샘플링을 사용하여 만들어졌다 [25].
RENOIR는 샘플 크기에 대한 알고리즘 성능의 의존성과 같은 참신한 요소를 도입한다. 모델 훈련과 테스트를 위해 표준화된 파이프라인을 채택함으로써 말이다. 예를 들어, RENOIR는 STEM(과학, 기술, 공학, 수학) 분야와 더불어 암 유전자 SET2D의 손실과 TP53의 돌연변이의 기능적 영향을 연구하는 데 성공적으로 적용됐다. 또한 RENOIR는 약물 효능을 예측하는 중요한 약리학 과제를 해결하는 데도 사용됐다 [25].
RENOIR 워크플로는 네 가지 단계로 구성된다. 1) 초기 선택적 전-처리 단계: 비지도 특성 선택(unsupervised feature selection)을 통해 특성 분석을 위한 공간 차원을 줄임 2) 학습 방법을 평가하는 단계: 선택한 기법을 사용하여 모델을 맞추고, 다중 리샘플링 접근법을 기반으로 제외된 데이터를 가늠 3) 앞의 평가 단계를 기반으로 특징 중요도 점수를 계산하는 단계 4) 대화형 보고서 생성 단계 [25].
4. 인공지능 기술의 미래
‘인공지능이 진화한다’라는 표현이 이제 진부할 정도다. AI는 로봇과 융합해 이젠 구분이 희미해지고 있다. AI가 곧 로봇이며, 로봇이 곧 AI인 시대다. 그러다가 점차 AI와 인간의 경계도 흐릿해질 수 있다. 포스트휴먼·트랜스휴먼이라는 용어가 이제 낯설지 않다. 현대인은 아침에 일어나서 음성 인식 인공지능과 대화를 나눈 후 하루 종일 스마트폰을 켜고 산다.
2019년 ‘배아 연구과학자 대 인공지능’의 능력을 비교한 실험이 있었다. 배아의 질을 누가 더 잘 평가하느냐를 따졌다. 배아학자 각각의 판단과 인공지능의 판단이 대다수 배아학자의 평가와 일치하는지 살펴본 것이다. 구글의 이미지 인식 시스템을 활용한 소프트웨어는 12,000장의 배아 사진을 분석해 학습했다. 그 결과, 인공지능이 더욱 우수했다 [28].
물론 그렇다고 인공지능이 여성의 임신 가능성을 높이는 데 임상적 효능이 있다는 것은 아니다. 다만, 인공지능은 일관성 있게 대다수 배아학자의 평가와 같은 결정을 내렸다는 점에서 시사하는 바가 있다. 그렇다. 지금은 딱 이 수준이다. 그런데 앞으로 지속적인 업그레이드가 이뤄지면, 특정 염색체에 문제가 있는 배아를 선별함으로써 좀 더 정확하게 배아를 판단할 수 있게 될 것이다 [28].
생체 분자의 3차원 구조를 밝혀내는 작업은 구조생물학·생물리학·계산생물학에서 중요하다. 현재 약 20만 개의 생체분자들(단백질과 핵산)의 구조가 드러났다. AI 덕분이다. 다수의 과학자는 ‘특정 단백질 서열로부터 서열의 고유한 3차원 구조를 빠르게 컴퓨터를 이용해서 밝혀낼 수 없을까?’라는 '단백질 구조 예측 문제'의 질문을 던졌다. 이를 구글 딥마인드의 AI 프로그램 ‘알파폴드’가 해결에 나섰다. 현재까지 여러 생명체들로부터 약 2억 개의 단백질 서열 구조들이 예측돼 데이터베이스로 공개됐다. 알파폴드로 인해 신약 개발에 속도가 붙을 것이라는 전망이다 [29]. 구글 딥마인드의 두 개발자는 알파폴드(1·2·3) 개발의 공로를 인정받아 ‘2024 노벨화학상’을 수상했다.
하지만 알파폴드의 놀라운 성과에도 불구하고, 두 가지 문제점이 있다. 이는 앞서 언급한 ‘환원주의적 결정론’의 차원에서 문제점이다. 첫째, 수십 개의 단백질들이 결합해 복합체를 구성할 경우다. 현재 알파폴드가 명확한 성능을 보이는 경우는 “하나의 사슬로 이루어진 단백질의 구조 예측”이다. 둘째, 단백질 구조의 유연성·동역학적 특성의 반영 문제다. “현재 알파폴드의 예측은 단백질이 가질 수 있는 한 가지의 고정된, 가장 안정한 상태의 구조를 주게 된다 [29].”
과학적 연구는 추론과 추론의 연속으로 이뤄져 있다. 그런데 인공지능 전문가들은 인공지능의 한계를 명확히 지적한다. 한마디로 현시점에서 인간처럼 추론하는 인공지능은 어렵다. 문태섭 서울대 전기정보공학부 교수는 현재 진행되고 있는 데이터의 양, 컴퓨터의 기능, 학습 패러다임으로는 인간 같은 추론이 어렵다고 지적했다. AI 등 컴퓨터는 메가바이트 이상 수준의 전기를 쓰지만, 인간의 뇌는 단 30와트 정도만 있으면 추론이 가능하다. 아울러, 강승식 국민대 인공지능학부 교수는 챗지피티 관련, 신뢰 부분이 90% 정도이고 나머지 10%는 신뢰할 수 없는 부분이라고 설명했다 [30].
인공지능 기술의 미래는 비판적 성찰에 달렸다. 석봉래 미국 앨버니아대 교수(철학과)는 “현재의 인공지능이 차세대 인공지능으로 발전하기 위해서는 기존의 알고리즘에 갇혀 기계 학습과 연산을 반복하는 ‘확률론적 앵무새’가 되어서는 안 된다”라며 “마치 습관과 편견을 벗어나는 불교적 깨달음의 과정처럼, 알고리즘을 따르면서도 그것을 넘어서서 알고리즘 자체를 비판적으로 성찰할 수 있는 능력을 가져야 할 것이다”라고 지적한 바 있다 [31].
중요한 건 갈수록 더욱 많이 AI가 과학적 연구에 적용되면서 연구재현성을 돕기도 하고 해치기도 한다는 점이다. 그 중심에는 사람이 있다. 어떤 데이터를 어떤 모델로 어떻게 적용하느냐는 결국 사람의 손에 달렸다. 모든 기술이 그렇지만, 그 기술을 사용하는 주체가 누구냐에 따라 기술의 양면성이 다르게 다가온다. AI는 사람에 의존하고, 사람은 AI에 의존하는 형국이다.
5. 결론
영화 「아틀라스」(브래드 페이튼 감독)는 중요한 질문을 던진다. 과연 인류는 인공지능을 얼마큼 믿어야 할까? 영화에는 인류에 헌신하는 AI ‘스미스’와 투쟁하는 AI ‘할란’이 등장한다. 특히 인상적인 건 AI와 뉴럴 링크를 통해 인간과 동기화하는 장면이었다. 과연 그런 날이 정말 올까? 그렇다면 미래의 AI는 인류에게 가장 단순한 작업을 도와주는 종류부터 인류와 대척하는 수준의 AI까지 다양하게 존재할 수밖에 없다. 착한 AI와 나쁜 AI라는 이분법적 환원주의를 넘어 정말 제각각의 AI가 나올 수밖에 없다. 현재 AI와 로봇 기술도 광대한 스펙트럼이 존재한다. 특히 영화 「아틀라스」에서 인상적이었던 건 인간과 투쟁하는 AI ‘할란’이 왜 나쁜 생각을 품게 되었는가 하는 점이다. 그건 인간 때문이었다. 인류는 자연환경을 파괴했고, 이 때문에 암울한 미래의 모습이 예상된다. 아울러, 인류는 인류끼리 학살하는 것을 넘어 AI와 로봇을 포함해 자신을 둘러싼 모든 것을 파괴하는 경향이 있다. AI ‘할란’은 이점을 알아채고 인류와 투쟁하기 시작했다.
그래서 “인간은 끔찍하다”라는 주장도 일부 설득력이 있다. 최근 출간된 『AI 경제학: 경제 시스템의 판도 변화』는 “인공지능의 편향은 발견 가능하고 대처 가능하다”라며 “교육에서 의료에 이르기까지, 은행업에서 치안에 이르기까지 모든 영역에서 새로운 인공지능 시스템 단계 솔루션은 차별을 줄이도록 설계하고 실행할 수 있다”라고 강조했다. 연구재현성 차원에서도 충분히 귀 기울일 만한 지적이다. ‘2.2.1. 문제점: ③ 주관성’에서 서술했듯이, 인간의 편향은 고치기가 쉽지 않다. 그렇다면 AI의 연구재현성을 위해 기댈 건 AI 시스템뿐일지도 모르겠다. “인공지능 시스템은 지속적이고 소급적인 모니터링이 가능해 차별 제거에 지속적으로 성공할 수 있다. 하지만 인간을 고치는 것은 정말이지 쉬운 일이 아니다 [32].”
인공지능 기술 연구의 연구재현성은 실험재현성으로, 실험재현성은 일상의 자동화로 연결될 것이다. 인류는 지금보다 더욱 효율적이고 편리한 생활을 누리게 될 것이다. 그 가운데 발생하는 시행착오와 오류는 온전히 인류의 몫이다.
최근 『넥서스』로 돌아온 유발 하라리 예루살렘 히브리대학교 역사학과 교수는 AI에 대해 심각한 우려를 제기했다. 그는 AI가 도구가 아니라 행위자로서 인간의 모든 것을 대신하는 상황을 우려한다. AI보다 인간의 행위와 판단이 더욱 중요해진다는 지적이다. 하라리 교수는 책의 에필로그에서 “스스로의 힘을 견제하는 균형 잡힌 정보 네트워크를 만들어낼 수 있다”라며 우리가 지혜로운 네트워크를 구축하기 위해서는, 정보에 대한 순진한 관점과 포퓰리즘적 관점을 모두 버리고, 무오류성이라는 환상에서 벗어나 강력한 자정 장치를 갖춘 제도를 구축하는 힘들고 다소 재미없는 일에 전념해야 한다“라고 강조했다. AI 기술의 연구재현성 문제 차원에서도 경청할 만하다 [33].
요컨대, AI가 연구 도구로서 적용되는 범위가 확산되고 있다. 첫째, 논문 작성에 직접 개입해 수많은 논문이 철회되는 지경에 이르렀다. 둘째, 실험동물 행동에 대한 방대한 데이터를 반복적으로 분석하는 데 활용되고 있다. 셋째, 액체 핸들링 등 실험 자동화에 로봇이 쓰이고 있다. 하지만 작업 환경에 따라 작동 방식이 다를 수 있다는 문제점이 있다.
AI의 연구재현성은 “동일한 환경 내에서 동일한 데이터 세트와 AI 알고리즘을 사용해 동일하거나 유사한 결과를 얻을 수 있는 능력”을 뜻한다. 그런데 소스코드 등 데이터가 제대로 공개되지 않고 기준점이 제시되지 않아 재현이 어렵다. 반대로 머신러닝 등에서는 너무 많은 데이터가 시간 차를 두고 유출됨으로써 데이터 왜곡이 발생하기도 한다.
특히 학습과 훈련 조건의 민감성은 AI의 연구재현성에서 중요한 이슈다. 유사한 환경에서 같은 알고리즘을 적용해도 미세한 차이로 인해 다른 결괏값을 나타낼 수 있다. 아울러, 연구재현성을 판단하는 인간의 주관성 문제 역시 배제할 수 없다.
따라서 AI 적용에서의 연구재현성을 담보하기 위해 ‘문서화·표준화·집적화’가 가능한 모듈식 오픈 소스 플랫폼과 테스트 베드, 문화 운동이 필수다. 구체적 예시로는 △ MLOps(머신 러닝 운영) △ 강화 학습 알고리즘 테스트 베드 ‘짐’ △ IBM 연구소의 소스코드 자동 재생성 시스템 △ 레파지토리 오픈 ML △ 연구재현성 전문 컴퓨터 과학 저널 <리사이언스(ReScience)> 등이 있다.
AI의 연구재현성은 ① 시간적 차이를 둔 데이터 유출 ② 좁은 데이터 세트 문제 ③ 지름길 의존의 문제가 있다. 모든 분야가 이 세 가지 지점에서 AI의 연구재현성 이슈를 그대로 드러낸다.
헬스케어 분야에서 AI의 연구재현성은 연구결과가 과연 임상 차원까지 적용될 수 있느냐가 관건이다. 코로나19 감염에 대한 흉부 엑스레이 분석 AI는 기계 학습 차원에서 부족한 데이터를 가지고도 감염 여부를 판단해 내는 능력을 선보였다. 임상적 특징에 대한 학습 없이도 AI가 진단해 낸 결과는 의학적으로 쓸모가 없다. MRI로 얻은 뇌 구조 대한 데이터를 토대로 하여 자폐 스펙트럼 장애를 진단할 수 있는 경우에도 마찬가지였다. 비공개 데이터 세트에서 AI는 일반화되지 않았다. 일종의 ‘과적합’이다.
이로 인해 의료 영상 연구에 대한 ‘클리어(CLEAR)’ 지침과 같이 헬스케어 분야에서 보고 표준이 중요해진다. 보편적인 보고 지침의 구성 요소는 △ 임상적 근거 △ 데이터 △ 모델 훈련과 검증 △ 비판적 평가 △ 윤리 및 재현성 차원에서 고려된다.
바이오 분야에서 AI의 연구재현성은 ‘세포가 없는 세포’의 이미지 분석에서 효능을 나타내는 문제점이 발생했다. 엄격함이 없는 셈이다. 2000년 이후 바이오 관련 AI 적용 출판물은 약 8배 늘었지만 연구재현성은 급격히 떨어졌다. AI 프로그램을 직접 개발하지 않고 적용만 한 연구자들의 절반은 평가가 제대로 될 수 있는지에 대한 물음에 75%가 잘 모르겠거나 아니다고 답했다.
그래서 AI 토대의 과학적 연구에 대한 표준 체크리스트를 눈여겨볼 필요가 있다. 예를 들어, 생명과학의 머신러닝 적용 연구에 대한 연구재현성 체크리스트는 ‘결정론적으로 설정된 분석 구성 요소’가 포함되며 컴퓨터 계산과학적 차원에서 제시된다. 또한 AI의 학습 측면에 초점을 맞춘 모듈식 오픈 소스 플랫폼인 ‘RENOIR’도 눈길을 끈다. RENOIR는 암 유전자 관련 기능 연구와 약물 효능 관련 연구에서 성공적으로 사용됐다.
아래는 이 보고서에서 언급된 과학자들의 AI의 연구재현성 관련 언급을 정리한 것이다.
6. 참고문헌
==>첨부파일(PDF) 참조
저자 김재호 저자 김재호는 ‘개인의 자유와 사회적 공리의 갈등과 조정’ 연구로 석사학위를 받았다. 현재 교수신문에서 과학, 학술 부분의 연구를 15년째 진행 중이다. 학부에서 수학을, 대학원에서 철학을 전공하고 학술기자, 탐사보도 연구원 등으로 일했다. 현재 <교수신문>의 과학·학술 팀장이다. 지금은 과학커뮤니케이션 차원에서 환경과 생태에 대한 고민이 많다. <동아일보>에 '과학에세이', <포스코투데이>에 '과학의 발견'을 연재한 바 있다. 현재 <브릭>에 '김재호의 생태에세이'를 연재 중이다. 《레이첼 카슨과 침묵의 봄》, 《다시 과학을 생각한다》(공저), 《인공지능, 인간을 유혹하다》(공저) 등을 집필하였다. 약력 지와이네트웍스 부소장(2018-2020) 교수신문 학술부(2012-2019) 서울대학교 철학과 석사과정(2003-2006) 주 연구 분야 (1) 과학커뮤니케이션 (2) 생태학 (3) 윤리학 |
본 게시물의 무단 복제 및 배포를 금하며, 일부 내용 인용시 출처를 밝혀야 합니다.
자료열람안내
본 내용은 BRIC에서 추가적인 검증과정을 거친 정보가 아님을 밝힙니다.
내용 중 잘못된 사실 전달 또는 오역 등이 있을 시 BRIC으로 연락(view@ibric.org) 바랍니다.