[DEBUG-WINDOW 처리영역 보기]
즐겨찾기  |  뉴스레터  |  오늘의 정보 회원가입   로그인
BRIC홈 동향
ACROBIOSYSTEMS
배너광고안내
이전
다음
스폰서배너광고 안내  배너1 배너2 배너3 배너4
BioLab 장재봉 교수
전체보기 Bio통신원 Bio통계 BRIC View BRIC이만난사람들 웹진(BioWave)
목록
조회 11726  인쇄하기 주소복사 트위터 공유 페이스북 공유 
바이오통신원   
[바이오토픽] 사전 없이 스스로 이중언어 배우는 인공지능
생명과학 양병찬 (2017-11-30)


@ news.vanderbilt.edu

인간의 뇌에서 영감을 얻은 컴퓨터 알고리즘인 신경망(neural network; 참고 1) 덕분에, 언어자동번역은 장족의 발전을 했다. 그러나 그러한 신경망을 훈련하려면 엄청난 양의 데이터가 필요하다. 즉, 한 사람이 언어를 번역하는 과정을 배우려면 수백만 개의 문장대문장번역(sentence-by-sentence translation) 사례가 필요할 것이다. 이제 "신경망은 병렬문장들(parallel texts) 없이도 번역을 학습할 수 있다"고 밝힌 논문이 두 편 발표되었다. 이는 각양각색의 언어로 작성된 문서들에 대한 접근성을 향상시킬 수 있는 놀라운 진보라고 할 수 있다.

"한 사람에게 중국어책과 아랍어책 각각 여러 권씩 주고, 중국어를 아랍어로 번역하는 방법을 스스로 배울 것을 요구한다고 상상해 보자. 단, 그중에서 내용이 겹치는 책은 하나도 없다고 하자. 그건 당연히 불가능해 보인다"라고 두 논문 중 하나의 제1저자인 스페인 바스크 대학교(UPV)의 미켈 아르테체 박사(컴퓨터과학)는 말했다. "그러나 우리는 컴퓨터가 그 일을 해낼 수 있음을 증명했다."

대부분의 머신러닝, 즉 신경망 등의 컴퓨터 알고리즘이 경험으로 배우는 과정은 일종의 '감독' 내지 '지도'를 받는다. 즉, 컴퓨터는 하나의 추측을 한 후에 정답을 제시받고, 틀리고 맞음에 따라 자신의 번역방법을 바로잡거나 강화하게 된다. 하나의 컴퓨터가 예컨대 영어와 불어를 양방향으로 번역할 경우, 이런 방법은 잘 작동한다. 왜냐하면 양쪽 언어로 작성된 문서들이 많이 존재하기 때문이다. 그러나 희귀한 언어의 경우에는 그렇지 않으며, 설사 많이 사용되는 언어일지라도 병렬문장이 존재하지 않는다면 사정은 마찬가지다.

이번에 발표된 두 편의 논문들은 내년에 열리는 표현학습에 관한 국제 컨퍼런스(International Conference on Learning Representation)에 제출된 것으로 아직 동료심사를 받지 않았는데, 공통점이 하나 있다. 그것은 자율학습, 즉 무감독 머신러닝(unsupervised machine learning; 참고 2)이라는 방법을 사용한다는 것이다.

무감독 러닝머신의 자율학습 방법은 다음과 같다: (1) 먼저, (추측이 맞았다고 이야기해 주는) 인간 교사의 도움 없이 이중언어사전(bilingual dictionary)을 구축한다. 이것이 가능한 이유는, '단어들끼리 무리 짓는 방법'이 모든 언어에서 매우 비슷하기 때문이다. 예컨대 '책상'과 '의자'를 의미하는 단어들은 모든 언어에서 - 바늘 가는 데 실 가듯 - 세트로 사용되는 경우가 많다. 그러므로 컴퓨터가 이런 동시발생(co-occurrence)에 관한 지도를 작성한다면(참고 3), 상이한 언어에 대한 지도들은 서로 비슷할 것이다. 즉 이 지도를 거대한 도로지도라고 하고, 각 단어들을 도시의 이름이라고 하면, 도시의 이름들만 다를 뿐 두 지도는 동일하다고 볼 수 있다. (2) 다음으로, 일단 두 장의 지도가 완성되었다면, 컴퓨터는 한 장의 지도를 다른 지도 위에 덮어씌우는 최선의 방법을 이해할 수 있다. 어라, 이중언어사전이 완성되었네? 이게 이중언어사전이 아니면 뭐란 말인가?

이번에 발표된 두 편의 논문에서, 연구진은 매우 비슷한 방법을 이용하여 '문장 수준의 번역'이 가능함을 보여줬다. 두 연구진 모두 두 가지 훈련전략을 사용했는데, 하나는 역번역(back translation)이고 다른 하나는 노이즈 제거(denoising)다. (1) 먼저 역번역의 경우, A 언어의 한 문장을 B 언어로 대충 번역한 다음, 이렇게 만들어진 B 언어의 문장을 A 언어로 다시 번역한다. 만약 역번역한 결과가 오리지널과 다르다면, 신경망은 - 다음 번에는 원문에 좀 더 가깝게 번역할 수 있도록 - 번역방법을 바꿀 것이다. (2) 노이즈 제거의 경우 역번역과 비슷하지만(A → B → A), 번역한 문장에 노이즈(단어의 재배열 또는 제거)를 추가한 다음 원어로 재번역한다는 점이 다르다. 이처럼 역번역과 노이즈 제거라는 두 가지 전략을 병행하면, 신경망으로 하여금 언어의 심오한 구조를 터득하게 할 수 있다.

두 연구팀이 사용한 기법에는 약간 다른 점도 있다. UPV 시스템은 훈련 도중에 역번역을 좀 더 빈번하게 사용하는 데 반해(참고 4), 피츠버그의 페이스북에 근무하는 기욤 램플 박사(컴퓨터과학)가 개발한 시스템은 특별한 단계를 하나 더 추가했다(참고 5). 즉, '한 언어의 문장을 추상성이 높은 표현으로 인코딩한 다음, 다른 언어로 디코딩한다'는 점에서 두 시스템은 같다고 볼 수 있지만, 페이스북 시스템의 경우에는 중간언어(intermediate language)의 '진정한 추상성'을 검증하는 절차를 추가했다는 점이 다르다. 아르테체 박사와 램플 박사는 모두, 상대방의 논문에서 사용한 기법을 응용함으로써 자신의 결과를 향상시킬 수 있다는 데 동의했다.

약 3천만 개의 문장으로 이루어진 동일한 모집단에서 수집한 영어와 불어 문장을 양방향으로 번역한 결과를 보면, 두 시스템의 결과를 간접적으로 비교할 수 있다. 두 시스템은 모두 BLEU(Bilingual Evaluation Understudy) 평가에서 양방향으로 약 15점씩을 받았는데, 이는 지도를 받는 구글번역(약 40점)이나 인간(50점 이상)에 비할 바는 아니지만 직역(word-for-word translation)보다는 우수하다. 저자들에 따르면 반지도(semisupervised) 개념을 도입할 경우, 예컨대 훈련 단계에서 몇 천 개의 병렬문장들을 투입한다면 성능이 쉽게 향상될 거라고 한다.

"우리가 개발한 시스템을 이용하면 그다지 많은 병렬문장 없이도 언어간 번역이 가능하다. 특히, 신문보도와 같이 정형화된 문장의 경우, '영어 ↔ 불어'와 같은 흔한 양방향 번역에 큰 도움이 된다. 그러나 당신은 거리의 슬랭이나 의학용어와 같은 새로운 영역에 도전하고 싶어할 것이다"라고 아르테체와 램플은 말했다. 그러나 아르테체의 공저자인 에네코 아기레는“무감독 러닝머신은 아직 걸음마 단계에 있다. 이제 새로운 길에 첫걸음을 내디뎠을 뿐이므로, 우리가 어느 방향으로 갈지 우리도 잘 모른다"라며 속단하지 말 것을  경고했다.

"컴퓨터가 인간의 지도를 받지 않고서도 번역을 배울 수 있다는 것은 충격이다"라고 마이크로소프트 베이징 지사의 디 헤 박사(컴퓨터과학)는 말했다. 그는 두 논문 모두에 영향을 미친 논문을 발표한 인물이다(참고 6). "두 팀의 논문에 거의 동시에 arXiv에 업로드되었고, 방법이 매우 비슷하다니 놀랍다. 그러나 어떻게 보면 그건 좋은 일이다. 그도 그럴 것이, 우리의 접근방법이 옳은 방향을 향하고 있음을 방증하기 때문이다"라고 아르테체는 말했다.

※ 참고문헌
1. http://www.sciencemag.org/news/2017/07/how-ai-detectives-are-cracking-open-black-box-deep-learning
2. http://www.sciencemag.org/news/2017/09/what-artificial-brains-can-teach-us-about-how-our-real-brains-learn
3. http://www.sciencemag.org/news/2017/04/even-artificial-intelligence-can-acquire-biases-against-race-and-gender
4. https://arxiv.org/abs/1710.11041
5. https://arxiv.org/abs/1711.00043
6. http://papers.nips.cc/paper/6469-dual-learning-for-machine-translation

※ 출처: Science http://www.sciencemag.org/news/2017/11/artificial-intelligence-goes-bilingual-without-dictionary

  추천 1
  
인쇄하기 주소복사 트위터 공유 페이스북 공유 
  
양병찬 (약사, 번역가)

서울대학교 경영학과와 동대학원을 졸업하고, 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학대학을 졸업하고 약사면허를 취득한 이색경력의 소유자다. 현재 서울 구로구에서 거주하며 낮에는 약사로, 밤에는 전문 번역가와 과학 리...

다른 연재기사 보기 전체보기 >
[바이오토픽] 델타 변이주는 왜 그렇게 감염성이 높은가?
새로운 실험도구 덕분에, 지금껏 별로 주목받지 않은 SARS-CoV-2 델타 변이주의 변이(R203M)가 밝혀졌다. 그것은 뉴클레오캡시드(N)를 코딩하는 유전자의 변이로, 바이러스...
[바이오토픽] 이번 주 Nature 커버스토리: 고래, 상상을 초월하는 어마무시한 대식가(大食家)
이번 주 《Nature》 표지에는, 캐나다 브리티시 컬럼비아주(州)의 밴쿠버 섬 앞바다에서 돌진섭식(lunge-feeding)을 하는 혹등고래(humpback whale)의 모습이...
[바이오토픽] 강성(剛性)과 탄성(彈性)을 겸비한 폴리머 → 손상된 인체조직 대체, 플라스틱 소비 저감
손상된 인체조직을 대체할 수 있는, 질기고 내구성 높은 폴리머 소재(polymer material)가 개발되었다. 이는 플라스틱의 소비도 줄일 수 있을 것으로 기대된다.  ...
본 기사는 네티즌에 의해 작성되었거나 기관에서 작성된 보도자료로, BRIC의 입장이 아님을 밝힙니다. 또한 내용 중 개인에게 중요하다고 생각되는 부분은 사실확인을 꼭 하시기 바랍니다. [기사 오류 신고하기]
 
  댓글 0 댓글작성: 회원 + SNS 연동  
첫 댓글을 달아주세요.
 
위로가기
동향 홈  |  동향FAQ
 |  BRIC소개  |  이용안내  |  이용약관  |  개인정보처리방침  |  이메일무단수집거부
Copyright © BRIC. All rights reserved.  |  문의
트위터 트위터    페이스북 페이스북   유튜브 유튜브    RSS서비스 RSS
필코리아테크놀로지 광고