인공지능으로 사멸 위기 언어 보존한다

2019.08.03 16:19 입력 2019.08.04 09:47 수정

세계 약 6000개 언어 중 약 43%가 소멸위기, 매 2주마다 한 개의 언어가 사라져

로제타 스톤(대영박물관 소장)은 기원전 196년 고대 이집트에서 제작된 같은 내용의 글이 이집트 상형문자, 이집트 표음문자, 고대 그리스어 등 세 가지 문자로 번역되어 쓰여 있는 화강암이다. 같은 뜻의 언어쌍(코퍼스)을 이용해 프랑수아 샹폴리옹과 토머스 영은 이집트 상형문자를 해독할 수 있었다. 코퍼스는 현대의 인공지능 번역에도 핵심적인 역할을 한다. /위키피디아

로제타 스톤(대영박물관 소장)은 기원전 196년 고대 이집트에서 제작된 같은 내용의 글이 이집트 상형문자, 이집트 표음문자, 고대 그리스어 등 세 가지 문자로 번역되어 쓰여 있는 화강암이다. 같은 뜻의 언어쌍(코퍼스)을 이용해 프랑수아 샹폴리옹과 토머스 영은 이집트 상형문자를 해독할 수 있었다. 코퍼스는 현대의 인공지능 번역에도 핵심적인 역할을 한다. /위키피디아

“노인 한 명이 죽는 것은 서재 하나가 불타는 것과 같다.”

아프리카 말리의 작가 아마도우 함파테 바는 1960년 유네스코 연설에서 이렇게 말했다. 윗 세대가 축적한 경험과 지식을 전수하는 일이 중요함을 강조한 말이다. 경험과 지식의 전수는 언어를 통해 이뤄진다. 하지만 안타깝게도 세계 곳곳에서 언어가 사라지고 있다. 한 언어를 쓸 수 있는 마지막 화자(話者)가 죽으면 그 언어는 죽음을 맞는다. 서재 하나가 불타는 것이 아니라 해당 언어를 썼던 공동체가 쌓아올린 모든 문화유산이 사라질 수 있다.

유네스코에 따르면 오늘날 세계에는 약 6000개의 언어가 있는데, 그 중 약 43%가 소멸위기에 처해 있다. 세계 언어의 3분의 1은 사용하는 사람이 1000명 미만이고, 매 2주마다 한 개꼴로 언어가 사라지고 있다. 1950년 이후부터 지금까지 이미 약 230개 언어가 소멸했다. 현재 소멸위기에 처한 언어의 50~90%도 다음 세기면 사라질 것으로 예측된다.

언어는 인류의 문화유산이 계승되는 통로다. 세계 도처의 원주민들은 오랜 시간 동안 그들 주변의 자연을 세밀히 관찰하고 자연의 산물을 대상으로 실험한 결과를 자기네 언어로 전달했다. 후대 사람들은 굳이 죽음의 위험을 무릅쓰지 않고도 어떤 걸 먹어선 안 되는지, 어떤 걸 먹으면 약이 되는지 알게 된다.

언어를 잃으면 이런 지식을 잃게 된다. 역사를 상실하고, 과거와의 소통능력을 잃어버린다. 언어학계는 이 때문에 언어의 사멸을 생명 다양성 감소와 같은 개념으로 받아들이고 있다. 송재목 한국외대 언어인지과학과 교수는 “생물학자들이 아마존을 다니면서 동식물을 찾는 이유는 이들을 연구하면 유용한 화학적 성분을 찾을 수 있다는 기대도 있기 때문”이라며 “언어의 소멸을 막아야 문화 다양성을 보존할 수 있다”고 말했다.

마이크로소프트, 자동번역 시스템 만들어

언어의 사멸은 해당 언어 공동체와 관계를 맺어온 인접 공동체의 역사 이해에도 좋지 않은 영향을 미친다. 송재목 교수는 “중국과 러시아에서 한국어와 연관성이 있을 것으로 보이는 소수언어들이 실제 상당히 급속도로 없어지고 있다”고 말했다. 예를 들어 퉁구스어족에 속하는 나나이어의 화자는 기존에 수천 명 수준으로 알려졌지만 지난 7월 중순 열린 국제학술대회에서 발표된 일본 학자의 연구 결과 실제 화자는 3명 정도인 것으로 파악됐다. 퉁구스어는 동부 시베리아와 중국 헤이룽장성 일대에 걸쳐 사용되는데 여기 속한 많은 언어들이 현재 사멸위기에 처해 있다. 송 교수는 “퉁구스어족이 한국어와 같은 어족이라고 말하기에는 증거가 부족하지만 역사적·문화적으로 수천 년간 한국과 이웃에서 사용된 점에서 한국어와 문법구조나 단어 결합방식에서 유사한 점이 많다”며 “그런 점에서 한국어 연구를 위해서도 관심을 가져야 할 책무가 있다”고 말했다.

실제 역사를 보면 언어의 소멸은 흔히 있던 일이다. 고대 이집트 문명의 상형문자나 메소포타미아 문명의 설형문자를 비롯해 국내의 고구려어나 삼한의 언어들도 사멸했다. 하지만 인류는 1000년 전 마야 문명보다 5000년 전 이집트 문명에 대해 더 잘 알고 있다. 기록물들이 화석처럼, 박제된 표본처럼 남아있기 때문이다.

언어는 흔히 두 번 죽는다. 마지막 화자가 죽으면서 한 차례 죽고, 언어자료를 담은 기록물이 물리적으로 파손되거나 보관해둔 곳을 알지 못하면서 두 번째 죽음을 맞게 된다. 고대 이집트어는 첫 번째 죽음을 피하지 못했지만, 두 번째 죽음은 막을 수 있었다. 결정적인 기여를 한 것은 1799년 발굴된 로제타 비석이다. 프랑스 언어학자 프랑수아 샹폴리옹은 발굴 후 21년 만에 이집트 상형문자를 해석했다. 같은 내용이 이집트 상형문자와 이집트 표음문자, 고대 그리스 문자 등 세 언어로 쓰여 있어서 이미 알고 있는 고대 그리스 문자 등을 토대로 상형문자를 해독해낼 수 있었던 것이다.

이렇게 같은 뜻을 가진 여러 언어의 쌍을 ‘말뭉치’라는 뜻의 ‘코퍼스(corpus)’라고 부른다. 코퍼스는 샹폴리옹의 시대는 물론 현재의 인공지능(AI)을 이용한 기계 번역에서도 굉장히 중요한 역할을 한다.

마이크로소프트가 지난 7월 11일 ‘문화유산을 위한 AI’ 프로그램의 일환으로 사멸위기 언어를 보존하겠다는 계획을 발표했는데, 여기서도 코퍼스가 핵심적인 역할을 한다. 구체적인 계획은 공개되지 않았지만 자사의 인공지능 번역 플랫폼 등을 이용해 사멸위기 언어들의 말뭉치를 최대한 많이 만들어내는 방식이 될 것으로 보인다.

이 회사는 이미 2015년 멕시코의 소수언어인 유카텍어와 오토미어의 자동번역 시스템을 만들었다. 고대 마야 제국의 언어에서 유래한 유카텍어는 현재 80만명 이하의 사람들이 사용하고 있다. 단일어로는 5만9000명 미만이 쓰고 있다. 오토미어는 현재 3만3000명 이하가 사용하고 있다. 마이크로소프트는 자동번역 프로그램이 이들 언어 사용자들이 여러 세대를 거쳐 자신의 언어와 문화를 보호하는 데 도움이 될 것이라고 보고 있다.

고전 번역에도 ‘코퍼스’ 확보가 관건

기계를 이용해 자연어를 처리하는 방식은 1970년대 문법 규칙에 기반한 방식에서 통계언어 모델로 진화했고, 최근에는 인공신경망을 이용한 방식으로 발전했다. 문자열이 문법에 맞는지, 의미는 정확한지 등을 판단하는 방식에서 한 단어(예를 들어 아름다운)가 있을 때 그 다음에 나올 적절한 단어(가령 꽃)가 무엇이 될지 확률을 계산해 번역하는 방식으로 큰 흐름이 바뀌었다. 지금은 여기에 신경망 기술을 이용해 두 언어 쌍의 규칙을 더 효율적으로 찾아낼 수 있다. 전산언어학자인 서울대 신효필 언어학과 교수는 “인공지능을 이용하면 기존에 생각하지 못한 단어들 간의 의미관계를 포착할 수도 있다”고 설명했다.

고전 번역에도 인공지능 번역 기술이 도입됐다. 한국고전번역원은 2017년부터 인공지능을 이용해 <승정원일기>를 자동번역할 수 있는 시스템을 구축했다. 올해에는 인공지능을 천문분야 고문헌에도 적용해 올해 말까지 특화된 번역 모델을 개발할 계획이다. 백한기 한국고전번역원 고전정보센터장은 “한자나 옛 한글로 된 고문헌은 일반인이 읽고 해석할 수 없다는 점에서 사멸 언어와 마찬가지이다”라며 “이를 현 세대나 후손들에게 한글로 전달해야 한다는 생각에서 고전 번역에 50년 가까이 매진했지만 <승정원일기>나 <일성록> 같은 경우 아직도 전체의 25% 정도밖에 번역이 안 됐을 정도로 굉장히 더뎠다”고 말했다.

고전번역원은 효율적으로 번역사업을 확대하는 방안을 고민하다 인공지능 자동번역에 눈을 돌렸다. 지난해 평가 결과 그 품질이 인간 번역의 약 65% 수준이었는데 올해는 80% 수준까지 올라갈 것으로 기대하고 있다. 백 센터장은 “이는 초벌 번역 수준으로 인간 번역자들이 기계 번역 결과를 윤문하고, 교정, 주석을 다는 방식으로 후속공정을 진행하면 속도도 빨라지고 그만큼 연구성과를 충분히 담을 수 있을 것으로 본다”고 말했다.

백 센터장은 이번 사업의 핵심이 학습데이터가 될 코퍼스 구축이라고 설명했다. 평균 40~50자 정도의 한문 문장을 한글 번역문과 쌍으로 만들어 기계 번역의 학습데이터로 사용하는 것이다. 현재 75만 문장을 만들었고 올해 120만 문장 정도의 코퍼스가 만들어지면 기대하는 품질을 얻을 수 있을 것으로 본다. 향후 <조선왕조실록>과 한의서, 고농서 번역에 최적화된 모델도 만들 계획이다.

추천기사

바로가기 링크 설명

화제의 추천 정보

    오늘의 인기 정보

      추천 이슈

      이 시각 포토 정보

      내 뉴스플리에 저장