페이스북, 100개 언어 쌍 AI 번역 시스템 공개

페이스북 100개 언어 기계 학습 번역 모델 M2M-100. [출처: Facebook]

페이스북이 100개 언어의 기계 학습 번역기 M2M-100을 19일(현지시각) 공개했다. 

M2M-100은 영어 기반이 아닌 100개 언어 쌍을 직접 번역하는 최초 시스템이다. 대부분 인공지능 번역기는 영어 기반이다. 이를테면 한국어-중국어 번역 과정 경우 실제로는 한국어-영어-중국어 과정을 거친다. 

앞으로 페이스북은 새로운 번역 시스템 M2M-100를 통해 100개 언어 쌍을 중간 과정 없이 곧바로 번역 서비스를 제공할 수 있다.

페이스북은 “영어 중심 데이터에 의존하지 않고 모든 방향으로 100×100 언어를 직접 번역 할 수 있는 최초의 단일 대규모 다국어 기계 번역(MMT) 모델”이라며, “M2M-100은 기계 번역의 정확도를 평가하는 BLEU(Bilingual Evaluation Understudy)에서 기존 영어 중심의 다국어 모델보다 성능이 높았다”고 밝혔다.

페이스북이 하루에 처리하는 번역 양은 200억여 개에 이른다. 이들 중 100개 언어에서 75억 문장을 골라 다대다 다국어 기계번역 데이터 세트를 구축했다. 

또 150억 개에 이르는 매개변수를 가진 범용 모델을 구축하기 위해 여러 가지 스케일링 기술을 사용했다. 현재 보다 다양한 관련 언어의 스크립트를 반영 위해 오픈 프로젝트도 진행 중이다.

페이스북은 “전 세계 20억 명 이상이 사용하는 페이스북AI가 그간 기계번역 분야에서 쌓아온 기초 작업의 정점”이라며 “앞으로 보다 전문화된 아키텍처를 만들어 다국어 기계번역 AI모델을 발전시킬 것“이라고 밝혔다.

김한비 기자 itnews@