역사와 철학이 빚어낸 기술로 구글과 겨룬다

테크앤비욘드 도강호 2014.07.25 11:25
글자크기

자동 번역 세계 1위 업체, 시스트란인터내셔널

시스트란 인터내셔널 언어연구소의 박기현 대표(오른쪽 세번째)와 임직원. 시스트란 인터내셔널 언어연구소의 박기현 대표(오른쪽 세번째)와 임직원.


위기와 기회는 언제나 함께 온다. 한국의 번역솔루션 업체 씨에스엘아이(CSLI)가 업계 세계 1위 시스트란(SYSTRAN)을 인수하는 과정도 마찬가지였다. 지난 5월 시스트란을 인수한 씨에스엘아이는 회사명을 시스트란 인터내셔널로 바꾸고 새로운 도약을 준비하고 있다. 씨에스엘아이는 삼성 갤럭시S4에 탑재된 S 번역기(S Translator)를 만든 회사다. S 번역기는 출시 당시 한국어, 중국어, 일본어, 영어, 독일어, 프랑스어, 이탈리아어, 스페인어 번역을 지원했다. 삼성전자는 S 번역기를 대규모로 광고했고, 세계 시장에서 호평을 받았다.

문제는 브라질 통신사가 포르투갈어를 S 번역기에 포함시켜 주길 원하면서 시작됐다. 브라질에 갤럭시S4를 출시할 때까지 남은 시간은 3개월에 불과했다. 하지만 언어번역 기능은 3개월 만에 만들 수 있는 것이 아니다. 대체로 한 쌍의 언어에 대해 양방향 번역 기능을 개발하려면 적어도 1년 반의 시간과 150억원 가량의 자금이 필요하다. 3개월 만에 S 번역기에 포르투갈어를 포함시키는 것은 불가능했다.



1위를 움직인 철학
씨에스엘아이는 시스트란과 협력을 모색했다. 3개월 만에 새로운 언어에 대한 번역 기능을 추가하기 위해서는 이미 기술이 있는 업체와 협력하는 방법밖에 없었다. 이 점에서 역사가 가장 오래 되고 기술이 높은 시스트란은 최적의 파트너였다.
시스트란은 1968년 언어 처리 전문가인 피터 토마(Peter Toma) 박사가 설립했다. 최초의 자동 번역 상용 서비스를 출시하기도 한 시스트란은 번역 평가대회에서 1위를 차지하기도 했다. 현재 89개 언어의 자동 번역 서비스를 제공하고 있다. 구글도 지난 2007년까지 시스트란의 솔루션을 사용했고, 지금도 야후는 시스트란을 통해 번역 서비스를 제공하고 있다.

씨에스엘아이와 시스트란은 개발 방법론이 같아서 다소 쉽게 공동연구를 수행하며 S 번역기에 새로운 언어를 추가할 수 있었다. 이렇게 개발 방법론이 거의 같은 것은 씨에스엘아이가 시스트란을 모델로 세워진 회사이기 때문이다.
자동 번역 분야에서 시스트란은 이데아 같은 존재다. 미국의 매사추세츠공대(MIT)나 카네기멜론대 같은 자연어 처리 분야에서 뛰어난 연구 성과를 보여 주는 곳에서도 시스트란의 번역 방법론을 교육과 연구에 활용할 정도다. 자동 번역은 지금도 가장 어려운 학문 분야의 하나로, 씨에스엘아이가 시스트란을 모델로 시작한 것은 당연한 일이었다.



하지만 두 회사가 합병한 이유가 기술에만 있는 것은 아니다. 이미 구글을 비롯해 여러 회사에서 시스트란 인수 노력을 기울여 왔다. 하지만 시스트란은 번번이 이들의 제안을 거절했다. 시스트란은 단순히 기술만 가져갈 회사가 아니라 시스트란의 역사를 존중하고 번역 기술에 애정이 있는 기업을 원했다.
공동 연구 과정에서 씨에스엘아이는 시스트란의 까다로운 조건을 만족시킬 철학이 있음을 증명했다. 김동필 시스트란 인터내셔널 부사장은 “번역이나 통역이 이루어진 콘텐츠와 정보를 통해 세계를 하나로 만드는 것이 씨에스엘아이의 설립 목표였다”고 설명했다. 씨에스엘아이와 시스트란의 경영진은 더 좋은 번역 시스템으로 산업과 세상에 도움이 되려는 목표에 공감대를 형성하면서 합병에 성공했다.

통역 서비스를 점검하는 시스트란 직원들통역 서비스를 점검하는 시스트란 직원들


번역 방법론의 우위
시스트란 인터내셔널은 자동 번역 기술에서 구글과의 비교를 거부한다. 지원하는 언어의 수나 번역의 질에서 구글의 수준이 비교 대상조차 되지 않는다고 여긴다. 시스트란 인터내셔널의 반응은 2007년까지 시스트란의 솔루션을 이용하던 구글이 독자 서비스를 시작한지 몇 년 만에 명성을 쌓아 가고 있는 상황과 대조된다. 시스트란의 자신감은 자동 번역 기술을 이해하면 납득된다.
자동 번역 기술은 언어 습득 과정과 비슷하다. 사람이 언어를 학습할 때는 긴 시간 동안 꾸준히 노력해야 한다. 아무리 능력 있는 강사에게 배운다 해도 능숙하게 언어를 사용하게 되기까지 시간과 연습이 필요하다. 언어의 규칙이 머리에 쌓이는 데 그만큼 시간이 걸리기 때문이다.

자동 번역 솔루션은 인간의 머리에 쌓인 언어 규칙을 프로그램으로 옮긴 것이다. ‘규칙 기반’이라고 부르는 이 자동 번역 기술은 인간의 언어 능력을 모사하는 만큼 정확성이 높지만 개발 시간과 비용이 증가하는 단점이 있다. 그만큼 오래 동안 충분한 개발비를 투자한 기업이 뛰어난 기술을 가질 수 있다. 구글과 같이 역사가 짧은 기업으로서는 같은 방법을 이용하면 승산이 없다.


구글은 규칙 기반 번역이 아닌 통계 기반 번역 기술을 도입했다. 단어나 표현, 문장을 빈도 순으로 대응해 번역하는 방법이다. 이 방법은 사례만 충분하면 적은 돈으로 짧은 기간에 개발이 가능하다. 하지만 통계에 기반을 두고 있어 항상 틀릴 가능성이 있다. 학계에서는 통계 기반 번역 기술의 정확도 한계를 70%로 보고 있다. 결국 통계 기반 번역 기술을 사용하는 구글은 오랜 기간 규칙 기반 자동 번역 기술을 사용한 시스트란을 이기기가 어렵다는 결론이다.

시스트란의 통역 서비스 앱 ‘통역 비서’. 음성인식 통역 서비스는 물론 기본 회화도 제공하는 등 편의성을 높였다.시스트란의 통역 서비스 앱 ‘통역 비서’. 음성인식 통역 서비스는 물론 기본 회화도 제공하는 등 편의성을 높였다.
무료 서비스가 복병
이런 문제점을 개선하는 차세대 자동 번역 시스템으로 ‘하이브리드 기계 번역’이 주목받고 있다. 정확도가 높은 규칙 기반 번역과 효율이 높은 통계 기반 번역의 장점을 합친 방법이다. 이 방법도 결국 최종 완성도는 규칙 기반 시스템의 성능에 따라 좌우된다. 그래서 시스트란은 향후 하이브리드 시장에서도 규칙 기반 번역 기술에 강점이 있는 기업이 선전할 것으로 기대한다.

복병은 자동 번역 시장이 무료 서비스에 길들여지는 상황이다. 자동 번역의 핵심 요소인 음성 인식과 번역 모두 많은 사례를 축적하는 것이 중요하다. 음성은 완전한 문장 데이터를 확보하는데 1건에 50원에서 1000원의 비용이 든다. 성별, 연령별 데이터 축적에 수백억 원의 비용이 드는 것이다. 일반 기업으로서는 무료 서비스를 제공하기 어렵다.
현재 시장에서 시스트란의 경쟁 상대는 구글, 마이크로소프트, 뉘앙스커뮤니케이션스 등이 있다. 그런데 세 기업은 무료 서비스로 사용자를 확보, 데이터를 쉽게 축적하고 있다. 축적된 데이터는 서비스 품질 제고에 이용되고, 더 많은 사용자를 불러 모을 수 있다. 일반 기업이 경쟁하기에는 어렵다.

시스트란은 기술 완성도를 무기로 이들과 경쟁해 가고 있다. 얼마 전에는 뉘앙스를 제치고 일본 NTT도코모에 시스템을 납품하기도 했다.
“미래는 준비된 자가 만들어 갑니다. 우리가 하는 일은 우리가 준비한 길을 가는 것입니다. 그러면 우리가 상상하고 기대한 것들을 모든 사람에게 줄 수 있을 것으로 생각합니다.”
박기현 시스트란 인터내셔널 대표는 시장에서 승리할 수 있을 것이라는 자신감을 표했다.
TOP