영화 'her'의 SW는 어떻게 '그녀'처럼 말을 할까?

머니투데이 홍재의 기자 2014.09.30 18:44
글자크기

음성명령, 웨어러블 디바이스 발전 등으로 음성합성기술의 중요성 대두

영화 'her'의 SW는 어떻게 '그녀'처럼 말을 할까?


"사람이 사랑에 빠질 수 있는 목소리를 만드는 것이 목표다. 디바이스가 사람과 대화를 할 수 있기 위해서는 음성합성이 반드시 중요하다."

30일 서울 잠실 롯데호텔에서 열린 네이버 개발자 행사 '데뷰 2014'에서 김선희 네이버 랩스 수석연구원은 음성합성기술의 중요성과 현 상황에 대해 설명했다. 그는 '다국어 음성합성 시스템(NVOICE) 개발'을 주제로 이날 발표했다.



김 연구원은 영화 '허(her)'를 예로 들어 "컴퓨터가 사람과 상호관계를 맺고 사랑도, 배신도 할 수 있도록 각각의 상황에 맞는 감정을 전달하기 위한 음성합성기술을 연구하고 있다"고 말했다.

음성합성기술이란 문자를 입력했을 때 이에 대한 결과물로 음성이 나오는 것이다. 영화 '허'와 같이 미래에는 기기와 대화를 할 수 있을 것으로 보이며, 현재는 아이폰의 '시리', 삼성의 S보이스와 같은 음성 명령 서비스나 웨어러블 기기 내에서 검색 등에 유용하게 쓰인다.



과거에는 기계가 만들어내는 음성에 억양이 부자연스러워 이질감이 느껴졌던 것이 사실이다. 그러나 최근에는 음성합성기술의 발전으로 컴퓨터와 대화할 때도 마치 사람과 대화하듯 자연스러운 형태로 발전되고 있다.

김 연구원은 "음성합성기술인 N보이스를 한국어, 영어, 일본어로 개발 중이다"며 "주로 편집·파라미터(HMM) 합성이 주류를 이루고 있다"고 말했다.

파라미터 합성은 통계기반합성을 뜻한다. 기계음에 들어간 억양이 마치 사람이 말하듯 자연스럽게 전달될 수 있도록 만드는 방법 중에 하나다.


김 연구원은 "목소리와 선호도를 고려해 전문 성우 중에서도 좋은 화자를 선정하는 등 데이터베이스 확보에 심혈을 기울이고 있다"며 "화자 선정에 있어서도 일반인과 전문가를 대상으로 원음을 평가해 가장 자연스럽고 좋은 목소리를 최종 화자로 결정한다"고 말했다.
TOP