소설 전편은 유인나~후편은 유인나AI…기계와 나눠읽고 '한 목소리'로 듣다

머니투데이 김고금평 기자 | 2016.11.12 03:20

출판사 CD에서 네이버 음성합성기술로 만든 ‘오디오북’까지…“정보 전달 넘어 감성 전이”

‘어, 별 차이가 없네?’. 배우 유인나가 ‘왕자와 거지’ 챕터 1~8까지 낭독하고, 나머지 챕터 9~16까지는 ‘인공지능’ 유인나가 새로 읽었다. 같은 ‘사람’의 다른 듯 같은 ‘목소리’가 오차 없이 흘러나왔다. 듣기만 하면, 유인나가 전체 소설을 처음부터 끝까지 모두 낭독한 듯하다.

하지만 깊이 분석하면 두 목소리는 ‘엄밀히’ 말해 다르다. 앞은 사람의 진짜 목소리이고 뒤는 기계의 것이기 때문이다.

네이버가 네이버랩스를 통해 YG엔터테인먼트와 함께 기부프로젝트의 일환으로 최근 진행한 ‘오디오북’ 얘기다. 네이버랩스는 핵심기술 개발을 통해 기존 서비스의 가치를 높이고 미래기술을 연구하는 기술연구조직. ‘두 개의 유인나’는 딥러닝, 음성인식, 기계번역, 이미지 인식 및 처리 등 이곳에서 연구 중인 최신 기술 중 하나인 음성합성 기술의 결과물이다.

오디오북이 인간의 육성에서 ‘딥러닝’으로 구축된 인공지능의 인식으로 새롭게 진화하고 있다. 알파고와 같은 복잡한 학습 체계는 아니지만, 반복된 목소리의 패턴을 적용해 인간을 ‘복제’하고 있다는 점에서 인간의 고유 영역인 ‘감성 분야’에도 속속 진출하고 있는 모양새다.

네이버 송창현 최고기술경영자(CTO)는 “미래의 기기와 서비스는 사람과 기계가 음성을 주고받는 대화형 음성 인터페이스가 흐름을 주도할 것으로 본다”며 “이미 이 기술을 적용해 한국어뿐 아니라 영어, 일본어, 중국어 등 4개국 남녀 화자를 개발했고, 앞으로 품질을 높여 언어 및 적용 범위를 확대할 것”이라고 강조했다.

네이버가 네이버랩스를 통해 선보인 음성합성기술. 이 기술을 이용한 오디오북에서 청자는 인간의 목소리를 책 전반에서 듣고, 후반에선 기술로 완성한 소리를 듣는다. 기존 녹음에 절반도 채 안드는 제작 시간이 걸리는 것으로 알려졌다. /사진제공=네이버

‘첨단기술’ 오디오북의 새로운 패러다임…시간·노동력 줄이고 육성·감성 그대로 재현

‘유인나가 먼저 읽고 나머지는 기술이 완성합니다.’ 해당 온라인 사이트에서 가장 먼저 만나는 문구다. 현재 선보이는 음성합성 ‘유인나 오디오북’ 서비스는 ‘왕자와 거지’를 비롯해 ‘데미안’, ‘동물농장’ 3권이다.

책의 전반부는 유인나가 직접 읽고, 후반부는 네이버의 음성합성기술로 만들어졌다. 이 기술 덕분에 한 권당 10시간 이상 걸리던 녹음 시간이 절반으로 줄었다.

네이버랩스가 자체 개발한 ‘엔보이스’(nVoice)라는 기술은 글자의 형태소를 분석하고 음소 단위로 변환해 어떤 운율로 읽는 것이 좋을지 분석한다. 그렇게 패턴을 분석해 최적의 음성 데이터베이스를 구축한 뒤 이를 합성하는 식이다. 이 기술은 현재 뉴스 읽기, 사전 예문 읽기, 번역기 등 각종 네이버 서비스에 적용 중이다.

실제 녹음한 육성과 기술로 재현한 소리를 비교해서 들어보니, 전반적으로 무난하게 읽혔다. 기술이라는 선입견을 갖고 들어도 육성으로 들었던 흐름을 방해하거나 어울리지 않는 운율을 찾기 어려웠다. 유인나가 책을 읽을 때 내는 독특한 느낌이나 발성, 호흡까지도 그대로 재현해냈다.

다만 어떤 문단에선 디지털 사운드의 왜곡이나 소리가 중첩돼 얇게 이중으로 들리는 결함이 발견됐다. 네이버 측은 “10년 이상 된 국내 최고 수준의 기술을 지닌 엔지니어들이 짧은 시간에 발음과 운율, 고유의 음색을 고품질 음성합성을 구현했다”며 “하지만 기술에서 나타난 단점은 현재 우리 수준을 말해주며 극복해야 할 과제”라고 말했다.

출판사에서는 낭독자의 목소리가 들어간 CD를 통한 전통적 방식의 오디오북을 매년 내놓고 있다. 어린이 명작 동화부터 수필, 소설에 이르까지 다양한 종류를 구비한 것이 특징이다.

늘어나는 ‘오디오북 시장’…전세계 연간 3조원 육박

출판 시장이 침체 위기에 놓여도 ‘오디오북 시장’의 성장세는 가파르다. 미국출판협회가 지난해 출판시장 매출액을 조사한 결과 오디오북은 페이퍼북 13.3%에 비해 3배 가까운 37.7%나 신장했다.

미국 오디오북 시장 규모는 2014년 기준 14.7억 달러(1조 6677억원)나 된다. 발행 종수도 2010년 6200종에서 2014년 2만 5787종으로 4배 이상 증가했다. 국내 사정도 크게 다르지 않다. 문화체육관광부와 한국출판문화산업진흥원이 조사한 ‘2014년 전자책 독서실태’에서 ‘선호하는 독서매체’로 오디오북을 꼽은 경우가 18.8%였다.

아마존에 따르면 세계 오디오북 시장은 연간 25억 달러(약 2조 8400억원) 규모로 추산된다. 독서율이 높은 유럽에선 전체 출판 시장의 20%를, 미국은 30%를 차지하는 것으로 알려졌다.

오디오북 시장이 날로 커지는 것은 고령화 사회에 진입하면서 노인 인구를 위한 책 서비스가 중요해진 데다, 시각 장애인 등 독서 소외 인구를 위한 서비스 확대 등이 주요 요인으로 꼽힌다. 여기에 듣는 재미도 한몫하고 있다.

출판물→라디오→인공지능…“인간만이 문학적 감성 재현” VS “기술이 감성 전이 역할”

오디오북은 출판사에서 ‘듣는 독서’ 개념으로 테이프와 CD에 녹음한 것이 시작이었다. 그러다 2012년 EBS 라디오가 ‘책 읽어주는 라디오’라는 콘셉트로 종일 책을 읽어주는 ‘파격’을 통해 오디오북의 업그레이드 버전을 선보였다. 이젠 웹이라는 열린 공간에서 첨단기술을 접목한 인간의 복제된 목소리가 따뜻한 감성을 안고 무한 반복되는 수준으로 발전했다.

EBS 라디오가 선보이는 '책 읽어주는 라디오'의 한 프로그램. /사진제공=EBS

라디오의 ‘오디오북’은 철저히 문학적 감성을 기반으로 소통에 중점을 둔다. 전문 성우보다 배우나 MC 등을 낭독자로 내세우는 것도 ‘맞춤형 예쁜 목소리’보다 ‘좀 더 살아있는 문학적 원형’에 대한 향수를 자극한 측면이 크다.

정정화 EBS 라디오 PD는 “전문 성우보다 인간적인 감정을 전달할 수 있는 대상을 뽑아 오디오 낭독 프로그램을 이끈다”며 “한 문장 안에서 ‘나’를 지칭할 때도 가벼운 문장에서의 ‘나’와 무거운 문장에서의 ‘나’의 차이가 있으니 좀 더 감성적인 효과를 높일 수 있다”고 말했다.

그는 “실생활에 가까운 감정 톤이 수시로 바뀌는 ‘감성 작업’을 인공지능이나 기계의 반복 패턴이 소화할 수 있을지 의문”이라며 “정보 전달 이상의 의미가 스며있는 ‘살아있는 문학’의 특수성을 고려할 필요가 있다”고 강조했다.

아직 초보 단계지만, 인공지능의 빅데이터와 딥러닝을 통한 향후 음성기술 서비스는 이런 감성까지도 제어할 수 있을 것으로 전문가들은 보고 있다. 네이버 관계자는 “지금은 정보를 ‘전달’하는 기능에 그치지만, 더 나은 기술에선 감정을 ‘전이’하는 방향으로 전개할 수 있을 것으로 기대한다”고 말했다.

소설 전편은 유인나~후편은 유인나AI…기계와 나눠읽고 '한 목소리'로 듣다

출판사 CD에서 네이버 음성합성기술로 만든 ‘오디오북’까지…“정보 전달 넘어 감성 전이”

베스트 클릭