국제 전기전자공학협회(IEEE)가 주최하는 올해 ICASSP에는 구글, 애플, 아마존, 삼성전자, 현대차 등 세계적 기업과 전세계 AI 분야 연구자 4000여명이 참석했다.
지난해 8월 설립된 프레리스쿠너는 온디바이스 음성 AI 기술과 개인정보보호 기술을 개발하고 있다. 법인설립 이후 2개월 만에 블루포인트파트너스에서 시드투자를 받았다.
이번에 채택된 논문(WAV2VEC-VC: VOICE CONVERSION VIA HIDDEN REPRESENTATIONS OF WAV2VEC 2.0)에는 화자에 대한 어떠한 사전 정보 없이도 음성 변조가 가능한 다중 화자 음성 변조 기술이 소개됐다.
예를 들어 A 화자의 음성을 B 화자의 목소리로 변환하고자 할 때 A 화자 음성에서 언어적인 정보를 추출하고 B 화자 음성에서 목소리 정보를 추출한 후 두 정보를 결합해 A 화자가 발화한 내용을 B 화자의 목소리로 발화한 음성으로 합성한다.
특히 메타에서 개발한 자기 지도 학습 음성 표현 'wav2vec 2.0'을 활용해 입력 음성에서 화자의 목소리와 언어적인 정보를 효과적으로 추출하는 데 성공했다.
김기연 프레리스쿠너 대표는 "이번 연구는 단순히 음성 변조 작업에만 국한되지 않고 여러 음성 작업(화자인식·화자분할·음질개선·음성인식 등)에 적용 가능하다"며 "사용자 간 음성 파일을 공유할 때 원본 화자의 목소리를 익명화해 개인정보 유출을 방지한다"고 했다.
[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']
[저작권자 @머니투데이, 무단전재 및 재배포 금지]