AI 소리 분리기술 썼더니…막귀가 '황금귀' 됐다[테크업팩토리]

머니투데이 최태범 기자 2021.07.27 08:08
글자크기

가우디오랩 "애플이 미는 오디오 기술들, 이미 대부분 풀었다"

편집자주 '테크업팩토리'는 스타트업과 투자업계에서 가장 '핫'한 미래유망기술을 알아보는 코너입니다. 우리의 일상과 산업의 지형을 바꿀 미래유망기술의 연구개발 동향과 상용화 시점, 성장 가능성 등을 짚어봅니다.

전상배 가우디오랩 최고과학책임자(CSO) 인터뷰 /사진=김휘선 기자 hwijpg@전상배 가우디오랩 최고과학책임자(CSO) 인터뷰 /사진=김휘선 기자 hwijpg@


AI 소리 분리기술 썼더니…막귀가 '황금귀' 됐다[테크업팩토리]
"#(&@$?" 영화나 드라마를 보다보면 대사를 제대로 듣지 못하는 경우가 있다. 중요한 대사는 아니겠거니 하고 넘어가지만 궁금증과 답답함 때문에 몰입감이 깨지곤 한다. 감상을 마친 뒤에도 찝찝함이 남는다.



지금까지는 '막귀(음질이 나빠도 신경 쓰지 않는 사람)'로 살아도 큰 불편이 없었다. 하지만 유튜브·넷플릭스, 음악 스트리밍 등 '소리' 관련 콘텐츠가 급증하면서 제대로 듣지 못하는 문제는 고품질 콘텐츠 소비 시대의 새로운 장애 요소가 되고 있다.

"음원 최종 소비자에게 최고의 소리를 줄 것"
AI 소리 분리기술 썼더니…막귀가 '황금귀' 됐다[테크업팩토리]
"음원이 유통되는 중에 여러 트랜스코딩(변환)이 이뤄진다. 스튜디오에서 배급사로, 다시 플랫폼을 통과하면서 음질이 점점 나빠진다. 결국 나쁜 음질을 최종 소비자가 듣게 된다. 그것을 인공지능(AI)을 통해 바로 잡아서 소비자에게 최고의 소리를 주겠다."



AI 오디오 기술을 개발한 전상배 가우디오랩 최고과학책임자(CSO)의 목표다. 그는 "아무리 막귀라고 해도 귀가 아픈 것은 아픈 것이다. 소비자들이 음원 제작자의 의도가 충실히 반영된 콘텐츠를 경험할 수 있도록 하겠다"고 밝혔다.

2015년 가상현실(VR) 오디오 기술로 시작한 가우디오랩은 2017년 영국 VR 어워드에서 국내 기업 중 유일하게 '올해의 최고 VR 혁신기업상'을 수상하며 두각을 드러냈다. 전 세계 VR 기업에 자사의 오디오 기술을 공급하겠다는 비전도 세웠다.

하지만 VR 시장은 좀처럼 성장하지 않았다. 피봇팅(비즈니스 모델 전환)이 불가피했고 2018년 초 AI 오디오 기술 개발로 전략을 수정했다. 이를 주도하는 가우디오랩 AI 팀을 삼성전자 수석연구원 출신의 전상배 CSO가 이끌고 있다.


음량 평준화 기술에서 고성능 AI 음원분리까지 '소리의 마술사'
전상배 가우디오랩 최고과학책임자(CSO) 인터뷰 /사진=김휘선 기자 hwijpg@전상배 가우디오랩 최고과학책임자(CSO) 인터뷰 /사진=김휘선 기자 hwijpg@
가우디오랩은 2019년 개발한 '음량 평준화(Loudness Normalization)' 기술로 재도약 기반을 마련했다. 콘텐츠 간 음량 편차를 줄이는 기술이다. 이를 도입한 네이버TV에서는 동영상 앞뒤에 붙은 광고 소리가 너무 커서 깜짝 놀라는 일이 사라졌다.

벅스·플로 등 음악 스트리밍에도 적용됐다. 음원 간 볼륨을 맞춰 이용자의 청력을 보호한다. 가우디오랩의 음량 평준화는 기술력을 인정받아 지난해 12월 한국정보통신기술협회(TTA)로부터 국내 표준에 채택됐다.

가우디오랩은 음량 평준화 기술에서 더 나아가 고성능 AI 음원 분리기술인 'GSEP(Gaudio Source Separation)'을 개발했다. 음원에 담긴 보컬, 피아노, 기타, 드럼 등 다양한 소스를 각각 따로따로 분리·추출하는 기술이다.

전 CSO는 "학계에서 사용하는 분리도 지표인 SDR(Signal to Distortion Ratio)을 세계 대형 경쟁사들과 비교하면 GSEP은 가장 높은 8.03dB의 성능을 보였다"며 "압도적인 분리력, 현저히 적은 연산량, 월등한 음질 등 3가지 강점을 갖고 있다"고 했다.

이어 "연산량이 적어 일반적인 GPU 환경에서 노래 한 곡의 목소리를 추출하는데 1.5초 정도면 충분하다. 이는 경쟁 기술 대비 2~16배 빠른 수준"이라며 "빠른 속도에도 국제 표준음질 평가기법에서 확연히 좋은 음질로 확인됐다"고 덧붙였다.

음원서 싱크가사 뽑아내는 AI 기술, 세계 첫 상용화
AI 소리 분리기술 썼더니…막귀가 '황금귀' 됐다[테크업팩토리]
가우디오랩은 GSEP을 기반으로 △GTS(Gaudio Text Sync) △GCV(Gaudio Clear Voice) △G Sing(Gaudio Sing) 등 여러 파생 기술을 만들었다.

GTS는 노래와 가사를 자동으로 동기화해 실시간 가사보기 기능을 제공하는 솔루션이다. 현재 벅스에서 상용화됐다. 그동안 음원의 싱크 가사는 인력이 직접 투입돼 매 곡마다 일일이 음원 시점과 가사를 맞춰가며 작업해야했다.

하루에 발매되는 음반 수가 수만 장, 트랙 수는 수십만 곡에 이르는 음원시장에서 수작업으로 모든 곡에 싱크 가사를 생성하는 것은 불가능에 가깝다. 하지만 GTS를 사용하면 서버 1대로 1곡당 5초, 하루 약 7만 곡을 처리할 수 있다.

전 CSO는 빠른 비트의 랩 음악에 GTS 기술을 시연했다. 수작업 보다 더욱 정교하게 싱크 가사가 맞아 떨어졌다. GTS는 음원뿐만 아니라 영화·OTT 자막 생성 등에도 활용할 수 있고, 영어·중국어 등 여러 언어를 지원해 확장성이 매우 넓다.

세계 음향시장 최강자 '돌비' 아성에 도전하는 가우디오랩

전상배 가우디오랩 최고과학책임자(CSO) 인터뷰 /사진=김휘선 기자 hwijpg@전상배 가우디오랩 최고과학책임자(CSO) 인터뷰 /사진=김휘선 기자 hwijpg@
전 CSO가 GCV 기술을 시연했을 때는 감탄사가 절로 나왔다. 전쟁영화에서 포격 등 배경음에 묻혀 전혀 들을 수 없었던 주인공의 대사가 또렷하게 들렸기 때문이다. GSEP으로 음원을 분리하고 음량 평준화로 대사 등 각 소스의 음질을 개선·강화하는 원리다.

'내 손 안의 노래방'인 G Sing도 주목된다. 음원(MP3)의 보컬을 제거한 뒤 MR(반주)만 남기는 기술이다. GTS가 적용돼 특정 가사를 중심으로 노래를 부르는 것도 가능하다. 모바일 앱으로 구현돼 곧 정식 출시될 예정이다.

가우디오랩은 가파른 성장세를 보이는 메타버스(가상세계) 트렌드에 맞춰 VR 오디오 시장에서도 다시 깃발을 꽂아 나간다는 각오다. 애플과 삼성이 힘을 싣고 있는 공간 오디오 기술을 가우디오랩은 과거에 이미 개발한 바 있다.

공간 오디오 기술이 적용된 음원은 '듣는다'가 아닌 '경험한다'는 느낌을 준다. 입체적인 방향에서 소리가 전달돼 실제 현장에 있는 듯한 몰입감을 선사한다. 가우디오랩은 세계 음향시장 최강자인 돌비보다 가성비 좋은 기술로 시장을 개척할 계획이다.

전 CSO는 "애플이 지난 6월 세계개발자회의(WWDC)에서 무선 이어폰의 공간 오디오 기술을 강조했고, 통화할 때 목소리만 남기는 기술도 9월 중 공개한다고 밝혔다"며 "애플이 밀고 있는 기술들을 가우디오랩은 이미 대부분 풀었다"고 했다.
TOP