챗GPT, 이젠 음성도 알아듣는다…AI 콜센터 확산 '급물살'

머니투데이 윤지혜 기자 2023.03.02 10:18
글자크기

오픈AI, 음성-텍스트 변환모델 '위스퍼' API 공개

스픽 앱에 위스퍼 API가 적용된 모습/사진=오픈AI스픽 앱에 위스퍼 API가 적용된 모습/사진=오픈AI


AI(인공지능)이 사람의 말을 알아듣고 그에 맞는 답을 해주는 AI 콜센터가 한걸음 가까워졌다. 영화 아이언맨의 AI 비서 '자비스'가 현실화되고 있는 셈이다.

2일(현지시각) 오픈AI는 음성-텍스트 변환모델인 '위스퍼'(Whisper) API를 공개했다.



오픈AI가 지난해 9월 공개한 위스퍼는 웹에서 수집한 68만 시간의 다국어 및 멀티태크스 데이터로 학습한 자동음성인식(ASR) 시스템이다. 음성을 다양한 언어로 옮기거나, 이를 영어로 번역해준다. 당시 오픈AI는 "대규모의 다양한 데이터셋을 기반으로 억양이나 주변 소음에 대한 견고성(robustness)이 향상됐다"라며 "데이터셋의 3분의 1은 비영어 데이터"라고 설명했다.

위스퍼 API는 분당 0.006달러로, 다양한 파일형식(m4a·mp3·mp4·mpeg·mpga·wav·webm)을 지원한다. 오픈AI는 "지난해 9월 공개된 위스퍼는 개발자 커뮤니티로부터 찬사를 받았지만 실행하기 어려운 모델이었다"라며 "이젠 API를 통해 위스퍼 large-v2 모델을 사용할 수 있게 됐다. 최적화된 스택으로 다른 서비스 대비 빠른 서비스를 보장한다"고 강조했다.



다만 미 IT매체 테크크런치는 위스퍼가 모든 언어에 동일한 성능을 발휘하지 못한다고 봤다. 테크크런치는 "위스퍼는 다음 단어를 예측하는데 한계가 있고 데이터가 부족한 언어의 경우 오류율이 높다"라며 "아마존·애플·구글·IBM·마이크로소프트의 음성인식 시스템도 흑인보다 백인 사용자에게 훨씬 적은 오류를 나타냈다"라고 지적했다.

챗GPT 비용, 10분의 1로 저렴해진다
오픈AI는 챗GPT API 'GPT-3.5 터보'도 출시했다. 이는 기존 챗GPT에 사용된 초거대 AI 'GPT-3.5'와 동일한 모델이지만 비용은 1000토큰당 0.002달러로 기존대비 10분의 1로 저렴하다.

이에 따라 AI 콜센터도 확산될 전망이다. 이미 글로벌 전자상거래 기업 쇼피파이는 자체 쇼핑 어시스턴트 서비스에 챗GPT를 적용했다. '따뜻한 우드 찾아줘'라고 입력하면 그에 맞는 상품을 추천해주는 서비스인데, 앞으로는 문자가 아니라 간단히 말만 하면 될 전망이다.


영어 회화 앱 스픽(Speak)도 위스퍼 API를 적용한 교육서비스를 선보였다. 예를들어 햄버거 가게에서 음식을 주문하는 상황에서 영어로 말하면 AI가 이를 인식하고 그에 맞는 답을 해준다. 오픈AI는 "스픽은 한국에서 가장 빠르게 성장하고 있는 영어 앱"이라며 "모든 레벨의 언어 학습자에게 인간 수준의 정확도를 제공하는 위스퍼는 개방형 대화연습과 정확한 피드백을 제공한다"고 설명했다.
TOP