
오픈AI가 지난해 9월 공개한 위스퍼는 웹에서 수집한 68만 시간의 다국어 및 멀티태크스 데이터로 학습한 자동음성인식(ASR) 시스템이다. 음성을 다양한 언어로 옮기거나, 이를 영어로 번역해준다. 당시 오픈AI는 "대규모의 다양한 데이터셋을 기반으로 억양이나 주변 소음에 대한 견고성(robustness)이 향상됐다"라며 "데이터셋의 3분의 1은 비영어 데이터"라고 설명했다.
다만 미 IT매체 테크크런치는 위스퍼가 모든 언어에 동일한 성능을 발휘하지 못한다고 봤다. 테크크런치는 "위스퍼는 다음 단어를 예측하는데 한계가 있고 데이터가 부족한 언어의 경우 오류율이 높다"라며 "아마존·애플·구글·IBM·마이크로소프트의 음성인식 시스템도 흑인보다 백인 사용자에게 훨씬 적은 오류를 나타냈다"라고 지적했다.
이에 따라 AI 콜센터도 확산될 전망이다. 이미 글로벌 전자상거래 기업 쇼피파이는 자체 쇼핑 어시스턴트 서비스에 챗GPT를 적용했다. '따뜻한 우드 찾아줘'라고 입력하면 그에 맞는 상품을 추천해주는 서비스인데, 앞으로는 문자가 아니라 간단히 말만 하면 될 전망이다.
영어 회화 앱 스픽(Speak)도 위스퍼 API를 적용한 교육서비스를 선보였다. 예를들어 햄버거 가게에서 음식을 주문하는 상황에서 영어로 말하면 AI가 이를 인식하고 그에 맞는 답을 해준다. 오픈AI는 "스픽은 한국에서 가장 빠르게 성장하고 있는 영어 앱"이라며 "모든 레벨의 언어 학습자에게 인간 수준의 정확도를 제공하는 위스퍼는 개방형 대화연습과 정확한 피드백을 제공한다"고 설명했다.