"딥보이스는 AI 핵심기술인 딥러닝과 목소리를 합친 말로 AI가 특정인의 목소리를 복제하는 것을 말한다." (위 영상 중 실제 사람 목소리)
"4월17일부터 19일까지 코엑스에서 딥보이스 관련 전시를 할 예정입니다." (위 영상 중 AI로 생성된 가짜 목소리)
최근 AI를 이용한 딥페이크, 딥보이스가 기승을 부리는 가운데 진짜와 가짜를 구별할 수 있는 기술의 중요성이 커지고 있다. AI 기술이 고도화되면서 개인의 역량만으로는 점점 더 구별하기 어려워지고 있다.
정수환 숭실대 정보통신전자공학부 교수가 개발한 'AI 보이스 탐지 시스템'. 실제 목소리(Real 파일)는 가짜 수치가 0.04%로 낮았지만 AI로 생성된 목소리(Fake 파일)는 73.85%로 가짜 수치가 높았다. /사진=김지은 기자
정 교수는 실시간 동영상을 두고 진짜와 가짜를 구별하는 앱(어플리케이션)도 개발했다. 영상 속에서 AI 목소리가 나오면 페이크 수치가 자동으로 뜬다. 해당 수치가 50% 이상이면 가짜일 확률이 높다.
정 교수는 그동안 7만여개의 샘플 데이터를 테스트했다. 그가 음성 탐지 시스템에 진심이었던 이유는 AI 기술이 빠르게 성장하는 만큼 부작용을 최소화할 기술도 필요하다고 생각했기 때문이다.
이 시각 인기 뉴스
그는 "요즘은 유튜브에도 믿을 수 없는 콘텐츠가 너무 많고 AI 기술이 보이스피싱 범죄나 사기 수법에 이용되는 경우도 많다"며 "콘텐츠를 소비자는 진짜와 가짜를 구분할 권리가 있다"고 말했다.
정 교수가 개발한 'AI 보이스 탐지 시스템'. 실시간으로 동영상 목소리가 AI 음성인지, 실제 인간 목소리인지 보여준다. 빨간색 그래프는 AI 목소리를 의미하고 파란색 그래프는 인간 목소리를 뜻한다. /사진=김지은 기자
그는 "2014년부터 다양한 AI 생성기가 등장했고 성능도 좋아졌다"며 "각각의 AI 생성기 모델마다 특징들이 있는데 그런 부분을 잘 캐치해 데이터를 트레이닝 시켜 진짜와 가짜를 구분하는 능력을 키웠다"고 말했다.
최근 관심있게 보는 부분은 억양과 감정 같은 비언어적인 요소다. 정 교수는 "AI로 만들어내는 감정은 100% 자연스럽지는 않다"며 "인간의 목소리 중에 감정 벡터 부분을 끄집어내서 AI 목소리와 어떻게 구분할지 연구하고 있다"고 말했다.
정 교수가 개발한 기술은 오는 17일부터 19일까지 서울 코엑스에서 열리는 'ITRC 인재양성대전 2024'에 전시될 예정이다. 그는 앞으로 딥보이스, 딥페이크를 대적할 신기술을 만들어내는 것이 중요하다고 했다. 각종 규제와 개인의 역량만으로 이 문제를 극복할 수 없다고 했다.
그는 "딥페이크, 딥보이스 기술은 경제성과 효율성이 높다는 이점도 분명히 있다"며 "단순히 규제하고 개인 스스로 진짜와 가짜를 판단하도록 요구하는 건 시대 흐름에 맞지 않다. 기술적으로 부작용을 어떻게 극복할지 고민할 시점"이라고 말했다.