"가짜 목소리 구별한다"…AI 딥보이스 범죄 대적할 '신기술'[영상]

머니투데이 김지은 기자, 이상봉 PD 2024.04.05 06:00
글자크기

정수환 숭실대 정보통신전자공학부 교수…'AI 보이스 탐지 시스템' 개발



"딥보이스는 AI 핵심기술인 딥러닝과 목소리를 합친 말로 AI가 특정인의 목소리를 복제하는 것을 말한다." (위 영상 중 실제 사람 목소리)

"4월17일부터 19일까지 코엑스에서 딥보이스 관련 전시를 할 예정입니다." (위 영상 중 AI로 생성된 가짜 목소리)



4일 서울 동작구의 숭실대학교 'AI 보안 센터' 사무실. 10~20초 가량 무작위로 문장을 읽은 뒤 AI 생성기 사이트에 음성파일을 올렸다. 그러자 AI가 생성한 가짜 목소리가 온라인 상에 입력한 새로운 문장을 읽었다. 목소리 톤과 억양, 말투 모두 유사했다.

최근 AI를 이용한 딥페이크, 딥보이스가 기승을 부리는 가운데 진짜와 가짜를 구별할 수 있는 기술의 중요성이 커지고 있다. AI 기술이 고도화되면서 개인의 역량만으로는 점점 더 구별하기 어려워지고 있다.



사이트에 음성 파일 넣었더니… "Fake(가짜) 54.1% 입니다"

정수환 숭실대 정보통신전자공학부 교수가 개발한 'AI 보이스 탐지 시스템'. 실제 목소리(Real 파일)는 가짜 수치가 0.04%로 낮았지만 AI로 생성된 목소리(Fake 파일)는 73.85%로 가짜 수치가 높았다. /사진=김지은 기자정수환 숭실대 정보통신전자공학부 교수가 개발한 'AI 보이스 탐지 시스템'. 실제 목소리(Real 파일)는 가짜 수치가 0.04%로 낮았지만 AI로 생성된 목소리(Fake 파일)는 73.85%로 가짜 수치가 높았다. /사진=김지은 기자


정수환 숭실대 정보통신전자공학부 교수는 지난 3년 동안 연구원, 학생들과 함께 'AI 보이스 탐지 시스템'을 만들었다. 자체 개발한 AISRC 사이트에 음성 파일을 넣으면 어떤 목소리가 진짜인지, 가짜인지 구분할 수 있다. 위의 음성 역시 '페이크(Fake)' 수치가 실제 사람 목소리는 0.04%, AI로 생성된 가짜 목소리는 73.85%였다.

정 교수는 실시간 동영상을 두고 진짜와 가짜를 구별하는 앱(어플리케이션)도 개발했다. 영상 속에서 AI 목소리가 나오면 페이크 수치가 자동으로 뜬다. 해당 수치가 50% 이상이면 가짜일 확률이 높다.

정 교수는 그동안 7만여개의 샘플 데이터를 테스트했다. 그가 음성 탐지 시스템에 진심이었던 이유는 AI 기술이 빠르게 성장하는 만큼 부작용을 최소화할 기술도 필요하다고 생각했기 때문이다.


그는 "요즘은 유튜브에도 믿을 수 없는 콘텐츠가 너무 많고 AI 기술이 보이스피싱 범죄나 사기 수법에 이용되는 경우도 많다"며 "콘텐츠를 소비자는 진짜와 가짜를 구분할 권리가 있다"고 말했다.

정 교수가 개발한 'AI 보이스 탐지 시스템'. 실시간으로 동영상 목소리가 AI 음성인지, 실제 인간 목소리인지 보여준다. 빨간색 그래프는 AI 목소리를 의미하고 파란색 그래프는 인간 목소리를 뜻한다. /사진=김지은 기자정 교수가 개발한 'AI 보이스 탐지 시스템'. 실시간으로 동영상 목소리가 AI 음성인지, 실제 인간 목소리인지 보여준다. 빨간색 그래프는 AI 목소리를 의미하고 파란색 그래프는 인간 목소리를 뜻한다. /사진=김지은 기자
기술을 만드는데 어려움도 많았다. 사람 목소리마다 다양한 특성이 있었다. 현실 세계에서는 목소리 외에도 다양한 잡음이 함께 존재했다. 정 교수는 변조된 음성과 사람의 실제 음성 데이터를 최대한 많이 수집해 딥러닝으로 차이를 판별하고 탐지했다.

그는 "2014년부터 다양한 AI 생성기가 등장했고 성능도 좋아졌다"며 "각각의 AI 생성기 모델마다 특징들이 있는데 그런 부분을 잘 캐치해 데이터를 트레이닝 시켜 진짜와 가짜를 구분하는 능력을 키웠다"고 말했다.

최근 관심있게 보는 부분은 억양과 감정 같은 비언어적인 요소다. 정 교수는 "AI로 만들어내는 감정은 100% 자연스럽지는 않다"며 "인간의 목소리 중에 감정 벡터 부분을 끄집어내서 AI 목소리와 어떻게 구분할지 연구하고 있다"고 말했다.

정 교수가 개발한 기술은 오는 17일부터 19일까지 서울 코엑스에서 열리는 'ITRC 인재양성대전 2024'에 전시될 예정이다. 그는 앞으로 딥보이스, 딥페이크를 대적할 신기술을 만들어내는 것이 중요하다고 했다. 각종 규제와 개인의 역량만으로 이 문제를 극복할 수 없다고 했다.

그는 "딥페이크, 딥보이스 기술은 경제성과 효율성이 높다는 이점도 분명히 있다"며 "단순히 규제하고 개인 스스로 진짜와 가짜를 판단하도록 요구하는 건 시대 흐름에 맞지 않다. 기술적으로 부작용을 어떻게 극복할지 고민할 시점"이라고 말했다.
TOP