"고객 목소리 맞는데" 400억 뜯겼다…'新범죄와의 전쟁' 선포한 檢

머니투데이 정경훈 기자, 김창현 기자, 황국상 기자, 심재현 기자 2023.02.12 09:00
글자크기

[MT리포트-신종범죄의 습격 1부: 딥보이스, AI 범죄 잡는 AI](上)

[단독]"목소리 소름주의"…400억 가로챈 '딥보이스 범죄', 檢도 나섰다
경찰청이 지난해 10월 딥보이스 범죄 예방을 위해 제작한 공익영상 '소름주의 내 딸인 줄 알았는데'. /경찰청 유튜브 캡쳐경찰청이 지난해 10월 딥보이스 범죄 예방을 위해 제작한 공익영상 '소름주의 내 딸인 줄 알았는데'. /경찰청 유튜브 캡쳐


2021년 아랍에미리트(UAE)의 한 은행에서 대기업 임원의 전화를 받고 3500만달러(당시 환율 약 420억원)를 송금했다. 하지만 전화를 건 사람은 기업 임원이 아니라 '인공지능(AI) 딥보이스'로 임원의 목소리를 흉내낸 전화사기단이었다. 평소 이 임원의 목소리를 잘 알았던 은행 관계자는 한치의 의심도 없이 거액을 이체했다. 전화 한통으로 순식간에 수백억원이 털린 것이다. 미국 IT 전문조사업체 가트너는 올해 금융사기범죄 20%에 이런 딥페이크 기술이 악용될 것이라고 전망했다.

우리 경찰청도 지난해 10월 딥보이스를 이용한 보이스피싱을 주의하라는 공익 영상을 냈다. 영상 속 어머니는 딸의 음성으로 '휴대폰 수리비 80만원을 보내달라'는 부탁을 받지만 목소리의 주인은 딸로 둔갑한 사기단이었다. 영상의 제목은 '소름주의 내 딸인 줄 알았는데'. 댓글에는 "공포영화급"이라는 반응이 이어졌다.



인공지능을 악용한 딥보이스 신종범죄 피해가 급증하고 있다. UAE의 사례처럼 해외에서는 한건에 수백억원의 피해가 발생하는 딥보이스 범죄도 속속 보고된다. 검찰청은 이런 AI 신종범죄에 대한 대응책의 일환으로 2027년까지 딥보이스 가짜음성 탐지기술 개발(음성·텍스트 딥러닝 기술 기반 보이스피싱 예방기술 개발)에 나서기로 했다. AI를 타고 첨단기술화하는 범죄와의 전쟁에서 AI 기술로 대응하겠다는 것이다.

"눈눈이이, AI 막는데는 AI"…딥페이크 탐지 개발 속도



"고객 목소리 맞는데" 400억 뜯겼다…'新범죄와의 전쟁' 선포한 檢
11일 검찰에 따르면 대검 과학수사부(부장 정진우 검사장)는 2024~2027년 딥보이스 기술 개발에 착수하기로 했다. 4개년 국책사업으로 진행한 '형사사법 증거 검증체계 고도화 및 프런티어 기술 개발 연구사업'이 올해 말 종료되면 딥보이스 범죄 예방 기술을 후속 국책과제로 추진할 방침이다. 검찰이 신종범죄로 떠오른 딥보이스 탐지에 초점을 맞춰 기술 개발에 나서는 것은 처음이다.

음성 복제·합성·변조 기술인 딥보이스는 '목소리 딥페이크'다. 인공지능의 딥러닝(심화학습) 기술로 '진짜 같은 가짜(fake)' 목소리를 만드는 목소리 바꿔치기 기술이 딥보이스다. 누군가의 음성 파일을 따 다른 사람의 입모양에 덧씌우는 음성합성 기술이나 게임 등에서 이용자의 목소리를 캐릭터의 소리로 바꿔주는 음성변조 기술이 범죄에 악용된다.


딥보이스 범죄가 무서운 것은 경찰청이 공개한 공익 영상에서처럼 지인의 목소리로 피해자를 속일 수 있다는 점이다. '조선족 말투'로 이상한 낌새를 알아차릴 수 있었던 과거 보이스피싱과 달리 익숙한 지인의 목소리로 접근하는 딥보이스 범죄에서는 전문가들도 가짜 여부를 구별하기 쉽지 않다.

홍기훈 숭실대 전자정보공학부 교수는 "국내에서도 피해자들이 종종 '자녀의 목소리인 줄 알았다'고 하는데 딥보이스를 활용한 범죄"라고 말했다.

전창배 국제인공지능윤리협회 이사장은 "2~3분짜리 목소리 녹음 파일이 있으면 전문가가 아니라도 앱을 이용해 딥보이스를 만들 수 있다"며 "이런 기술이 진짜와 가짜를 구별할 수 없을 정도로 발전했다"고 말했다.

쉬워진 제작기술에 피해 일파만파…정부·국회·수사당국 삼각 선제대응 절실

"고객 목소리 맞는데" 400억 뜯겼다…'新범죄와의 전쟁' 선포한 檢
딥보이스 범죄는 유튜브에서 유명인의 목소리를 따 악용하는 범죄에도 활용될 수 있다. 지난해 볼로디미르 젤렌스키 우크라이나 대통령의 '항복 선언' 가짜 영상이 유튜브에 퍼졌던 게 대표적이다.

기술적으로는 일반 음성과 합성 음성의 주파수나 코드 차이를 구분하는 방식 등으로 딥보이스 여부를 판별해 범죄를 예방할 수 있지만 실제로 이런 기술을 개발하는 데는 상당한 시간이 걸린다. 합성·변조 기술의 발전 속도가 워낙 빨라 다양한 형태로 만들어지는 합성·변조음을 일일이 판별할 수 있는 기술을 제때 상용화하기는 쉽지 않다는 얘기다.

범죄 적발과 처벌 영역에서는 딥보이스 탐지 기술로 적발한 범죄 증거물을 법원에서 인정받는 것도 넘어야 할 산이다. 대검 관계자는 "결과물이 법원에서 증거로 인정받으려면 그만큼 탐지 기술의 안정성이 높아야 한다"며 "기술에 올라탄 범죄에 맞서기 위해 더 치밀한 대응기술이 필요해진 상황"이라고 말했다.

전문가들은 딥보이스 범죄 확산을 막기 위해선 정부와 국회도 적극적으로 나서야 한다고 주문한다. 탐지 기술은 수요자가 수사기관 등으로 한정돼 개발 유인이 적기 때문에 정부가 예산을 들이지 않으면 기업이 먼저 나서기 어렵다는 얘기다.

전창배 이사장은 "정치권에서 아직 딥보이스나 인공지능에 대한 관심이 크지 않은데 골든타임을 놓치면 안 된다"고 말했다.

"고객 목소리 맞는데" 400억 뜯겼다…'新범죄와의 전쟁' 선포한 檢
"음성 3초, 사진 1장이면 사람 복제 가능"…AI 올라탄 범죄
전직 주 러시아 미국 대사를 지낸 마이클 맥폴이 지난해 자신의 트위터 계정을 통해 자신을 흉내낸 딥페이크물에 주의할 것을 당부하는 글을 올렸다. 맥폴 전 대사는 해당 딥페이크에 대해 "러시아의 새로운 전쟁 무기"라고 주장했다. 사진은 트위터 게시물 캡쳐. 전직 주 러시아 미국 대사를 지낸 마이클 맥폴이 지난해 자신의 트위터 계정을 통해 자신을 흉내낸 딥페이크물에 주의할 것을 당부하는 글을 올렸다. 맥폴 전 대사는 해당 딥페이크에 대해 "러시아의 새로운 전쟁 무기"라고 주장했다. 사진은 트위터 게시물 캡쳐.
전직 주 러시아 미국 대사였던 마이클 맥폴이 지난해 10월 트위터에 "나를 도용한 딥페이크를 유의하라"는 메시지를 올렸다. 맥폴 전 대사는 이 딥페이크에 대해 "러시아의 신종 전쟁무기"라고도 했다. 딥페이크가 단순 범죄를 넘어 외교안보 문제로 비화할 수 있음을 지적한 사례다.

딥페이크는 '딥러닝(심층학습)'과 '가짜(Fake)'를 합성한 용어다. 인공지능(AI)의 딥러닝을 활용해 사진·영상·음성을 도용하거나 복제하는 기술을 일컫는다. 3~4년 전만 해도 인간형 AI나 딥보이스 모델을 제작하려면 몇 시간 분량의 녹화와 녹음자료가 필요했지만 이제는 사진 1장으로도 그 사람인 것처럼 움직이는 영상을 만들 수 있다.

지난해 3·1절 독일 마이헤리티지의 딥페이크 기술을 활용해 네티즌들이 제작한 유관순 열사, 안중근 의사, 윤봉길 의사 등 순국선열의 딥페이크 영상이 대표적이다. MS(마이크로소프트)가 지난달 발표한 음성합성 기술 '발리(Vall-E)'는 불과 3초의 음성 파일로 사람의 목소리를 복제할 수 있는 것으로 알려진다.

독일 마이헤리티지의 딥페이크 기술을 활용해 네티즌들이 제작한 유관순 열사, 안중근 의사, 윤봉길 의사 등 순국선열의 딥페이크 영상.독일 마이헤리티지의 딥페이크 기술을 활용해 네티즌들이 제작한 유관순 열사, 안중근 의사, 윤봉길 의사 등 순국선열의 딥페이크 영상.
일상 파고든 '가짜 목소리'…당신도 타깃

"고객 목소리 맞는데" 400억 뜯겼다…'新범죄와의 전쟁' 선포한 檢
문제는 맥폴 전 대사가 경고한대로 이런 기술의 발달을 범죄에 악용하려는 이들이 있다는 점이다. 최경진 인공지능법학회장(가천대 법학과 교수)은 "기술 발전으로 인공지능 활용 비용이 대폭 줄어드는 등 진입문턱이 낮아졌다"며 "사진 1장과 1~2분짜리 통화 녹음 목소리만 있으면 그 사람인 것처럼 동영상을 만들 수 있게 되면서 범죄에 기술이 악용되는 사례가 늘고 있다"고 말했다.

관련업계에 따르면 2019년 3월 영국의 한 기업이 고위 임원 목소리를 도용한 딥보이스에 속아 22만유로(약 2억9800만원)을 잘못 송금한 사건을 비롯해 △중국 국세청 안면인식 시스템을 딥페이크로 속여 세금 875억원을 탈루한 사례(2021년 3월) △UAE(아랍에미리트) 은행이 기업 임원의 목소리를 도용한 딥보이스에 속아 3500만달러(약 420억원)를 송금한 사례(2021년 10월) 등이 유명한 금융 딥페이크 범죄로 꼽힌다.

정치·외교·안보 등 민감한 영역에서 허위정보 유포가 문제되는 경우도 있다. 2018년 도널드 트럼프 당시 미국 대통령을 비속어로 평가절하하는 버락 오바마 전 대통령의 딥페이크 동영상이 온라인에 퍼졌다. 기업 보안도 위협을 받을 수 있다. 지난해 6월 미국 FBI(연방수사국)는 도용한 개인식별정보 등으로 딥페이크를 만들어 재택·원격근무를 운영하는 기업에 취직하려는 시도가 다수 발견됐으니 주의하라는 공문을 배포했다.

"고객 목소리 맞는데" 400억 뜯겼다…'新범죄와의 전쟁' 선포한 檢
디지털 성착취물 문제도 크다. 대표적인 사건이 미성년자 성착취물을 생산·유포했던 'N번방 사태'다. 국가정보원은 2021년 5월 페이크 음란물 협박을 통한 금전 편취를 경계할 것을 당부하는 자료를 냈다. 지난해 1월에는 국군장병을 조롱하는 듯한 위문편지를 작성한 여고생을 대상으로 딥페이크 디지털 성폭력 사건이 있었다. 같은 해 5월 취업준비생을 상대로 딥페이크 성착취물를 만들어 협박한 사건이 경찰에 적발됐다.

일본에서는 쇼핑몰, 여행사, 학원 등의 이용후기에 딥페이크를 사용해 가짜 얼굴 사진 등으로 후기를 작성, 평판을 조작한 사건도 보고됐다. 딥페이크가 이미 일상에 깊숙하게 침투했다는 얘기다.

"새로운 유형의 범죄"…디지털지문 도입·처벌 강화 필요

"고객 목소리 맞는데" 400억 뜯겼다…'新범죄와의 전쟁' 선포한 檢
전문가들 사이에선 이런 폐해를 막기 위해 AI 기술을 활용하는 기업에 일정 의무를 부과해야 한다는 의견이 나온다. 삼성SDS(삼성에스디에스 (147,400원 ▼2,200 -1.47%))에서 AI 기반 멀티미디어 위변조 대응 플랫폼을 개발하는 사내벤처 팀나인의 홍민기 프로는 "범죄가 발생한 뒤 사실 여부를 파악하는 '사후 탐지'로는 딥페이크 악용 범죄에 대처하기 어렵다"며 "이미지, 음성, 영상 등 미디어 생성부터 배포·사용까지 모든 과정을 기록·열람하도록 규격을 적용하거나 디지털 포렌식 과정을 통해 미디어 고유 정보의 디지털 지문을 검증하는 대응책이 필요하다"고 말했다.

처벌을 강화해야 한다는 주장도 있다. 김명주 서울여대 바른AI연구센터장 겸 정보보호학과 교수는 "가족끼리 통화할 때도 상대방이 AI로 만들어진 가짜 인간인지 의심해 봐야 하는 시대가 됐다"며 "딥페이크 악용 범죄를 가중처벌하는 등 조치가 필요하다"고 밝혔다.

김 교수는 "N번방 사건으로 딥페이크 음란물에 대한 처벌규정만 강화됐을 뿐 다른 유형의 딥페이크 악용에 대한 방지책은 없다"며 "AI로 만든 딥페이크물에 '이 생성물은 딥페이크물'이라는 표시조항을 넣도록 강제한 미국의 딥페이크지법도 참조할 필요가 있다"고 말했다.

최경진 학회장 역시 "딥페이크를 악용해 타인의 생명·신체·재산에 위해를 가하는 행위를 새로운 범죄 유형으로 정할 수도 있을 것"이라며 "'딥페이크 이용 명의도용죄' 등을 새로운 범죄 유형으로 추가할지도 공론화해야 한다"고 말했다.

미국인에 "투표하라"는 김정은…'탑건' 발킬머도 이 기술 덕 봤다
미국 시민단체가 인공지능 딥페이크 기술로 제작한 미국 대선투표 독려 영상. 김정은 북한 국무위원장이 등장해 투표를 독려한다. /유튜브 영상 캡쳐미국 시민단체가 인공지능 딥페이크 기술로 제작한 미국 대선투표 독려 영상. 김정은 북한 국무위원장이 등장해 투표를 독려한다. /유튜브 영상 캡쳐
음성 합성 기술은 말소리의 음파를 기계가 자동으로 만들어내는 기술이다. 목소리를 녹음하면 일정한 음성 단위로 분할해 보관했다가 필요할 때마다 조각난 음성을 합해 목소리를 만들어낸다.

유튜브에서 일명 '봇'이 읽어주는 자막이 이런 기술로 만들어진 대표적인 결과물이다. 과거에는 부자연스러운 억양도 문제지만 조각난 음성을 사람이 일일이 이어붙이는 데 걸리는 시간이 더 문제였다.

1950년대부터 연구된 음성 합성 기술이 기술의 장벽을 넘지 못했던 이유가 여기 있다. 2010년대 중반까지만 해도 음성 합성 분야에서만큼은 기술이 사람을 쉽게 따라오지 못했다. 흉내내는 목소리 기술이 있었을 뿐이다.

상황이 뒤집힌 것은 인공지능(AI)이 등장하면서부터였다. 사람의 뇌를 그대로 재현한 듯한 신경망 회로가 머신러닝과 딥러닝을 반복하면서 말 그대로 말을 배우기 시작했다. 구글이 기존의 음성인식기술 타코트론과 구글 딥마인드가 개발한 웨이브넷을 합해 2017년 출시한 '타코트론2'는 "음~"이나 "어~"처럼 사람들이 쓰는 추임새까지 구사하는 수준에 이르렀다.

한층 더 진화한 인공지능이 만들어내는 딥보이스(가짜 음성)는 자연스럽지만 무미건조했던 목소리의 수준을 넘어 감정까지 구사한다. 지난해 스포티파이가 인수한 인공지능 음성합성 스타트업 소난틱의 기술은 같은 문장을 '화난', '공포에 질린', '행복한', '슬픈', '소리지르는' 등 다양한 감정으로 표현하고 감정의 세기도 3단계로 설정할 수 있어 현실감을 더한다.

인후암 수술을 받은 뒤 목소리 연기에 어려움을 겪고 있는 영화배우 발 킬머가 할리우드 영화 '탑건 매버릭'에 출연할 수 있었던 것도 소난틱의 음성합성 기술의 도움 덕이었던 것으로 알려진다.

2020년에는 김정은 북한 국무위원장이 "아무것도 하지 않으면 민주주의가 망한다"며 대선 투표를 독려하는 딥페이크 영상이 화제가 됐다. 미국의 부패 감시 시민단체 '리프레젠트어스'가 인공지능을 이용해 만든 이 가짜 영상은 김 위원장의 몸통과 머리를 연결한 부분의 움직임이 약간 어색하지만 얼굴 표정과 목소리 등은 진짜와 흡사하다.
TOP