이루다 개발사, 실명포함된 카톡대화 온라인 유출 사과

머니투데이 백지수 기자 2021.01.14 09:38
글자크기
AI 챗봇 이루다 이미지 /사진=스캐터랩AI 챗봇 이루다 이미지 /사진=스캐터랩


개인정보 유출 논란에 휩싸인 인공지능(AI) 챗봇 이루다의 개발사 스캐터랩이 개인의 실명 등 개인정보가 그대로 드러나 있는 카카오톡(카톡) 대화 데이터 약 1700건을 개발자 오픈소스 플랫폼에 올린 데 대해 사과했다.

스캐터랩은 해당 논란이 불거진 지난 13일 자정 무렵 언론에 보낸 사과문 및 2차 입장문을 통해 "자체 조사 결과 개발팀이 2019년 깃허브(GitHub)에 오픈소스로 공개한 'KG-CVAE -인공지능 한국어 자연어처리(NLP) 연구 모델'(인공지능 신경망 문장 생성 모듈)에 내부 테스트 샘플이 포함된 사실이 확인됐다"며 이같이 밝혔다.



이어 "해당 연구에는 내부 테스트를 위해 샘플로 추출한 100건의 데이터(개별 문장으로 환산 시 1700여 건)가 포함돼 있었다"며 "기본적으로 대화 중 실명은 '<NAME>', 숫자는 '<NUM>'으로 자동화 비식별 처리를 했으나 기계적인 필터링 과정에서도 미처 걸러지지 못한 부분이 일부 존재했다"고 시인했다.

그러면서 "한국어 자연어처리(NLP)와 관련된 기술 개발과 공유를 위한 것이었으나 데이터 관리에 더 신중하지 못했다"며 "일부 민감할 수 있는 정보가 포함된 대화 패턴이 노출된 점에 대해서 진심으로 사과드린다"고 밝혔다.



앞서 같은날 오전 페이스북 텐서플로우(오픈소스 머신러닝 플랫폼) 커뮤니티에서는 한 개발자가 스캐터랩의 서비스 '연애의 과학'에서 추출된 대화 데이터가 담긴 데이터셋에 개인정보가 비식별화가 이뤄지지 않은 채 노출돼 있다는 사실을 폭로했다. 이 개발자는 15분 만에 글을 삭제했지만 개발자들이 프로그램 소스코드를 공유하며 기술 개발을 토론하는 플랫폼인 깃허브에서 누구나 해당 데이터셋을 확인할 수 있게 되면서 파장이 커졌다.

스캐터랩은 데이터셋 설명에 "한국어의 경우 '연애의 과학'에서 추출된 대화 데이터를 활용했다"고 적시했다. 스캐터랩은 앞서 카톡 대화 텍스트 데이터 기반 연애 심리 분석 모바일앱 '연애의 과학'을 통해 수집된 카톡 대화 데이터를 AI 이루다의 중추 알고리즘을 개발하는 데 사용했다고 밝힌 바 있다.

데이터셋에 담긴 카톡 일대일 대화 묶음에는 익명화 조치가 되지 않은 실명 20여건과 '아파트 X동 XX호'와 같이 개인정보와 관련된 숫자 등이 필터링되지 않은 대화 내용이 포함돼 있었다.


논란이 되자 스캐터랩은 현재 깃허브에서 이 게시물을 삭제한 상태다. 스캐터랩은 "이루다 DB(데이터베이스)에는 숫자와 영문, 이름 등 개인정보에 해당할 가능성이 있는 정보를 포함하는 데이터는 원칙적으로 사전 필터링을 통하여 완전히 삭제했다"며 "숫자를 한글로 기재하는 전형적이지 않은 사례들이 극히 일부 발견됐고 이를 개선하기 위해 알고리즘 고도화 등 대책을 마련 중"이라고 밝혔다.

다만 스캐터랩은 "깃허브에 업로드됐던 테스트용 데이터는 이루다DB와는 그 내용과 구성이 다르다"며 "이루다의 DB(데이터베이스)는 1억개의 개별적이고 독립적인 문장 DB로 관리되고 있다"고 해명했다. "이루다 DB에서는 대화 패턴을 통해 대화를 나누는 사람들의 관계나 생활 반경 등이 추정 될 여지는 전혀 없다"는 주장이다.

스캐터랩은 "'연애의 과학' 데이터의 개인정보처리와 관련한 부분은 개인정보보호위원회와 한국인터넷진흥원(KISA)에서 조사가 진행 중"이라며 "관계 기관의 요청에 따라 성실히 조사에 임하고 있으며 앞으로도 최선을 다해 임하겠다"고 했다.

또 "논란이 되는 모든 사항에 대하여 진상조사위원회를 구성해 사내에서도 철저히 조사하는 한편, 외부 전문가를 포함한 상시개인정보보호체계를 구축하겠다"며 "재발 방지를 위한 강화된 보안 교육을 실시하는 등의 자체적인 노력도 게을리하지 않을 것"이라고 덧붙였다.

스캐터랩은 "이번 사안으로 인해 인공지능 산업계에 계신 여러 동료 기업들, 연구자분들, 파트너분들께도 조금이라도 누를 끼치지 않기를 바라는 마음"이라고도 밝혔다.
TOP