막말하는 AI, 제대로 교육 시킨다…'합성데이터' 생성·활용 절차 마련

머니투데이 이정현 기자 | 2023.07.04 08:45

정부가 합성데이터의 안전한 생성·활용 절차 및 참조모델 마련에 나섰다. 합성데이터는 개인정보 유출 및 사생활 침해 등의 우려가 적어 최근 생성형 AI(인공지능)의 학습용 데이터로 주목받고 있다. 정부는 합성데이터의 안전성 기준을 마련해 기업이 마음놓고 합성데이터를 생성·활용할 수 있도록 할 계획이다.

4일 업계에 따르면 개인정보보호위원회는 최근 '합성데이터 활용 참조모델 개발 및 실증 연구' 용역사업을 발주했다. 개인정보위는 제안서에서 AI 등 신기술 분야 발전으로 양질의 데이터를 안전하고 유용하게 활용할 수 있는 합리적인 데이터 활용방안에 대한 필요성 증대에 따른 연구라고 설명했다.

재현데이터라고도 불리는 합성데이터는 실제 환경에서 수집된 것이 아닌 컴퓨터 시뮬레이션 등 디지털 환경에서 만들어낸 정보를 뜻한다. 인공적으로 만들어낸 정보지만 수학적이나 통계적으로 실제 데이터를 반영했다. 실제 데이터를 수집해 가공하는 것보다 훨씬 경제적이고 개인정보 유출이나 사생활 침해 우려가 없다.

합성데이터는 생성형 AI가 등장하면서 활용도가 높아질 것이라는 평가를 받는다. 생성형 AI는 답변을 생성하기 위해 수많은 기존 인터넷 상의 데이터를 학습하는데 이 과정에서 저작권 침해, 개인정보 유출 등이 발생할 수 있다는 우려를 받는다. 합성데이터를 학습에 활용하면 이같은 우려에서 비교적 자유로워진다.

개인정보위는 이번 연구용역을 통해 합성데이터 생성 시 통계적 유의성 및 동질성, 데이터 품질 손상 등 장애요인 분석 및 개인식별위험 등에 대한 안전성 평가 지표를 마련한다. 합성화 대상 속성정보 등 데이터 자체의 식별 위험성과 AI 학습용 등 처리 목적 및 환경의 식별 위험성 검토 체크리스트도 마련할 계획이다.


그동안 전문가들은 합성데이터가 제대로 활용되지 못하는 이유로 안전성 문제를 지적해 왔다. 아무리 재가공한 정보라 하더라도 개인식별정보가 포함될 수도 있고 비윤리적 정보가 포함될 수도 있기 때문이다. 2020년 말 스캐터랩의 AI 챗봇 '이루다'는 불안전한 데이터를 학습했다가 혐오발언 등 윤리성 문제에 휩싸여 20일 만에 서비스를 중단한 바 있다.

개인정보위는 연구용역을 통해 합성데이터 생성·활용 전 과정을 체계적으로 정리해 과정별 유의사항 등을 포함한 합성데이터 생성 권고 기준을 마련한다. 이를 위해 연구 과정에서 합성데이터 수요자와 합성화 대상 데이터 주요 기관·기업을 매칭해 5종의 합성데이터를 만든다. 개인정보위는 만들어진 합성데이터를 사이버훈련장에 구축해 공개할 예정이다.

개인정보위 관계자는 "안전성이 확보된 합성데이터를 생성하는 절차와 그 결과물을 공개해 기업들이 자체적으로 합성데이터를 생성·활용할 때 참고할 수 있도록 하는 것이 이번 연구용역의 목표"라면서 "AI 학습을 위해 기존 정보를 수집하는 것보다 안전한 합성데이터를 활용하는 것이 기업 입장에서도 위험부담을 줄일 수 있는 방법"이라고 말했다.

베스트 클릭

  1. 1 평창동 회장님댁 배달 갔더니…"명절 잘 보내라"며 건넨 봉투 '깜짝'
  2. 2 짓밟고 헤어드라이기 학대…여행가방에 갇혀 숨진 9살 의붓아들 [뉴스속오늘]
  3. 3 "녹아내린 계좌, 살아났다"…반도체주 급등에 안도의 한숨[서학픽]
  4. 4 야산에 묻은 돈가방, 3억 와르르…'ATM 털이범' 9일 만에 잡은 비결[베테랑]
  5. 5 '학폭 피해' 곽튜브, 이나은 옹호 발언 논란…"깊이 생각 못해" 결국 사과