4일 업계에 따르면 개인정보보호위원회는 최근 '합성데이터 활용 참조모델 개발 및 실증 연구' 용역사업을 발주했다. 개인정보위는 제안서에서 AI 등 신기술 분야 발전으로 양질의 데이터를 안전하고 유용하게 활용할 수 있는 합리적인 데이터 활용방안에 대한 필요성 증대에 따른 연구라고 설명했다.
합성데이터는 생성형 AI가 등장하면서 활용도가 높아질 것이라는 평가를 받는다. 생성형 AI는 답변을 생성하기 위해 수많은 기존 인터넷 상의 데이터를 학습하는데 이 과정에서 저작권 침해, 개인정보 유출 등이 발생할 수 있다는 우려를 받는다. 합성데이터를 학습에 활용하면 이같은 우려에서 비교적 자유로워진다.
그동안 전문가들은 합성데이터가 제대로 활용되지 못하는 이유로 안전성 문제를 지적해 왔다. 아무리 재가공한 정보라 하더라도 개인식별정보가 포함될 수도 있고 비윤리적 정보가 포함될 수도 있기 때문이다. 2020년 말 스캐터랩의 AI 챗봇 '이루다'는 불안전한 데이터를 학습했다가 혐오발언 등 윤리성 문제에 휩싸여 20일 만에 서비스를 중단한 바 있다.
개인정보위는 연구용역을 통해 합성데이터 생성·활용 전 과정을 체계적으로 정리해 과정별 유의사항 등을 포함한 합성데이터 생성 권고 기준을 마련한다. 이를 위해 연구 과정에서 합성데이터 수요자와 합성화 대상 데이터 주요 기관·기업을 매칭해 5종의 합성데이터를 만든다. 개인정보위는 만들어진 합성데이터를 사이버훈련장에 구축해 공개할 예정이다.
이 시각 인기 뉴스
개인정보위 관계자는 "안전성이 확보된 합성데이터를 생성하는 절차와 그 결과물을 공개해 기업들이 자체적으로 합성데이터를 생성·활용할 때 참고할 수 있도록 하는 것이 이번 연구용역의 목표"라면서 "AI 학습을 위해 기존 정보를 수집하는 것보다 안전한 합성데이터를 활용하는 것이 기업 입장에서도 위험부담을 줄일 수 있는 방법"이라고 말했다.