AI
과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 AI 학습용 데이터 170종, 4억8000만건을 AI허브(aihub.or.kr)를 통해 18일부터 순차적으로 개방한다고 밝혔다.
데이터 수집에는 정부와 국내 AI·데이터 전문기업, 주요 대학, 병원 등 총 674개 기관이 참여했다. 일반 국민 4만여명도 데이터 가공과 수집에 힘을 보탰다.
개인정보 유출을 막기 위해 이미지와 영상 데이터는 사전에 정보 제공동의를 받은 것만 수집했다. 한국어 텍스트 같은 개인정보가 포함될 수 있는 데이터는 실제 자료가 아닌 직접 제작한 것만 활용했다. CCTV 영상 역시 다양한 시나리오를 바탕으로 배우가 연기한 영상으로 제작했다. 병원에서 제공받은 컴퓨터단층촬영(CT) 영상은 개인을 식별하기 어려운 영상만 골라 학습용 데이터로 따로 가공했다.
"데이터 갈증 해소" 국내 AI 확산 계기될까
이 시각 인기 뉴스
과기정통부가 2017년부터 AI허브를 만들고 학습용 데이터를 쌓아 온 이유다. AI 허브 이용률은 빠르게 늘고 있다. 이용자는 2019년 4439명에서 지난해 1만3092명으로 3배가 됐고, 활용횟수도 같은 기간 1만6177회에서 4만9085회로 늘었다. 과기정통부는 지난해부터 디지털 뉴딜 정책의 일환으로 AI 허브를 규모를 대폭 확대해 추진하고 있다. 과기정통부 관계자는 "데이터 댐 개방으로 지역별 방언을 포함한 한국어, 국내 주요 도로와 의료영상 데이터가 대폭 늘어나 AI 서비스 개발이 한층 빨라질 것"이라고 말했다.
데이터 품질 관리 체계도 마련했다. 데이터 품질 기준을 세우고 검증하는 역할은 정보통신기술협회(TTA)가 맡고 있다. 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 품질자문위원회도 운영 중이다. 데이터 개방 전 네이버와 LG, 삼성전자 등 대기업과 스타트업, 연구기관 등 20여개 기관은 데이터 활용성도 검토했다.
데이터 댐을 실제 활용한 기업들은 서비스 품질 개선에 도움이 됐다는 의견을 내놨다. A대기업은 "기존 서비스에 데이터를 적용해보니 음성 인식율이 최대 12% 향상됐다"고 전했다. B스타트업도 "자체적으로 수집하기 어려운 장애물과 특수 차선, 포트홀 등 도로의 다양한 객체가 데이터에 포함돼, 자율주행 기술개발에 큰 도움이 될 것 같다"고 밝혔다.
과기정통부는 헬스케어 등 개인의 민감한 정보가 포함될 우려가 있는 데이터 59종은 최종 검증을 거쳐 오는 30일에 개방할 계획이다. 9월 말까지는 이용자 의견을 수렴해 서비스를 개선하는 기간으로 운영한다. 임혜숙 과기정통부 장관은 "정부도 고품질의 AI 학습용 데이터를 지속적으로 제공하고 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는데 지원을 아끼지 않겠다"고 강조했다.