축적된 R&D 논문·보고서로 AI 기계학습 데이터 구축한다

머니투데이 류준영 기자 2020.07.24 07:45
글자크기
국가 과학기술분야 기계학습 데이터 인프라 구축/자료=과기정통부국가 과학기술분야 기계학습 데이터 인프라 구축/자료=과기정통부


정부가 그간 축적된 국내 R&D(연구·개발) 논문·보고서를 이용해 과학기술 분야 AI(인공지능) 개발에 활용할 수 있는 기계학습데이터를 구축한다.



과학기술정보통신부는 디지털 뉴딜 사업의 일환으로 한국과학기술정보연구원(KISTI)이 저장해둔 논문 등을 대상으로 대규모 과학기술 기계학습 데이터 구축사업을 시작한다고 24일 밝혔다.

KISTI는 논문 본문, 보고서 표·그림 설명 등 데이터 5종, 최대 425만 여건을 레이블링 등 작업을 통해 기계학습에 활용할 수 있는 형태의 데이터로 가공할 계획이다. 이렇게 구축된 데이터는 과학기술 분야 언어이해 모델 개발, 자연어 처리 문제 해결 등에 쓰여 질 예정이다.



이 작업은 KISTI가 만 19세에서 34세 이하 2000명을 채용해 12월까지 시행할 예정이다. KISTI는 이번 사업 참여자들이 기계학습 데이터 구축 역량을 계발해 향후 과학기술분야 기계학습 데이터 레이블링 전문인력으로 계속 활동할 수 있도록 지원할 방침이다.

권석민 과기정통부 과학기술일자리혁신관은 “과학기술 분야 기계학습 데이터가 구축·개방되면, 과학기술 분야 지식자원의 지능적 연계 및 융합연구 지원, 중소기업 기술혁신을 위한 의사결정 및 비즈니스 활용이 가능해질 것”이라고 말했다.

이 기사의 관련기사

TOP