AI가 고문헌 한자 읽어준다…누리IDT 고문헌OCR출시

머니투데이 변휘 기자 2023.06.08 10:11
글자크기
/사진제공=누리IDT/사진제공=누리IDT


지능형 데이터 전문기업 누리IDT가 인공지능(AI) 기반의 고문헌 한자 문자인식(OCR)서비스를 출시했다고 8일 밝혔다.

'고문헌 한자OCR서비스'는 국내 고문헌 자료에 특화된 한자 자동인식 모델이다. 화면의 원문 이미지 입력 창에 원문을 업로드하면 AI가 이미지 속의 글자를 자동인식하고 곧바로 한자 텍스트로 출력해 준다.

서비스 개발 과정에서 AI모델은 형태와 크기가 다양한 고문헌 속 한자를 3000만자 이상 학습했다. 그 결과 일반적인 고문헌 형태, 가장 많이 쓰이는 해서체나 행서체 글자에 세로쓰기로 제작된 목판본 자료에 대해서는 인식률 95~100%을 구현하고 있다. 또 손글씨로 작성된 필사본도 전문가 판독이 어려울 정도의 초서 자료가 아니라면 상당한 인식률을 보인다.



한문 고문헌 자료를 다량 보유하고 있는 한국학 연구 기관, 대학과 연구소, 도서관, 문화원 등 각급 기관들은 보유 고문헌의 텍스트화 및 데이터베이스 구축에 투입되는 노력과 비용을 10분의 1 수준으로 줄일 수 있을 것으로 기대된다.

누리IDT는 현재 한국고전번역원이 제공하고 있는 '한문고전 자동번역 서비스'를 개발하는 등 주요 한국학 연구 기관들의 DB구축 사업을 수행한 바 있다.



배성진 누리IDT 대표는 "최근 생성AI가 각광 받고 있지만, 정작 콘텐츠의 보고인 고문헌 자료는 여전히 AI기반의 자동 처리가 미치지 않는 영역"이며 "고문헌 한자OCR서비스가 적극 사용돼 원문의 텍스트화가 촉진되기를 바란다"고 말했다.

TOP