KLT2000 형태소 분석기는 국내외 최고 수준의 언어처리 기술로, 딥러닝 언어처리에서 필수적으로 요구된다.
강 교수팀은 이를 기반으로 한국어 워드 임베딩 모델을 개발했다. 이 모델은 딥러닝 언어처리 기술 수준을 한 단계 향상시키는데 활용되며 국내외 연구자들이 자유롭게 사용할 수 있다.
한국어 워드 임베딩 모델은 IT융합 시대의 국가경쟁력과 SW기반 원천기술 확보를 위해 이뤄진 과학기술정보통신부의 차세대정보컴퓨팅 사업(과제명 : 한국어 정보처리 원천기술 연구개발)의 결과물이다. 구축된 국내 최대 규모의 한국어 원시말뭉치(7억 3000만 어절, 4900만 문장)를 기반으로 개발됐다.
이 기술은 한국어 단어들을 벡터로 구성해 "서울-대한민국+일본"이라는 벡터 연산을 통해 '동경'을 추론할 수 있다. 단어 유사도 계산을 통해 가장 유사한 단어들을 추출하는 연산도 가능하다.
단어 벡터를 이용한 추론 기능과 단어간 유사도 계산 및 연관관계 분석 기술은 대용량 텍스트 분석, 딥러닝 언어처리, 텍스트마이닝 등 한국어 언어처리와 관련된 다양한 연구 분야에서 활용될 수 있다. 언어처리 기술과 자연어처리 분야의 학문 발전에 기여할 것으로 기대된다.
[저작권자 @머니투데이, 무단전재 및 재배포 금지]