원라인에이아이, 한국판 AI 능력 평가 데이터셋 'KMMLU' 발표

머니투데이 이두리 기자 2024.03.07 16:02
글자크기
손규진 원라인에이아이 CDO/사진제공=원라인에이아이손규진 원라인에이아이 CDO/사진제공=원라인에이아이


금융 도메인 생성형 AI(인공지능) 전문기업 원라인에이아이(OneLineAI, 대표 정한얼)가 최근 대규모 한글 언어모델 평가 데이터셋 'KMMLU'(Measuring Massive Multitask Language Understanding in Korean)를 발표했다. 이번 연구는 단독 1저자인 손규진 원라인에이아이 CDO(최고개발책임자) 주도로 진행됐으며 네이버와 일루더AI(EleutherAI) 등도 참여했다.

"기존 한국어 언어 모델 연구는 평가 방법론에 대한 큰 고민이 없었습니다. 대개 영어 평가 데이터셋의 번역 버전을 사용했죠. 하지만 여기에는 번역 오류 및 문화적 차이로 생기는 다양한 문제가 존재합니다."



손규진 CDO는 "미국 정부 시스템이나 미국 문화에 대해 한국어로 물어보는 건 올바른 한국어 능력 평가가 아니다"라며 "한국 지식에 대한 한국어 질문이 필요하다"고 했다.

손 CDO에 따르면 업스테이지(Upstage)가 오픈 Ko-LLM 리더보드를 공개하면서 오픈소스 한국어 모델 붐이 일어났다. 불과 몇 달 사이에 1000개 가까운 오픈소스 한국어 모델이 공개됐지만, 많은 모델이 리더보드 점수 올리기에만 치중된 경향을 보인다고 손 CDO는 지적했다.



손 CDO는 "국내에서 주로 사용되는 한국어 평가 데이터셋은 해외 유명 벤치마크를 번역한 것"이라며 "한국어 능력 및 한국 문화·지식 이해도를 평가하기에는 부족한 부분이 있다"고 했다. 이어 "올바른 평가 방법론이 정립돼야 이를 바탕으로 신규 언어 모델의 성능을 측정하고 개선할 수 있다"며 "이를 위해 한국어 언어모델 평가만을 목적으로 한 데이터셋을 만들어 공개했다"고 말했다.

손 CDO는 본 연구로 온라인상 수집 가능한 533종 이상의 한국어 시험에서 질문·답변 쌍을 수집 및 정제했다고 설명했다. 이를 통해 45개의 카테고리와 3만5030개 질문으로 구성된 한국어 언어 모델 평가용 데이터셋 'KMMLU'를 만들었다고 덧붙였다. 이 평가 데이터셋은 전문가 수준의 지식을 포함해 현재 발표된 한글 언어모델 평가 데이터 셋 중 가장 광범위한 평가 범위를 가지고 있다.

손 CDO에 따르면 KMMLU 평가 결과 GPT-4(오픈AI), 하이퍼클로바 X(네이버), 제미나이-프로(구글) 순으로 좋은 성능을 보였다. 한국 특화 질문에 한해서는 '하이퍼클로바 X'가 GPT-4를 소폭 상회한다는 것도 확인할 수 있었다고 손 CDO는 말했다.


손 CDO는 "한국어 평가에 표준으로 작동할 수 있는 신규 데이터셋 KMMLU를 제작했다는 게 이번 연구의 가장 큰 성과"라며 "해당 데이터셋은 최근 다운로드 수 24만회를 넘으며 해외 빅테크에서도 관심을 보이고 있다"고 했다.

한편 원라인에이아이는 금융 언어 모델을 개발 중인 업체다. 3월 중 자체 개발 금융 언어 모델 OLA-F 및 OLA-F를 탑재한 금융 콘텐츠 자동 생성 서비스 'OLA'를 론칭할 예정이다.
TOP