손규진 원라인에이아이 CDO/사진제공=원라인에이아이
"기존 한국어 언어 모델 연구는 평가 방법론에 대한 큰 고민이 없었습니다. 대개 영어 평가 데이터셋의 번역 버전을 사용했죠. 하지만 여기에는 번역 오류 및 문화적 차이로 생기는 다양한 문제가 존재합니다."
손 CDO에 따르면 업스테이지(Upstage)가 오픈 Ko-LLM 리더보드를 공개하면서 오픈소스 한국어 모델 붐이 일어났다. 불과 몇 달 사이에 1000개 가까운 오픈소스 한국어 모델이 공개됐지만, 많은 모델이 리더보드 점수 올리기에만 치중된 경향을 보인다고 손 CDO는 지적했다.
손 CDO는 본 연구로 온라인상 수집 가능한 533종 이상의 한국어 시험에서 질문·답변 쌍을 수집 및 정제했다고 설명했다. 이를 통해 45개의 카테고리와 3만5030개 질문으로 구성된 한국어 언어 모델 평가용 데이터셋 'KMMLU'를 만들었다고 덧붙였다. 이 평가 데이터셋은 전문가 수준의 지식을 포함해 현재 발표된 한글 언어모델 평가 데이터 셋 중 가장 광범위한 평가 범위를 가지고 있다.
손 CDO에 따르면 KMMLU 평가 결과 GPT-4(오픈AI), 하이퍼클로바 X(네이버), 제미나이-프로(구글) 순으로 좋은 성능을 보였다. 한국 특화 질문에 한해서는 '하이퍼클로바 X'가 GPT-4를 소폭 상회한다는 것도 확인할 수 있었다고 손 CDO는 말했다.
이 시각 인기 뉴스
손 CDO는 "한국어 평가에 표준으로 작동할 수 있는 신규 데이터셋 KMMLU를 제작했다는 게 이번 연구의 가장 큰 성과"라며 "해당 데이터셋은 최근 다운로드 수 24만회를 넘으며 해외 빅테크에서도 관심을 보이고 있다"고 했다.
한편 원라인에이아이는 금융 언어 모델을 개발 중인 업체다. 3월 중 자체 개발 금융 언어 모델 OLA-F 및 OLA-F를 탑재한 금융 콘텐츠 자동 생성 서비스 'OLA'를 론칭할 예정이다.