'1000억 실탄 장전' 업스테이지, 다국어 LLM 개발 기반 다진다

머니투데이 최태범 기자 2024.05.09 18:30
글자크기
[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]

(왼쪽부터)플리토의 신기영 프로덕트전략실장, 박충원 커뮤니케이션실장, 이정수 대표, 업스테이지의 권순일 부사장, 박찬준 수석연구원, 김민성 LLM 비즈니스 개발·세일즈 팀장 /사진=플리토 제공(왼쪽부터)플리토의 신기영 프로덕트전략실장, 박충원 커뮤니케이션실장, 이정수 대표, 업스테이지의 권순일 부사장, 박찬준 수석연구원, 김민성 LLM 비즈니스 개발·세일즈 팀장 /사진=플리토 제공


최근 1000억원 규모의 시리즈B 투자를 유치한 인공지능(AI) 기술 기업 업스테이지가 AI 언어 데이터 기업 플리토 (31,300원 ▲300 +0.97%)와 다국어 거대언어모델(LLM) 개발을 위한 업무협약을 체결했다고 9일 밝혔다.



현재 빅테크 기업이 주도하는 LLM 개발은 영어에 편중돼 상대적으로 아시아권의 언어는 학습 데이터가 부족하다. 양측은 일본어, 태국어 등 다국어 언어 데이터를 구축하고 고품질 LLM 개발 기반을 다진다는 계획이다.

구체적으로 △한국어 언어모델 평가 플랫폼 'Open-Ko LLM 리더보드' 벤치마크 데이터셋 구축 △다국어 LLM 리더보드 운영 △저자원 언어 데이터 구축 및 저자원 언어 활용 LLM 현지화 △기업용 LLM 구축에 따른 데이터 공급 파트너십 강화 등에 협력한다.



업스테이지 관계자는 "고품질 저자원 언어 데이터를 확보해 사전학습 LLM '솔라'의 지원 언어를 더욱 확장하고, 동남아시아 등 다양한 지역별 언어에 특화된 맞춤형 모델을 개발하겠다"고 했다.

솔라는 현재 한국어와 영어를 지원하며 연내 일본어와 태국어까지 지원 언어를 확대할 예정이다. 플리토는 다국어 병렬 말뭉치 구축 노하우와 저작권 이슈가 없는 텍스트·이미지·음성 데이터셋을 통해 자사의 언어 수집 기술 경쟁력을 높인다는 목표다.

김성훈 업스테이지 대표는 "언어모델로 촉발된 생성형 AI 열풍이 전 세계를 뒤흔들고 있는 상황에서 양질의 언어 데이터 확보는 필수적인 과제"라며 "이번 협력을 통해 전세계 더 많은 사람들이 생성형 AI 혁신을 경험할 수 있도록 데이터 고도화에 나설 것"이라고 했다.


이정수 플리토 대표는 "저자원 언어 학습 분야는 LLM 성능의 핵심 요소로 부상했다"며 "고품질 데이터와 고도화된 기술 간 접목이 국내 생성형 AI 생태계에 긍정적인 기여를 할 수 있다는 것을 보여줄 것"이라고 말했다.

[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

이 기사의 관련기사

TOP