한국어 LLM 생태계 만든다...업스테이지, '1T클럽' 발족

머니투데이 남미래 기자 | 2023.08.14 12:30
[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]

인공지능(AI) 스타트업 업스테이지가 한국어 데이터 부족 문제를 해결하고, 고성능 LLM(거대언어모델) 개발을 통한 대한민국 LLM의 독립을 위해 '1T 클럽'을 발족한다고 14일 밝혔다. 1T 클럽은 '1 Trillion 토큰 클럽'을 줄인 것으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 기여하는 파트너사들로 구성된다.

업스테이지는 "1T 클럽은 한국어 데이터의 부족 문제 해결은 물론, 데이터 제공자와 모델 제작기업이 상생하는 생태계 확립을 통한 국내 LLM의 독립을 위해 고심한 업스테이지의 새로운 도전"이라고 설명했다.

업스테이지는 현재 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 파트너십을 위한 긴밀한 협의하고 있다. 또한 다양한 업계 리딩 기업들과 프라이빗 LLM 구축 협의는 물론 한국어 LLM의 발전에 기여할 다양한 분야의 파트너사들과 협력을 추진할 계획이다.

한국어 데이터는 대한민국 LLM 발전에 필수적인 자원이지만, 현재 상당히 부족하고 저작권의 문제에도 직면해 있다. 외국어 중심으로 학습된 빅테크의 LLM들은 한국어 실력은 물론 정서나 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗 LLM 발전에 걸림돌이 되고 있다는 설명이다.


업스테이지는 1T 클럽에 참여하는 파트너사에게 데이터 제공량에 비례해 API 사용료를 할인해주고 LLM의 API 사업으로 창출될 수익을 공유하는 등의 혜택도 제공할 계획이다.

김성훈 업스테이지 대표는 "1T 클럽을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다 할 것"이라고 말했다.

한편, 업스테이지는 이달 초 자사가 개발한 모델이 세계 최대 머신러닝 플랫폼 허깅페이스에서 운영하는 '오픈 LLM 리더보드' 평가 점수에서 72.3점을 획득, 챗GPT의 기반인 GPT-3.5 성능을 뛰어넘고 1위를 차지해 주목받은 바 있다.

[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

이 기사의 관련기사

베스트 클릭

  1. 1 손흥민 돈 170억 날리나…'체벌 논란' 손웅정 아카데미, 문 닫을 판
  2. 2 "시청역 사고 운전자 아내, 지혈하라며 '걸레' 줘"…목격담 논란
  3. 3 G마켓, 소규모 셀러 '안전보건 무료 컨설팅' 지원
  4. 4 "손흥민 신화에 가려진 폭력"…시민단체, 손웅정 감독 비판
  5. 5 "한 달에 몇 번씩 여자 접대"…버닝썬 전 직원, 경찰 유착 폭로