카카오, 자체 개발 AI 모델 10종 공개..."다양한 서비스에 적용"

머니투데이 김승한 기자 2024.10.23 14:07
글자크기
/사진=카카오/사진=카카오


카카오 (37,700원 ▲350 +0.94%)가 자체 개발한 AI(인공지능) 모델 10종을 공개했다. 향후 다양한 자사 서비스에 적용할 계획이다.

김병학 카나나알파 성과리더는 23일 카카오 개발자 컨퍼런스 '이프(if) 카카오 AI 2024'의 2일차 기조세션에서 "카카오 AI 브랜드인 '카나나'(Kanana) 모델 라인업은 LLM(거대언어모델) 3종과 MLLM(멀티모달 거대언어모델) 3종, 비주얼 생성모델 2종, 음성모델 2종 등 크기와 종류, 특성에 따라 총 10종으로 구성된다"고 밝혔다.



LLM 3종은 크기에 따라 초거대 크기의 '카나나 플래그', 중소형 크기의 '카나나 에센스', 초경량 크기의 '카나나 나노'로 나뉜다. 핵심 모델인 카나나 에센스는 현재 글로벌 최고 성능을 가진 유사 사이즈의 대표 모델과의 성능 비교에서 유사하거나 높은 성능을 보였다는 게 카카오측 설명이다. 특히 한국어 논리 및 추론을 평가하는 KMMLU, HAE-RAE 벤치마크에서 우위를 보였다.

MLLM 3종은 통합 버전의 '카나나-o(오)', 이미지·비디오 중심의 '카나나-v(브이)', 오디오 중심의 '카나나-a(에이)'로 나뉜다. 김 성과리더는 이날 행사에서 카나나-o를 중심으로 MLLM을 소개했다.



카나나-o는 음성인식, 텍스트, 음성합성 등의 모델을 각각의 필요에 따라 모듈식으로 결합해 사용했던 기존의 구조에서 벗어나, 여러 모달리티의 데이터를 통합적으로 처리하는 형태로 개발됐다. 어떤 질문을 하던 평균 1.6초의 속도로 빠른 답변을 출력해준다.

해당 모델은 이미지 이해 성능 평가 시 자체 구축한 한국어와 한국 문화에 특화된 한국형 벤치마크에서 글로벌 모델 대비 높은 성능을 기록했다. 음성 성능 평가에서는 근소한 성능 우위를, SQA(Spoken Question Answering) 벤치마크에서는 월등히 높은 정확도를 보였다.

비주얼 생성모델 2종은 이미지 중심의 '칼리지'(KOLLAGE)와 동영상 중심의 '키네마'(KINEMA)로 나뉜다. 현재 텍스트 입력부터 이미지 그리고 개인 프로필 사진까지 다양한 입력을 처리하는 형태로 개발 중이다. 입력된 이미지를 바탕으로 단순히 영상을 생성하는 것을 넘어, 간단한 마우스 조작만으로 카메라와 캐릭터의 움직임을 쉽게 제어할 수 있게 된다.


아울러 카카오는 이날 소개한 카나나 모델을 토대로 카카오의 AI 서비스에 적용하는 것 외에도 카카오 크루들의 생산성 향상을 도모해 'AI 네이티브' 컴퍼니로 나아가기 위한 기반을 확대한다는 계획이다.
TOP