/사진=카카오
김병학 카나나알파 성과리더는 23일 카카오 개발자 컨퍼런스 '이프(if) 카카오 AI 2024'의 2일차 기조세션에서 "카카오 AI 브랜드인 '카나나'(Kanana) 모델 라인업은 LLM(거대언어모델) 3종과 MLLM(멀티모달 거대언어모델) 3종, 비주얼 생성모델 2종, 음성모델 2종 등 크기와 종류, 특성에 따라 총 10종으로 구성된다"고 밝혔다.
MLLM 3종은 통합 버전의 '카나나-o(오)', 이미지·비디오 중심의 '카나나-v(브이)', 오디오 중심의 '카나나-a(에이)'로 나뉜다. 김 성과리더는 이날 행사에서 카나나-o를 중심으로 MLLM을 소개했다.
해당 모델은 이미지 이해 성능 평가 시 자체 구축한 한국어와 한국 문화에 특화된 한국형 벤치마크에서 글로벌 모델 대비 높은 성능을 기록했다. 음성 성능 평가에서는 근소한 성능 우위를, SQA(Spoken Question Answering) 벤치마크에서는 월등히 높은 정확도를 보였다.
비주얼 생성모델 2종은 이미지 중심의 '칼리지'(KOLLAGE)와 동영상 중심의 '키네마'(KINEMA)로 나뉜다. 현재 텍스트 입력부터 이미지 그리고 개인 프로필 사진까지 다양한 입력을 처리하는 형태로 개발 중이다. 입력된 이미지를 바탕으로 단순히 영상을 생성하는 것을 넘어, 간단한 마우스 조작만으로 카메라와 캐릭터의 움직임을 쉽게 제어할 수 있게 된다.
이 시각 인기 뉴스
아울러 카카오는 이날 소개한 카나나 모델을 토대로 카카오의 AI 서비스에 적용하는 것 외에도 카카오 크루들의 생산성 향상을 도모해 'AI 네이티브' 컴퍼니로 나아가기 위한 기반을 확대한다는 계획이다.