엔비디아가 투자한 한국 AI 스타트업, '영상이해' 분야 공략 본격화

머니투데이 최태범 기자 2024.03.15 06:30
글자크기
[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]

엔비디아가 투자한 한국 AI 스타트업, '영상이해' 분야 공략 본격화


인공지능(AI) 기술 스타트업 트웰브랩스가 초거대 AI 영상언어 생성 모델 '페가수스(Pegasus-1)'와 멀티모달 영상이해 모델 '마렝고(Marengo 2.6)'를 업데이트 출시했다고 14일 밝혔다.



2021년 설립된 트웰브랩스는 영상 분야 초거대 AI 모델을 개발하는 스타트업이다. 복합정보처리(멀티모달) 신경망을 활용해 영상 검색, 분류, 생성 등 영상을 전문적으로 다룬다. 관련 기술을 다른 기업들이 활용할 수 있도록 개발자용 API 형태로 제공한다.

글로벌 투자업계는 창업 초기부터 트웰브랩스에 높은 관심을 보였다. 2022년 초 다수의 유니콘을 배출한 실리콘밸리 벤처캐피탈(VC) 인덱스벤처스 등에서 1700만달러(약 220억원)의 시드투자를 유치해 주목받았다.



특히 지난해 10월에는 세계 최대 그래픽처리장치(GPU) 업체인 엔비디아에서도 투자를 받았다. 엔비디아가 국내 AI 스타트업에 직접 투자한 것은 최초 사례다. 삼성전자의 기업형 벤처캐피털(CVC) 삼성넥스트와 한국투자파트너스 등도 투자에 참여했다.

페가수스는 이번 업데이트를 통해 영상에 관해 궁금한 점을 질문하면 답하는 영상 질의응답 성능이 대폭 향상됐다. 일반 대중에게 공개돼 누구나 페가수스를 활용할 수 있다. 유료 버전의 경우 대량의 영상 활용이 필요한 기업·개발자들을 대상으로 한다.

마렝고는 영상 내 인상착의와 행동, 방향성 등을 인지한다. 트웰브랩스가 자체 진행한 내부 테스트 결과 최근 구글이 공개한 VideoPrism 모델보다 좋은 성능을 보였다. 이번 업데이트로 기존 모델보다 모션 이해 인지 기능이 대폭 강화됐다.


음성·이미지 이해 성능의 강화에 따라 텍스트 투 오디오(Text-to-Audio), 오디오 투 비디오(Audio-to-Video), 텍스트 투 이미지(Text-to-Image), 이미지 투 비디오(Image-to-Video) 작업 수행도 가능해졌다.

트웰브랩스 관계자는 "페가수스와 마렝고는 구글의 제미나이 1.5 프로, 오픈AI의 GPT-4V 등 현존하는 최고 성능의 상용 및 오픈소스 영상언어 모델들과 비교해 최대 43%가량 성능 우위를 보인다"고 말했다.

특히 분 단위의 짧은 영상들만을 처리할 수 있는 다른 모델과 달리 수백 시간의 영상들을 실시간으로 처리할 수 있어 인프라 완성도 측면에서도 크게 앞선다는 설명이다.

최근 오픈AI가 영상 생성 AI '소라(Sora)'를 공개하며 AI를 기반으로 하는 영상 기술에 대한 관심이 커지는 가운데, 트웰브랩스는 페가수스와 마렝고를 통해 글로벌 영상이해 시장에서의 입지를 다진다는 목표다.

이재성 트웰브랩스 대표는 "우리의 모델은 영상이해에 특화됐다. 소라나 제미나이의 영상 생성과 차이가 있다"며 "영상언어 초거대 모델로는 불가능한 세밀한 수준의 작업까지 지원하는 만큼 영상이해 기술을 다양한 산업들에 최적화해 본격적으로 확산시키겠다"고 했다.

[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

이 기사의 관련기사

TOP