문장 넘어 그림·영상·표정까지 읽는다...AI, 점점 더 사람처럼 진화

머니투데이 황국상 기자 2022.08.25 17:00
글자크기

[MT리포트] 초거대 AI 대전 시즌2-③ 언어넘어 음성, 이미지, 표정까지 이해하는 AI로 진화

편집자주 국내 빅테크들이 초거대 AI 구축 경쟁에 뛰어든지 1년이 지났다. 초거대 AI는 단순히 사람의 말을 이해하는 것을 넘어 이를 바탕으로 시를 쓰고 그림을 그리는 '창의적 AI'로 진화하는 추세다. 국내 초거대 AI 상용화 현주소와 과제를 점검해 본다

/사진제공=이미지투데이/사진제공=이미지투데이


최근 '초거대 AI(인공지능)'는 멀티모달(Multi-modal) 기술을 통해 보다 한층 더 진화하고 있다.



멀티모달 AI는 다양한 모달리티(Modality, 의사소통의 채널)를 동시에 받아들이고 사고하는 AI 모델을 의미한다. 기존 초거대 AI가 주로 언어에 초점을 둔 언어 모델이었다면 멀티모달 AI는 텍스트(문자) 데이터 외에도 이미지, 음성, 제스쳐, 시선, 표정, 생체신호 등 여러 입력방식(모달리티)을 받아들이고 사고할 수 있다. 인간과 AI가 더 자연스레 소통할 수 있다는 얘기다.

앞서 오픈AI는 초거대 AI 인 GPT-3에 이어 지난해 거대 멀티모달 AI인 달리(DALL-E)를 공개했다. GPT-3가 방대한 언어데이터를 학습해 활용한다면 달리는 텍스트와 더불어 이미지를 학습해 새로운 결과물을 만들어낸다. 올해 4월 등장한 달리2는 기존보다 이미지가 정교해지고 속도도 빨라졌다. 복잡한 배경과 그림자, 음영 까지 묘사한 사실적인 이미지에 수정사항도 지시할 수 있다.



국내에서도 카카오브레인이 기존의 민달리(minDALL-E)와 RQ트랜스포머(RQ-Transformer)를 융합해 하나의 페르소나인 '칼로'(Karlo)를 만들어냈다. 이것들은 모두 텍스트 명령어에 매칭되는 이미지를 만들어주는 멀티모달형 시스템이다.

LG AI연구원의 엑사원 역시 한국어와 영어를 동시에 이해하고 구사하는 이중언어 AI라는 점 외에도 텍스트, 음성, 이미지, 영상을 자유자재로 변환할 수 있는 멀티모달형 AI라는 점에서 주목을 받았다. 엑사원은 LG AI연구원이 자체 개발한 알고리즘을 통해 언어를 이미지로(Text to Image), 이미지를 언어로(Image to Text) 변환하는 기술을 구현했다.
(서울=뉴스1) = LG는 14일(현지시간) 미국 '뉴욕 패션위크'에서 세계 최초 초거대 인공지능(AI) 기반 아티스트인 '틸다(Tilda)'를 공개했다고 15일 전했다.   틸다는 LG AI연구원의 초거대 AI인 '엑사원(EXAONE)'으로 구현한 첫 번째 AI 휴먼이다. 지금까지 나온 가상 인간들과 달리 스스로 학습해 사고하고 판단하며 기존에 없는 새로운 창작물을 만들고 인간과 자연스럽게 소통할 수 있다. (LG 제공) 2022.2.15/뉴스1  (서울=뉴스1) = LG는 14일(현지시간) 미국 '뉴욕 패션위크'에서 세계 최초 초거대 인공지능(AI) 기반 아티스트인 '틸다(Tilda)'를 공개했다고 15일 전했다. 틸다는 LG AI연구원의 초거대 AI인 '엑사원(EXAONE)'으로 구현한 첫 번째 AI 휴먼이다. 지금까지 나온 가상 인간들과 달리 스스로 학습해 사고하고 판단하며 기존에 없는 새로운 창작물을 만들고 인간과 자연스럽게 소통할 수 있다. (LG 제공) 2022.2.15/뉴스1
과학 학술논문 등에 삽입된 각종 화학식이나 그래프, 도표 등의 경우도 종전에는 엔지니어들이 일일이 그 의미를 입력해 컴퓨터에게 학습시켜줬어야 했지만 이제는 엑사원이 스스로 일정 수준 해당 화학식 등의 의미를 인식, 의미있는 데이터로 재가공할 수 있다. 엑사원은 LG전자, LG화학, LG CNS 등 계열사들이 보유하고 있는 전문 데이터를 포함해 논문, 특허 등의 정제된 말뭉치들을 학습해 다양한 산업 분야에서 전문가로 활약할 가능성을 높여 가고 있다.

이밖에도 네이버는 올 4월 멀티모달 모델을 딥러닝 기반 이미지 검색 서비스 '스마트렌즈'에 적용했다. 텍스트와 이미지 등 복합정보를 활용해 이용자가 검색하고자 하는 결과를 빠르게 찾아주는 서비스다. KT도 이미지와 영상을 텍스트와 함께 다루도록 하는 AI 시스템을 통해 눈·비·역광 또는 대상이 가려진 상황에서도 작은 객체를 높은 정확도로 인식할 수 있는 솔루션을 시연했다. 멀티모달 AI의 활용이 점차 가시화되고 있다는 얘기다.


부작용을 우려하는 목소리도 있다. 김명주 서울여대 교수는 "멀티모달형 AI가 학습하는 기초 데이터 뿐 아니라 AI가 산출한 데이터의 저작권에 대한 논의는 현재 매우 미흡하다"며 "아직은 AI가 사람이 아니라는 이유로 저작권이 전혀 인정되고 있지 않지만 AI활용이 확산될수록 저작권 문제가 커질 수 있으므로 이에 대한 대응책 마련이 필요하다"고 했다.

또 "AI가 만든 콘텐츠가 엽기적이거나 사회통념에 맞지 않을 때 발생할 수 있는 책임 등에 대한 기준도 현재는 없다"며 "학습 데이터의 품질관리를 통해 AI가 만들어내는 콘텐츠들의 윤리적 정합성 문제가 발생할 여지도 고려해야 할 것"이라고 했다.
TOP