/사진=메타
9일(현지시간) 메타는 새로운 오픈소스 AI 모델 '이미지바인드'(ImageBind) 연구논문을 공개했다. 이는 △시각적 데이터(이미지·비디오) △열화상(적외선 이미지) △텍스트 △오디오 △3D 심도 △관성측정장치(Inertial Measurement Units, IMUs) 등 6가지 유형의 데이터를 하나의 임베딩 공간에 결합하는 최초의 AI 모델이다.
메타는 "이미지바인드는 사진 속 물체가 어떻게 소리를 내고 3D처럼 보이는지, 얼마나 따뜻하고 추운지, 어떻게 움직이는지에 대한 전체적인 이해를 기계에 제공한다"라며 "이는 모든 유형의 데이터로부터 학습하는 멀티모달 AI 시스템을 만들기 위한 노력의 일환으로, 3D 및 IMU 센서를 결합해 몰입형 가상세계를 설계하는 등 새로운 시스템을 개발할 수 있다"라고 말했다.
메타는 "(이번 연구는) 기계가 다양한 형태의 정보를 동시에, 전체적·직접적으로 학습할 수 있는 인간의 능력에 한걸음 더 다가설 수 있는 접근법"이라며 "향후 촉각, 화법, 후각, 뇌 fMRI(자기공명영상) 신호와 같은 가능한 많은 감각을 연결하면 인간 중심 AI 모델이 가능해질 것"이라고 강조했다.