멀티모달이란?
‘모달(Modal + 모달리티(Modality)’
멀티모달 AI는 텍스트, 이미지, 영상, 음성 등 다양한 데이터를 두 개 이상 결합하여 서로의 관계성을 학습하고 이를 표현하는 기술입니다. 인간의 지능을 모방하여 복수의 정보를 종합적으로 이해하기 때문에, 이를 바탕으로 창의적인 콘텐츠를 생성하거나 의사 결정을 내리는데 주로 활용되고 있습니다.
초기 멀티모달 기술은 라이프로 로그 센서와 이미지, 영상 데이터를 결합한 형태가 많았다면, 최근에는 ChatGPT 상용화로 대화형 텍스트와 이미지, 영상 등 다양한 시각적 데이터를 결합하여 동시에 처리할 수 있는 방향으로 연구와 시도가 급증하고 있습니다.
멀티모달 분야 빅테크 기업의 기술 경쟁도 더욱 치열해지고 있습니다. 2023년도 하반기 ‘구글’과 ‘Open AI’는 각각 기존 유니모달과 달리 멀티모달 AI 기술로 텍스트 뿐만 아니라 음성, 이미지, 영상 등을 생성 가능한 ‘Gemini’의 발표와 ‘GPT-Vision’을 고도화한 ‘고비(Gobi)프로젝트가 진행 중 임을 밝혔습니다.
국내 기업에서는, 네이버가 사용자가 촬영한 이미지를 통한 멀티모달 AI 기반 검색 서비스 ‘스마트렌즈’를 구축하였고, LG에서는 초거대 언어 모델 기반 멀티모달 AI, ‘엑사원(EXAONE2.0)’을 공개하여 언어와 이미지 간의 양방향 생성 기능을 선보이며, 한국어와 영어를 동시에 이해하는 이중 언어 모델로 개발되어 국내 서비스 환경을 구축하였습니다.