2024. 01. 16

멀티모달 데이터 구축의 전망

멀티모달 학습용 데이터 구축을 위한 방법론을 설명합니다.

멀티모달이란?

'모달(Modal + 모달리티(Modality)'

멀티모달 AI는 텍스트, 이미지, 영상, 음성 등 다양한 데이터를 두 개 이상 결합하여 서로의 관계성을 학습하고 이를 표현하는 기술입니다. 인간의 지능을 모방하여 복수의 정보를 종합적으로 이해하기 때문에, 이를 바탕으로 창의적인 콘텐츠를 생성하거나 의사 결정을 내리는데 주로 활용되고 있습니다.

초기 멀티모달 기술은 라이프로 로그 센서와 이미지, 영상 데이터를 결합한 형태가 많았다면, 최근에는 ChatGPT 상용화로 대화형 텍스트와 이미지, 영상 등 다양한 시각적 데이터를 결합하여 동시에 처리할 수 있는 방향으로 연구와 시도가 급증하고 있습니다.

멀티모달 분야 빅테크 기업의 기술 경쟁도 더욱 치열해지고 있습니다. 2023년도 하반기 '구글'과 'Open AI'는 각각 기존 유니모달과 달리 멀티모달 AI 기술로 텍스트 뿐만 아니라 음성, 이미지, 영상 등을 생성 가능한 'Gemini'의 발표와 'GPT-Vision'을 고도화한 '고비(Gobi)프로젝트가 진행 중 임을 밝혔습니다.

국내 기업에서는, 네이버가 사용자가 촬영한 이미지를 통한 멀티모달 AI 기반 검색 서비스 '스마트렌즈'를 구축하였고, LG에서는 초거대 언어 모델 기반 멀티모달 AI, '엑사원(EXAONE2.0)'을 공개하여 언어와 이미지 간의 양방향 생성 기능을 선보이며, 한국어와 영어를 동시에 이해하는 이중 언어 모델로 개발되어 국내 서비스 환경을 구축하였습니다.

멀티모달 기반 AI 학습에 필요한 데이터

멀티모달 데이터 구축

다중 데이터

멀티모달 AI 학습을 위해서는 다중 데이터 구성이 필수적입니다. AI가 텍스트, 이미지, 오디오 및 센서 등 다양한 형태의 데이터를 동시에 학습하여 종합적인 정보를 생성하거나, 유의미한 관계를 도출하여 새로운 결과를 생성하기 때문입니다.

예를 들어 기존의 이미지 모델은 단순히 특정 이미지 내 객체의 정보를 좌표 기반의 위치 정보와 단순한 Class 분류 정도만 진행하였다면, 최근에는 해당 이미지를 서술형으로 설명하는 자연어 기반의 캡션 데이터를 함께 구축하여 다중 정보를 활용하는 경우가 많습니다.

멀티모달 분야에서 풀어야 할 숙제

멀티모달 데이터 구축 과정의 문제

이미지 데이터 저작권 이슈

생성 AI의 경우 이전보다 다양한 주제의 데이터를 학습하다 보니, 이에 따른 다양한 종류의 이미지 데이터 구축 수요도 증가하고 있습니다. 일부 기업에서는 웹 크롤링을 통해 수많은 데이터를 대규모로 가져와 모델 학습에 활용하는 경우도 있으나 이 경우 이미지의 저작권 문제가 발생할 수 있습니다.

모델의 편향성 이슈

방대한 양의 데이터를 학습하더라도 데이터 간 유사성과 다양성이 고려되지 않는다면, AI가 내놓는 답변에는 특정 그룹 혹은 주제에 대해 편향적인 결과만 도출하는 문제가 발생할 수 있습니다. 마찬가지로, 데이터 구축 시에도 다양한 주제가 균등하게 반영되지 않는다면 이러한 문제가 두드러지게 됩니다.

멀티모달 AI의 윤리적 이슈와 환각

윤리적 이슈 고려 필요

멀티모달 AI가 효율적인 결과를 도출할 수 있는 기술이지만, 이를 오용하거나 조작하여 신원 도용 및 명의 도용과 개인정보 침해, 오해의 소지가 있는 악의적 콘텐츠를 생성할 수 있습니다. 이러한 윤리적 이슈를 고려한 서비스 적용이 필요합니다.

데이터 환각 문제

다양한 데이터를 학습시키더라도 데이터에 부정확한 정보나 부적절한 정보가 포함되면, 모델을 활용할 때 윤리적 이슈나 환각 문제가 발생할 수 있습니다. 특히 교육과 정보 통신 분야에서 적용될 경우 인공지능이 제공한 답변을 얼마나 신뢰할 수 있는지에 대한 심도 깊은 고민도 필요합니다.

멀티모달 데이터 구축

양질의 멀티모달 데이터를 구축하는 방법론

체계적인 데이터 수집 설계 및 적용

데이터메이커는, 체계적으로 데이터를 수집하기 위해 다양성이나 품질을 미리 설계하고, 설계를 토대로 데이터를 구축하여 데이터 품질과 효율성이 향상시킵니다.

크롤링 데이터에 대한 구조 설계

일반적인 크롤링의 경우 데이터를 정형화하여 제공하는 단계에서 끝나지만, 데이터메이커는 사전에 정의한 데이터의 컬럼 별로 다양한 데이터가 확보될 수 있도록 크롤링 대상 사이트와 데이터 간 유사성 및 중복성을 검증하는 프로세스를 제공합니다.

저작권 해소를 위한 데이터 직접 생산

크라우드 워커를 통하여 데이터를 직접 촬영하거나 녹음을 하고, 전문 촬영 인력을 고용하여 데이터를 구축합니다. 촬영자로부터 라이선스를 모두 양도 받기 때문에 데이터를 서비스에 직접 활용할 수 있으며, 저작권 문제에서 자유롭습니다.

윤리적 이슈를 최소화 하기 위한 유해 데이터 구축 및 학습

데이터메이커는, 인공지능 모델이 윤리적인 이슈가 발생할 수 있는 주제에 대하여 '유해하다' 혹은 '문제가 있다'는 판단을 내릴 수 있도록 학습시키기 위한 데이터 구축도 제공합니다.

멀티모달 데이터 구축

모델에게 비윤리적인 데이터를 별도로 학습

유해한 이미지, 대화 등은 왜 유해한지에 대한 정보를 추가로 라벨링합니다.(예/ 19금 콘텐츠 이미지 = 선정성 , 욕설이 포함된 대화 = 폭력성)
해당 데이터의 경우, 작업 인력들이 선정적인 이미지(대화), 폭력적인 이미지(대화) 등에 대한 부적절함을 직접 라벨링하기 때문에, 작업자가 해당 유해 데이터에 지속적으로 노출되는 문제가 있습니다.
데이터메이커는 데이터랩 공간에서 관리자가 지속적으로 작업자의 멘탈 데미지를 모니터링하고 적절한 보상 및 휴식 시간을 제공하여 작업자를 보호하며 프로젝트를 수행한 경험을 가지고 있습니다.