LLM 학습을 위한 한국형 이미지 캡션 데이터 구축 수행기

ChatGPT의 등장으로 전세계 기업들이 초거대 언어 모델(Large Language Model, LLM)을 도입하는 비율이 급격하게 상승했습니다.
이러한 트렌드는 GPT-4와 같은 다음 세대의 모델이 텍스트 뿐만 아니라 이미지 기반의 질문에도 응답할 수 있는 시각적 질의응답(Visual Question Answering, VQA)
기술로 확장되고 있기 때문입니다.

GPT-4 등에 사용된 VQA 기술은 이미지 형태로 질문을 받아들이고 이에 대한 응답을 생성하는 기술로, 여러 서비스에 적용 가능하여
다양한 산업 분야에서의 활용 가능성이 높아지고, 이에 따른 수요가 꾸준히 증가할 것으로 예상됩니다.

이에 따라 국내 기업들도 초거대 언어 모델을 개발하기 위한 시도가 활성화되고 있는데,
해외에는 학습에 활용 가능한 공개 데이터가 다수 있으나 국내에는 이를 위한 전문적인 데이터가 부족한 상황입니다.
하지만 국내 이용자에게 친숙한 서비스를 제공하려면, 한국 비즈니스 및 문화적 맥락을 포괄하는 ‘한국형 원천데이터’의 구축이 필수적일 것 입니다.

고객사의 Problem

고객사에서는 기존에 인공지능 학습 목적으로 구축된 데이터가 부족하여 추가로 이미지를 직접 촬영하거나 수집하였습니다.
이는 많은 시간과 비용이 발생하였고, 웹에서 다양한 주제의 이미지를 크롤링하는 경우 저작권 문제가 발생하였습니다.

또한, 공개 데이터 내의 한국형 이미지는 인공지능 학습이 가능한 구축 명제나 설명문이 부족하여 모델 학습에 적합하지 않았습니다.
따라서, 저작권이 해소된 한국형 저작물 이미지와 설명 캡션 텍스트로 이루어진 양질의 데이터 구축이 필수적이었습니다.

이에 고객사는 다양한 데이터 구축을 진행하고, 데이터 라벨링이 가능한 인력을 보유하고 있는 데이터메이커를 선택하였습니다.

데이터메이커의 Solution

LLM 모델이 한국 고유 객체에 대한 양질의 학습과 다양한 자연어 처리가 가능하도록 하기 위해, 전문 인력이 직접 촬영한 이미지에
설명문 캡션과 해시태그를 라벨링하여 이미지 데이터 구축을 하였습니다.
이렇게 구축한 이미지 데이터는 한국의 유명 명소와 문화를 담고 있으며, 다양한 한글로 표현된 설명문을 포함하고 있습니다.

1. 국내 데이터 DB 목록화

한국형 이미지 구축을 위해 공개 데이터의 이미지 키워드와 고객사에서 보유한 주요 이미지의 키워드를 수집하여 목록화하고,
검색 빈도를 기준으로 나열 및 선정하였습니다.
선정된 키워드는 ‘현대 국어 사용 빈도 조사 통계 자료’를 활용하여 ‘한국형 이미지 데이터’ 목적에 부합하는 단어를 2차 분류하여
수집할 이미지의 목록을 DB화하였습니다.

2. 이미지 데이터의 저작권 이슈 해결

웹상에 존재하는 이미지들은 저작권이 있는 저작물임에도 불구하고 무단으로 사용되는 경우가 많습니다.

이에 저희 프로젝트를 위해 수집된 모든 이미지는 국내 명소와 문화를 직접 촬영하는 방식을 통해 저작권 이슈를 해결하였습니다.
또한 저작권 규정 협의를 통해 로고와 특정 디자인 등 지적 재산권을 침해할 우려가 있는 이미지는 수집 대상에서 제외하였습니다.

이렇게 수집된 이미지는 저작권 양도에 대한 내용을 명시하고 초상권에 대한 동의서를 반드시 확보하여 저작권 및 초상권 이슈를 해결하였습니다.

3. 한국형 저작물 이미지 데이터 구축 및 품질관리

한국형 저작물 이미지 데이터 구축을 위해 촬영 담당 인력과 라벨링 작업 인력으로 나누어 역할을 지정하고 교육하였습니다.

촬영 담당 인력

전문 사진 작가가 최소 해상도 FHD 이상의 DSLR 카메라를 사용하여 DB의 전국 관광명소와 랜드마크, 한국의 전통문화와 일상생활을 효과적으로
촬영 하였으며 촬영 이미지의 위치, 날짜, 크기, 세부 정보를 포함한 메타 정보를 함께 기록하여 데이터 판별에 활용하였습니다.
수집된 원시 데이터는 데이터메이커의 보안 서버에 연동하여 업로드하고, 외장 하드 드라이브에 백업하여 구축하였습니다.
라벨링 작업 인력

촬영된 한국형 저작물 이미지에 매칭되는 구문을 작성할 때 기본 서식 조건에 맞춰 캡션 내에 입력할 수 있도록 한국어 텍스트의 정확성과 최소 5개 어절 이상
구성한 상세한 묘사, 풍부한 표현을 입력할 것을 작업자에게 교육하여 개별 이미지 분류에 따른 메타정보와 캡션, 해시태그 입력 작업을 수행하였습니다.

더불어 데이터메이커의 라벨링 어노테이터는 캡션 입력 필드에 입력된 텍스트가 맞춤법 오류 상황이 발생되면 알림을 제공함으로써
작업물의 오류 발생을 최소화 할 수 있었습니다.

데이터메이커는 위와 같은 방식으로 구축된 이미지 데이터의 다양성이 저해되지 않도록 array로 변환한 값의 비교 코드를 통해 중복성 이미지를 식별하고,
SW 기반으로 유사 이미지 자동 선별 과정을 시행하여 양질의 데이터를 확보해 나갔습니다.

4. LLM 모델 학습을 위한 고품질 데이터

데이터메이커는 LLM 모델을 학습시키기 위한 이미지-텍스트 형식의 데이터 구축 가이드를 확보하였습니다.

다른 언어와는 또 다른 한글만의 언어적 특성을 고려하여, 이미지 설명 텍스트에는 명사형 단어에만 의존하지 않고 형용사적 표현이 반영되도록 하였습니다.
또한, 고품질 원천 이미지 데이터에 구축된 캡션과 해시태그 메타데이터는 데이터 판별을 용이하게 하였으며, 특히 VQA 모델 훈련을 위한 질문과 대답 형태의
데이터로 추가 라벨링하여 응용 개발을 위한 고품질 데이터의 범용성을 증대시켰습니다.

고객사의 Problem

데이터메이커의 Solution

프로젝트를 마치며

Get Started Today
with datamaker