LLM 학습을 위한 수학 문제 데이터 구축 수행기

교재 기반 수학 문제를 정형 데이터로 가공해 LLM 학습에 최적화한 데이터셋 구축 수행기

프로젝트(고객사) 소개

교육 콘텐츠 분야의 디지털 전환이 가속화되며, 단순히 교재를 디지털화하는 수준을 넘어 AI가 교육 콘텐츠를 이해하고 학습, 출제, 설명까지 수행하는 도구로 발전하고 있습니다.
이에 따라, 고객사는 수학 교재를 기반으로 AI 기술을 접목한 신규 서비스를 기획 중이었으며, 이를 위해 고품질 학습용 데이터셋이 필수적이었습니다.
수학 콘텐츠는 언어적 서술뿐만 아니라 복잡한 수식, 도표, 시각자료 등 다양한 비정형 정보가 혼합되어 있어, 일반적인 텍스트 인식을 위한 학습용 데이터로는 충분한 학습 성능을 기대하기 어렵습니다.
고객사는 이러한 한계를 극복하고, 자사 콘텐츠를 활용해 LLM 기반의 문항 생성, 해설 생성, 정답 예측, 적응형 평가 시스템 등을 개발하고자 하였습니다.

LLM 수학 문제 데이터 구축

고객사의 Problem

고객사는 방대한 자사 수학 교재를 활용해 LLM 기반의 문항 생성, 해설 생성, 정답 예측, 적응형 평가 시스템 등 혁신적인 AI 서비스를 기획하고 있었습니다. 그러나 수학 콘텐츠의 특성상 다음과 같은 난관에 부딪혔습니다.

  • 수식 기호의 비정형성 수학 문제의 핵심인 복잡한 수식은 단순한 텍스트가 아니었습니다. OCR(광학 문자 인식)만으로는 수식의 의미와 구조를 정확히 파악하기 어려웠고, 이는 AI가 수학적 개념을 이해하고 풀이 과정을 논리적으로 추론하는 데 결정적인 한계로 작용했습니다.
  • 다양한 구성 요소의 복합성 문제, 지시문, 보기, 시각자료(도표, 그림) 등 다양한 비정형 정보가 혼합되어 있어 AI가 이를 효과적으로 인식하고 통합적으로 이해하기 어려웠습니다.
  • 복잡한 문항 구조와 정답/해설 매칭 문제 구성 요소가 세부적으로 분리되어 있고, 정답과 해설이 별도 페이지에 위치하는 등 복잡한 구조로 인해 정확한 문제-정답 매칭이 어려웠습니다. LLM이 문제와 풀이, 정답 간의 논리적 연결 고리를 정확히 파악하도록 돕는 정형화된 데이터가 시급했습니다.
  • 표현 방식의 비일관성 수학 문제의 표현 방식이 다양하고 편차가 커서, LLM 학습을 위한 통일성 있는 데이터 정제가 필수적이었습니다.

데이터메이커의 Solution

데이터메이커는 수학 문제의 복잡한 구성 요소를 AI가 수식 기호까지 완벽하게 인식하고, 수학적 풀이 과정을 추론할 수 있는 형태로 정제하기 위해, 현장 중심의 데이터 구축 노하우와 자동화 기술을 결합한 맞춤형 솔루션을 제공했습니다.

  • 16개 항목 기반 라벨링 체계
    • 문제 구성 요소를 ‘지시문, 본문, 조건, 보기, 시각자료, 정답, 해설’ 등 16개 컴포넌트로 분류
    • 이미지 내 각 요소를 Bounding Box로 정확히 구획화
    • 정답·해설이 후속 페이지에 위치한 경우에도 문제와의 정확한 매칭 처리
  • Markdown 기반 수식 전사
    • OCR 처리만으로는 불가능한 수학 수식을 LLM이 이해할 수 있는 Markdown 포맷으로 정제
    • 정답지와 해설지의 수식도 누락 없이 전사하여 학습 정확도 향상 기반 마련
  • 문항 통일성 규칙 적용
    • 표현 방식이 다양한 문항에 대해, 내부 가이드라인에 따른 정형화 작업 수행
    • 보기 항목의 기호, 조건문의 문법, 부정 표현, 단어 구분자 등 규칙 적용
    • 학습 모델이 일관된 구조를 인식할 수 있도록 모든 문항 구성에 표준화 적용
  • 반자동화 툴 기반의 고속 처리
    • 바운딩박스 + OCR + 라벨링이 통합된 스마트 툴을 활용해 생산성과 정확도를 동시에 확보
    • 리소스 기반 대량 처리도 가능하게 하는 검수 및 후처리 체계 보유

수행 과정

이미지 분할 및 Parsing 라벨링 설계

  • 고객사 제공 PDF를 페이지 단위로 이미지 분할 후, 문제 단위로 재구성
  • 각 문제는 16개의 구성요소 카테고리(지시문, 본문, 발문, 조건, 선지, 도표, 그림, 정답, 해설 등)로 세분화하여 설계
  • 문제 간 경계, 정답/해설 연결이 필요한영역은 별도의 '문항 구분' 및 '정답 및 해설' 바운딩 박스 영역 설정

수학 문제 구조 분석

OCR 전사 및 수식 인식

  • 라벨링된 이미지에 대해 OCR 자동 전사를 수행하고, 일반 텍스트와 수식을 구분하여 처리
  • 수식은 일반 텍스트로 전사하지 않고, Markdown 문법을 적용하여 LLM 학습이 가능한 형태로 변환
    • 예: 분수, 지수, 괄호 수식 등 복잡한 수학 표현을 정확하게 표기

텍스트 정제 및 문항 통일성 규칙 적용

  • OCR 결과에 대한 전수 검수 및 오탈자 수정
  • 문항 표현 방식의 편차를 제거하기 위한 문항 통일성 규칙 적용
    • 동일한 조건, 보기, 발문 구성에 대해 표현 방식 표준화
    • 부정 표현, 단어 배열, 기호 사용 등의 세부 요소를 규칙화
    • 예: 보기 기호 정렬, 슬래시 구분자 통일, 보기 내 소괄호 처리 등

정답・해설 QA 검수

  • 교체 특성상 정답・해설 정보가 본문과 분리되어 존재하는 경우가 많아, 정답/해설 정보의 문항 단위 매핑 수행
  • 모든 정답・해설 요소를 JSON 상에서 정확히 매칭 처리하고, 위치와 연결 관계를 2중 검수 프로세스로 검증

결과물 납품(JSON + HTML 서식)

  • 구조화된 데이터를 모델 학습용 JSON 포맷으로 구성
    • 각 구성 요소에 해당하는 위치 정보, 텍스트 내용, 수식 구분 포함
  • 문제의 구조가 보이도록 HTML 기반 시각화 서식 동시 제공
    • 실제 문제처럼 문제, 지문, 선지, 정답, 해설이 구조적으로 표현됨
  • 약 3만 건의 수학 문제 이미지로부터 LLM 학습용 고품질 데이터셋 구축 완료
  • 문제 구성 요소별로 정밀하게 분해된 구조적 데이터셋 확보
  • 실제 모델 학습, 콘텐츠 추천, 자동 문제 생성 등 다양한 AI 응용이 가능한 기반 데이터로 활용 가능

프로젝트를 마치며

이번 프로젝트는 복잡한 시각 자료와 수식, 다양한 문항 구성 요소가 혼재된 수학 콘텐츠를 LLM 학습에 최적화된 구조로 정제하는 고난도의 데이터 구축 과제였습니다.
데이터메이커는 이미지 기반의 비정형 데이터를 정밀하게 분석하고, 컴포넌트 단위로 분리·전사·정규화함으로써, LLM이 실제로 학습 가능한 형태로 가공된 고품질 데이터셋을 성공적으로 구축하였습니다.
특히 Markdown 수식 전사, 문항 통일성 규칙 적용, 정답·해설 연결 등 복잡성과 정교함이 요구되는 전 과정을 안정적으로 수행하며, 고도화된 텍스트 구조화 역량과 LLM 학습 데이터 구축 전문성을 입증하였습니다.
데이터메이커는 향후에도 이와 같은 복잡한 도메인, 높은 정밀도를 요구하는 LLM 데이터 프로젝트에서 고객의 요구를 충족하는 최적의 결과를 제공할 수 있는 파트너로 함께하겠습니다.

연관 아티클

맞춤형 명화 추천을 위한 데이터 수집 수행기

1:1 맞춤형 명화 추천을 위한 감성 데이터 수집과 알고리즘 설계 수행기

AI 앵커 개발을 위한 뉴스 음성 전사 가공기

실제 앵커 음성을 통해 AI 앵커를 개발하는 음성 전사 라벨링 수행기

AI 성우 모델 개발을 위한 영문 음성 데이터 수집 수행기

감정을 담은 사람처럼 영어를 구사하는 AI 모델 개발을 위한 영문 음성 데이터 수집 수행기

LLM 학습을 위한 한국형 이미지 캡션 데이터 구축 수행기

저작권 문제 해소와 한국형 이미지 데이터 구축

이미지 이해 모델 학습 데이터 구축

이미지 내 객체 상호작용 정의를 위한 관계 속성 태깅

AI 어시스턴트 학습 데이터 구축

AI 챗봇 학습을 위한 데이터 구축 수행기