AI와 수식 기호 포함하여 대화하기
복잡한 수식과 문항 구조를 언어 모델이 학습하도록 만든 데이터 구축 사례
- 수학 참고서 이미지 3만 건에 대하여 문제, 시각자료, 문항 등 세부 요소 별 OCR 전사 및 분류
- 정답해설지 이미지에 대하여 풀이, 정답 라벨링 → 정답지 데이터셋 학습 후 AI가 수학 문제를 더 잘 이해?
- 특징 : 수식에 대한 markdown 방식의 전사 진행
교재 기반 수학 문제를 정형 데이터로 가공해 LLM 학습에 최적화한 데이터셋 구축 수행기
교육 콘텐츠 분야의 디지털 전환이 가속화되며, 단순히 교재를 디지털화하는 수준을 넘어 AI가 교육 콘텐츠를 이해하고 학습, 출제, 설명까지 수행하는 도구로 발전하고 있습니다.
이에 따라, 고객사는 수학 교재를 기반으로 AI 기술을 접목한 신규 서비스를 기획 중이었으며, 이를 위해 고품질 학습용 데이터셋이 필수적이었습니다.
수학 콘텐츠는 언어적 서술뿐만 아니라 복잡한 수식, 도표, 시각자료 등 다양한 비정형 정보가 혼합되어 있어, 일반적인 텍스트 인식을 위한 학습용 데이터로는 충분한 학습 성능을 기대하기 어렵습니다.
고객사는 이러한 한계를 극복하고, 자사 콘텐츠를 활용해 LLM 기반의 문항 생성, 해설 생성, 정답 예측, 적응형 평가 시스템 등을 개발하고자 하였습니다.
고객사는 방대한 자사 수학 교재를 활용해 LLM 기반의 문항 생성, 해설 생성, 정답 예측, 적응형 평가 시스템 등 혁신적인 AI 서비스를 기획하고 있었습니다. 그러나 수학 콘텐츠의 특성상 다음과 같은 난관에 부딪혔습니다.
데이터메이커는 수학 문제의 복잡한 구성 요소를 AI가 수식 기호까지 완벽하게 인식하고, 수학적 풀이 과정을 추론할 수 있는 형태로 정제하기 위해, 현장 중심의 데이터 구축 노하우와 자동화 기술을 결합한 맞춤형 솔루션을 제공했습니다.
이미지 분할 및 Parsing 라벨링 설계
이번 프로젝트는 복잡한 시각 자료와 수식, 다양한 문항 구성 요소가 혼재된 수학 콘텐츠를 LLM 학습에 최적화된 구조로 정제하는 고난도의 데이터 구축 과제였습니다.
데이터메이커는 이미지 기반의 비정형 데이터를 정밀하게 분석하고, 컴포넌트 단위로 분리·전사·정규화함으로써, LLM이 실제로 학습 가능한 형태로 가공된 고품질 데이터셋을 성공적으로 구축하였습니다.
특히 Markdown 수식 전사, 문항 통일성 규칙 적용, 정답·해설 연결 등 복잡성과 정교함이 요구되는 전 과정을 안정적으로 수행하며, 고도화된 텍스트 구조화 역량과 LLM 학습 데이터 구축 전문성을 입증하였습니다.
데이터메이커는 향후에도 이와 같은 복잡한 도메인, 높은 정밀도를 요구하는 LLM 데이터 프로젝트에서 고객의 요구를 충족하는 최적의 결과를 제공할 수 있는 파트너로 함께하겠습니다.