LLM 기반 금융 이용 내역 자동 분류 시스템 구축

개인화된 예산 관리와 안전한 데이터 활용을 지원하는 AI 솔루션을 구축

작물병충해 자동 인식 솔루션 썸네일

프로젝트 소개

본 프로젝트는 사용자들의 소비 패턴 분석을 토대로 예산 정리 및 관리를 자동화하는 기술을 개발하는 핀테크 전문 고객사를 위해 거래 정보의 정확한 분류 처리를 목표로 추진된 AI 솔루션 개발 프로젝트입니다. 금융 산업의 특성상 민감한 정보가 많고 규제가 엄격하여 데이터 외부 반출이 제한적인 상황에서 데이터메이커는 온프레미스 환경에서 안전하게 작동하는 기업 맞춤형 거래 정보 자동 분류 시스템을 개발 및 공급하였습니다.

고객사의 Problem

고객사는 다수 사용자의 카드 계좌 거래 데이터를 자동으로 분류하는 기술을 통해 경제적인 관리를 원하지만 번거로움으로 인해 실천하지 못하는 이들을 위한 솔루션으로 아래 문제를 해결하고자 했습니다.

  • 거래 유형 카테고리 등 가계 정리를 위한 번거로움
  • 외부 유출이 조심스러운 개인 소비 데이터를 앱 내부적으로 자체 분류
  • 개인마다 상이한 데이터 구조로 인해 일반 텍스트 분류 솔루션 적용이 어려움 고객사는 내부 보안을 유지하면서도 자체 데이터를 기반으로 높은 정확도와 유연성을 갖춘 AI 시스템이 필요했고 데이터메이커는 이 요구에 맞춰 맞춤형 LLM 기반 자동화 솔루션을 제안하였습니다.

데이터메이커의 Solution

데이터메이커 계발 체계인 SYNAPSE 기반 프레임워크를 활용하여 고객사 전용 거래 정보 자동 분류 모델을 구축하였습니다.

  • 금융 특화 솔루션 커스터마이징 LLM 모델 기반
  • 폐쇄망On-Premise 기반 독립 운영 민감 정보 외부 유출 원천 차단
  • MLOps 기반 지속 관리 체계 신규 거래 유형 발생 시 모델 재학습 및 자동 업데이트
  • 기업별 모델 파이프라인 및 버전 관리 시스템 각 기업 데이터에 특화된 분류 로직 제공 데이터메이커 솔루션은 단순히 모델을 제공하는 것이 아니라 데이터 구축 모델 학습 운영 자동화 전 과정을 아우르는 완전한 AI 솔루션 패키지입니다.

수행과정

데이터메이커는 거래 정보 자동 분류 시스템을 구축하기 위해 데이터셋 설계부터 모델 학습 최적화 실제 적용에 이르기까지 AI 개발의 전 과정을 체계적으로 수행하였습니다.
1. 고품질 학습 데이터 구축

  • 원천데이터 수집 고객사의 ERP 시스템 내 고객 정보를 비식별화하여 실제 거래명 일시 금액 정보 등의 데이터를 수집하였습니다.
  • 비식별화 처리 민감한 정보고유 식별자 고객명 등은 제거하거나 가명 처리하여 학습에는 활용할 수 있지만 보안 이슈는 발생하지 않도록 조치하였습니다.
  • 데이터 정제 및 전처리 중복 오탈자 불일지 항목을 제거하고 표준화된 입력 포맷으로 통합하였습니다. 데이터 간의 누락 또는 불일치 케이스는 수작업 정비를 병행하여 데이터셋을 구축하였습니다.
  • 라벨링 및 구조화 세부 이용 내역을 기준으로 고정 지출과 비고정 지출을 분리하기 위한 분류 체계를 지정하였습니다. 추가적으로 다양한 거래 시나리오를 반영하여 학습 다양성을 확보하였습니다.
  • 학습용 데이터셋 품질 검증 최종적으로 모델 학습에 최적화된 데이터셋을 구축한 뒤 내부 검증을 통해 정합성과 정확성을 반복 점검했습니다. 이를 통해 학습 데이터 기준 95% 이상의 정확도를 사전에 확보했습니다.
2. 금융 특화 LLM 기반 커스터마이징 데이터메이커 synapse의 언어 특화 세분화 모델 중 금융 데이터 처리 솔루션을 기반으로 큭화된 커스터마이징을 수행하였습니다. QWEN2 Dense Transformer 기반의 대형 언어 모델LLM은 다음과 같은 기술적 특징을 기반으로 구축되었습니다.
  • QWEN2 Dense 모델 아키텍처 적용
    • Multi-Head Attention MHA와 Grouped Query Attention GQA을 병행하여 대규모 데이터를 효율적으로 처리
    • RoPERotary Position Embedding 기반으로 긴 문맥 이해력 강화
    • Feed-Forward NetworkFFN를 활용한 고속 추론 구조 적용
    • 반복적 패턴과 긴 문장의 금융 데이터를 처리하는 데 강점을 가짐
  • 소비 패턴 자동 분류에 특화된 예측 기능 탑재
    • 거래내역 거래처 등의 정형 비정형 텍스트 데이터 자동 분류
    • Confidence Score를 활용해 예측 신뢰도 제공 모델 결과에 대한 전략적 검토 가능
    • 추론 결과에 따라 Ground Truth 값을 정의하고 이를 다시 모델 학습에 반영하는 루프형 재학습 구조 구축
  • 개인 맞춤형 모델 버전 관리 체계
    • 개인마다 다른 소비 패턴에 대응할 수 있도록 모델 커스터마이징 구조 설계
    • Synapse 플랫폼 기반의 MLOps 체계 내에서 모델 버전별 관리 및 자동 재학습 가능
    • 사용자는 비개발자라도 GUI 기반 도구를 통해 모델 피드백 및 고도화 가능
  • On-Premise 구축 환경에 최적화
    • 모델은 전량 고객사 내부 서버에서 구동되며 외부 클라우드 사용 없이 폐쇄망 환경 내 학습 및 예측 수행
    • ERP 시스템 등과 연동 가능한 구조로 개발되어 운영 실무에 자연스럽게 통합 가능함

프로젝트를 마치며

민감한 금융 데이터를 안전하게 다루면서도 정확하고 효율적으로 처리하는 것은 결코 쉬운 일이 아닙니다. 데이터메이커는 이번 프로젝트를 통해 단순한 자동화를 넘어 실제 비지니스 환경에 최적화된 AI 시스템을 구축하는 역량을 입증하였습니다. 거래 정보라는 복잡하고 민감한 데이터를 정제하고 구조화하는 데에서부터 LLM 기반의 고도화된 분류 모델 개발 그리고 보안이 강화된 On-Premise 운영 환경까지 데이터메이커는 AI 도입의 모든 단계를 책임지고 수행하였습니다. 앞으로도 데이터메이커는 금융 재무 분야를 비롯한 다양한 산업의 AI 솔루션 구축 전 주기에 대한 실질적 경험을 바탕으로 기업의 디지털 전환을 안정적으로 이끌어 갈 수 있는 기술 파트너로 자리하겠습니다.

연관 아티클

스마트 양식장 생장 예측 솔루션

양식장의 변화를 이끄는 AI, 생산성도 데이터로 결정된다

드론 촬영 이미지 기반 농작물 모니터링

정밀 농업을 위한 AI 학습 데이터셋 구축

작물 병충해 바운딩박스 데이터 구축 사례

정확한 병해 진단을 위한 AI 학습 데이터셋 구축

LLM 학습을 위한 수학 문제 데이터 구축 수행기

교재 기반 수학 문제를 정형 데이터로 가공해 LLM 학습에 최적화한 데이터셋 구축 수행기

무인기 기반 객체 인식을 위한 AI 모델 개발

드론 영상 기반 객체 탐지 데이터셋 구축 및 AI 온디바이스 모델 개발 수행기

가려진 객체 인식 자동화 솔루션

영상 내 가려진 객체에 대한 라벨링을 하여 데이터셋을 구축하였습니다.