비용 효율성과 영문 처리에 강점을 가진 글로벌 대응형 고정밀 인력
품질, 보안, 통제력 등 전반적인 균형과 안정성이 뛰어난 전담 전문 인력
유연성과 접근성은 높지만 정밀도와 보안 면에서 한계가 있는 인력
데이터메이커는 AI 학습에 필요한 최적의 데이터를 설계부터 구축까지 제공합니다.
LABELING SERVICE AREA
국내외 전문 인력을 배치하여 프로젝트에 최적화된 작업 환경 제공 글로벌 대응과 효율적인 리소스 운영이 가능한 이중 인프라 구축
비용 효율성과 영문 처리에 강점을 가진 글로벌 대응형 고정밀 인력
품질, 보안, 통제력 등 전반적인 균형과 안정성이 뛰어난 전담 전문 인력
유연성과 접근성은 높지만 정밀도와 보안 면에서 한계가 있는 인력
모든 프로젝트 착수 시점에 AI 전처리 엔진을 활용할 수 있는 부분을 검토하고 적용하는 시스템을 기반으로 라벨링 작업에 있어 인력에만 의존하지 않기 때문에 더 적은 인풋으로 많은 양의 데이터를 빠르게 획득할 수 있습니다.
원시 데이터에 대하여 라벨링 기준에 부합한 원천 데이터를 선별하는 과정에 AI 전처리 엔진을 활용합니다. ex) 이미지 내 사람 영역 추출, 음성 텍스트 추출 등
YOLOv7, Faster-RCNN, ResNet 기반 전처리 엔진으로 Auto 라벨링을 수행하며, 약 70% 정확도의 기초 라벨링 데이터에 대해 작업자는 검수 및 일부 수정만 진행합니다.
AI 전처리 엔진을 활용해 얼굴·번호판 등 개인정보를 자동 비식별 처리합니다.이후 작업자가 라벨링 과정에서 재검증하여 정확성과 효율을 동시에 확보합니다.
이미지 상에 선택 영역을 하나하나 점을 옮겨서 수정하는 일은 매우 번거로운 일이며, 낮은 작업 효율로 인해 비용 역시 높아집니다.
국내·해외 전문 인력을 유연하게 배치해 AI 학습에 최적화된 대규모 데이터셋을 빠르게 구축합니다.
AI 전처리 기반 툴과 전문 어노테이터를 통해 적은 인풋으로도 고품질 데이터셋을 확보합니다.
보안, 품질, 일정까지 고려한 프로젝트 운영으로 민감한 데이터도 안정적으로 구축합니다.
전문성, 대규모, 보안 등 고난도 데이터 프로젝트를 숙련된 인력과 체계적인 프로세스로 안정적으로 수행합니다.
전문성이 요구되는 금융, 의료, 화학 분야는 유관 전문가 협의체를 구성해, 작업자를 선발하고 체계적으로 교육합니다.
대학 연구팀에서 진행 중이던 뇌 신경세포 구성 라벨링의 경우, 세포를 구성하는 작은 요소들에 대한 지식은 물론 식별할 수 있는 숙련도가 작업에 필수적이었습니다. 담당 뇌 공학 전공자를 모시고 라벨러 교육부터 테스트까지 진행하면서 능숙하게 라벨링이 가능한 작업자들을 양성할 수 있었습니다.
개인이 일상생활에 있어 주로 어떤 소비를 하는지 분류하기 위해, 추출한 카드 내역에 프린트 되는 다양한 거래처 및 항목들을소비 패턴 분석을 위한 전문적인 지표들로 구분하였습니다. 작업자들은 수차례 교육을 통해 정해진 분류법을 숙지하고 각 항목을 해석하여 라벨링 할 수 있었습니다.
실제 환자들의 CT 촬영 이미지를 활용하여 특정 영역을 라벨링 하기 위한 프로젝트로,이를 위해 해당 분야의 전문의 선생님들과 함께 라벨러를 교육하여 마치 실제 진단을 위해 CT 이미지를 해석하듯이 작업자들이 특정 영역을 잡아낼 수 있게 되었고 양질의 데이터를 구축할 수 있었습니다.
크라우드소싱 기반 대규모 데이터 수집·가공 프로젝트를 위한 라벨러 운영 및 변수·위기 대응이 가능한 PM 보유
간판 OCR 프로젝트의 경우 다양한 디자인과 언어로 구성된 실제 간판 데이터의 가공을 위해서 다양한 언어 별 전문인력을 투입하여 작업을 수행하였습니다. 특히 다양한 디자인으로 인해 작업 중 발생하는 여러 종류의 코너케이스를 가이드라인에 정의하여 일관성 있는 고품질 데이터를 성공적으로 구축하였습니다.
제주 지역에 거주하는 실제 도민들의 방언 음성 3,000시간 분량을 3개월 내에 모두 전사 작업을 마쳐야 했기 때문에, 제주 지역 방언을 듣고 받아 적을 수 있는 약 800명의 작업자를 원격으로 모집 및 교육하여 운영 함으로써 기한내 완수할 수 있었으며 품질 또한 양질의 데이터로 구축하였습니다.
자율 주행을 연구하는 한 기업에서 촬영한도로 환경 영상에서 대량의 이미지를 추출, 가공에 활용하였습니다. 이미지 내에 정적 객체와 동적 객체를 모두 라벨링 하다 보니 이미지 한 장에 수십개의 객체가 포함되는 경우가 많아 대규모 크라우드 소싱 인력을 통해 프로젝트를 수행하였습니다.
국방·의료·개인정보 등 민감 데이터는 고강도 작업자 선발, 전원 NDA 체결, 전용 보안공간에서 관리
군용 장비의 경우 그 외관상의 디자인과 각 세부 명칭은 물론 데이터의 대부분 정보가 외부에 유출되어서는 안되는 보안 내용이 많았기 때문에, 각 데이터에 접근할 수 있는 운영 인력, 개발 인력, 작업 인력을 제한 후 데이터 랩이라는 한정된 공간과 특정 시간에만 참여할 수 있도록 관리하였습니다.
상담사와 내담자의 실제 상담 대화 내용을 다루고 있는 데이터를 가공하기 위해 우선 ‘상담 대화’와 ‘내담자 정보‘ 를 분리한 다음 특히나 보안이 중요한 내담자 정보는 특정 관리자만 접근할 수 있도록 하였으며, 상담 대화에 접근할 수 있는 작업자도 비밀 유지 서약서 등을 통해 관리하였습니다.
실제 수술실 환경이 담겨 있는 영상 데이터 라벨링의 경우 데이터 랩에서만 운영하기 위해 상주할 수 있는 작업 인력을 선발하고 각 인력들에게 보안 유지 교육을 실시하여 접근하는 모든 데이터에 대한 엄격한 보안 관리가 이루어질 수 있도록 하였습니다.