Project Review

마스크 착용 안면 인식을 위한 데이터 가공 수행기

지난 3년간 코로나 시대를 지나는 동안 우리 사회도 큰 변화들을 겪었습니다.

여러 가지 변화들 중에서도 가장 ‘피부에 닿는 변화’는 아무래도 마스크 착용 일상화였던 것 같습니다.

코로나 확산 방지를 위한 마스크 착용의 일상화 되며 개인 위생과 전염병 확산 방지를 위한 마스크 착용이 필수화 되었는데요.

코로나 이전에는 마스크를 착용 하지 않은 상태로 다양한 안면 인식 AI기술이 발전했는데, 마스크가 얼굴의 일부를 가리게 되니 얼굴 인식을 위한 가장 중요한 얼굴 특징을 분석 하는데에도 큰 어려움을 겪게 되었습니다.

언젠가 또 다시 찾아올지 모르는 호흡기 감염병과 펜데믹. 마스크 착용과 관계없이 정확한 얼굴 인식을 할 수 있다면 그 때에는 이러한 어려움을 겪지 않을 수 있겠습니다.

 

고객사 서비스 소개

데이터메이커에 의뢰한 A사는

안면 인식 인공 지능의 성능을 향상시키는 기술을 개발 중에 있습니다.

마스크를 착용한 상태에서도 정확한 얼굴 속성 정보를 분석하여, 취득된 얼굴 분석 정보를 통해 마케팅 및 고객 안내 등 다양하게 활용할 수 있는 서비스를 개발하고자 하였습니다.

세부적으로는 CCTV를 이용하여 마스크 미착용 고객에 대한 알림과 마스크 착용 안면 인식의 정밀도를 높여 보다 정확한 통계 데이터를 제공하고자 하였습니다.

 

개발사가 겪던 문제

  • 한국형 안면 이미지의 인식 성능 향상 필요

    기존의 안면 이미지 인식을 위한 기술에 사용된 대규모의 이미지셋은 대부분 해외에서 구축되어 서양인 위주로 구성되어 있고, 이로 인해 데이터 편중 현상으로 한국인을 포함한 동양인의 안면 이미지 인식의 성능을 높일 수 없는 한계점이 존재하므로, 한국형 안면 이미지 데이터셋 구축이 필요 하였습니다.

  • 얼굴 인식 및 얼굴 속성 분석 엔진의 개발

    동양인 위주로 구성된 얼굴 이미지와, 마스크 착용 이미지에 대하여 마스크 착용 여부, 성별, 연령 정보를 부여하여 학습하여, 실생활에서 다양하게 사용할 수 있는 얼굴 속성 분석 엔진 기술을 개발하고, 또한 이를 통해 추출한 얼굴의 특징 데이터를 구축하여 마스크를 착용한 상태로 얼굴 인식을 가능하게 한 엔진 기술의 한계를 겪었습니다.

  • 동일인 안면 영역 수집

    기존의 얼굴 인식 기술의 경우 일반적으로 검출된 얼굴 영역의 눈썹부터 턱까지의 안면 전체로부터 국소적인 안면 영역의 특징과 각 특징 사이의 상관관계 등 다양한 요소를 분석하고 학습을 통한 분류모델을 이용하여 연령 및 성별을 추론하여 각 개인 마다의 얼굴 특징간의 다차원 공간 거리를 구하여 동일인 여부를 판정하고 있으나, 마스크를 착용함으로 안면의 절반에 가까운 영역에서 특징을 추출할 수 없어 기반 학습 모델의 판별력과 분별력이 크게 떨어지게 되었습니다.

  • 개인정보 이슈

    마스크 쓴 이미지를 자체적으로 수집하기에는 민감한 개인정보가 포함되어 있었습니다.

    성별, 연령, 안면 이미지 등 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해 위험이 있어, 개개인별 개인정보 동의를 얻고 개인정보 이슈를 해결하였습니다.

 

데이터메이커의 솔루션

어떻게 하면 일관된 수많은 안면 이미지를 수집, 가공 할 수 있을지 고민하였습니다.

인공지능을 개발하는 기업이 직접 방대한 양의 데이터를 수집, 가공하는 일은 결코 쉬운 일이 아닙니다.

이에 하단의 4가지 방법으로 프로젝트를 진행할 수 있었습니다.

 

1. 크롤링 엔진을 통한 데이터 수집

이미지 수집에는 한 사람의 마스크 착용 이미지와 미착용 이미지가 반드시 포함되어 있어야 하는 조건에서 수집 작업이 시작되었습니다.

일반적인 크롤링 하기에는 얼굴을 가린 사진, 상반신 이미지로 얼굴을 확인할 수 없는 사진 등 여러 예외 케이스들이 발견되어 일관된 수집에 난항을 겪었습니다.

정해진 기간 내에 최다량의 데이터를 수집하기 위한 방법으로 데이터메이커만의 ‘크롤링 엔진 솔루션’을 적용하였습니다.

수집된 데이터를 가공하기 위한 Face landmark detection 기술과 이미지 합성 기술 등을 보유하여 고객사에서 원하는 조건에 부합하였습니다.

 

2. 촬영을 통한 데이터 수집

안면 이미지 수집 및 마스크 착용 이미지는 다량 확보가 가능하였지만 한 인물의 착용, 미착용 이미지를 구축하기 위해서 촬영을 진행 하였습니다.

 촬영을 위한 A사가 요청한 조건은 하기와 같습니다.

     ✅ 촬영 조건

  1. 사진수집은 총 5만 장으로 마스크착용사진(40%)과 미착용사진(60%)으로 이루어져야함.
  2. 기본적으로 마스크 착용과 미착용은 동일인의 것으로 세트 구성
  3. 해상도 최소 300x400 이상
  4. 어깨와 정수리 모두나오는 얼굴 정면 사진일것.
  5. 전신이 아닌 상반신사진위주

      (그 외 8가지 추가 조건)

개인정보 보호를 위해 ****안면사진 수집에 동의한다는 개인정보동의서도 개인별로 작성 하였습니다.

하단 동의서에는 성별, 연령, 얼굴 사진이 수집된다는 내용으로 서명했습니다.

 

3. 전처리 엔진을 통한 합성 데이터셋 구축

크롤링을 통하여 한국인을 포함한 동양인의 셀럽 안면 이미지 데이터셋을 수집하고 수집한 안면 이미지에 마스크를 합성하여 원본이미지와 함께 합성 이미지를 제공 하였습니다.

     ✅ 수집된 데이터 셋 10,000장 중 마스크 미착용 샷 - 마스크 이미지를 삽입 가공 진행

  1. 마스크 미착용 샷에 대해 랜드마크 검출 방식으로 마스크 착용 데이터 생산
  2. 가공의 경우 필요에 따라 고객사의 Dlib 랜드마크 검출 알고리즘을 이용 한 마스크 합성 방법을 사용할 수 있음
  3. 연령, 성별, 마스크 착용 여부 라벨링

마스크 이미지 가공하는 과정 중에 얼굴각도, 노출 정도에 따라 케이스가 다양해지나보니 자사가 보유한 전처리 엔진을 활용하기로 하였습니다.

데이터메이커는, 99.9% 정확도와 수십 테라바이트급의 대용량 얼굴 비식별화할 수 있는 엔진 뿐만 아니라 천만 단위의 데이터를 학습하여 5가지의 라벨링 분야에 대해 12가지 클래스를 자동화 한 전처리 엔진을 보유하고 있어, 전처리 엔진을 활용하면 최대 10배 이상의 데이터 라벨링 효율성이 증대됩니다.

Auto 라벨링을 먼저 수행한 이후에 작업자들을 투입하여 보정과 수정을 수행함으로써 가공에 소요되는 비용과 시간을 단축 할 수 있었습니다.

이후 인력기반을 통해 데이터 전수 검수를 진행 하였으며, 결과적으로 완성도 있는 데이터셋을 구축할 수 있었습니다.

 

4. 보안 이슈 방지

"이 프로젝트는 개인정보 보호가 매우 중요해서, 개인 얼굴 노출 시 개인정보가 유출되지 않아야 했습니다. 또한 수많은 마스크 착용, 미착용 데이터를 쌓기 위해, 다양한 마스크 예외 조건들을 갖춰야 했죠. 이 때문에 자체적으로 데이터를 수집, 가공하기엔 어려움이 있었습니다“

고객사 A사

데이터가 곧 자산이기에 데이터 유출 및 반출을 차단하기 위한 강력한 보안 장치로 안전하게 작업환경을 구축하였습니다.

 

프로젝트 마치며

본 프로젝트는 별도의 법률 자문을 구하고, 법적 내용을 바탕으로 개인정보 동의서 작성과 관련 내용을 고객사와 이중 체크 하여 개인정보 이슈 없이 안면 이미지를 수집하고, 해당 이미지에 마스크 전처리 가공하였다는 점을 높이 평가 받았습니다.

코로나를 겪으면서 우리 사회에서도 점차 비대면 인지 기술의 수요는 늘어나고 있으며 보다 정확하고 정교한 AI 인지 기술의 확보가 국가 경쟁력으로 이어지는 중요한 사업인 만큼 본 프로젝트를 진행 하며 K방역에도 큰 역할을 했다고 자부합니다.

  • 통제된 환경

    데이터가 유출되지 않도록 비밀번호 관리 시스템을 만들고, 작업자가 보안구역인 데이터랩 내에서 작업하는 등 통제된 환경을 구축하였습니다.

  • S/W 보안 장치

    데이터를 전달하는 방법에 물리적인 외장 하드도 있지만, NAS를 통해 고객사와 원격으로 데이터를 주고받을 수 있고 서버에 데이터를 저장하고 무엇보다도 권한을 제공된 사람에게만 노출되니 데이터 반출을 차단 할 수 있는 장치를 만들었습니다.

  • 법적 자문

    얼굴 사진의 형태로 생체정보 및 익명, 가명화 된 개인정보를 취급하므로 이에 대한 법률 자문을 필요하였기에 변호사로부터 데이터를 연구 및 AI 학습 목적으로 사용하는데 문제가 없음을 자문을 구하고 상기 목적 이외의 활용을 하지 않겠다는 법적 자문을 받았습니다.

    해당 자문은 법무법인을 통해 데이터 수집 및 가공하여 사용하는 데 절차적인 과정에서 법률 위반이 있다고 보기 어렵다는 의견을 받았습니다.

Get Started Today
with datamaker

데이터메이커 시냅스를 회사에 도입하고 싶으시다면,
아래 의뢰하기 버튼을 눌러주세요!

Synapse 문의하기