Project Review

AI 앵커 개발을 위한 뉴스 음성 전사

고객사 분들에게 최고의 결과물을 드리기까지

저희 데이터메이커가 진심으로 고민한 이야기를 들려드리고자 합니다.

 


 

고객사 서비스 소개

AI 아나운서가 전해주는 뉴스를 들어본 적 있으신가요?

실제로 작년에 AI 아나운서가 뉴스를 진행하기도 했습니다.
진짜 아나운서와 구분하기 힘들 정도로, 음성 지원과 영상 구현 모두 높은 퀄리티를 가진 AI 아나운서가 기사를 전달해주고 있습니다.

저희에게 의뢰한 E사는 디지털 휴먼 기술을 연구하고 있으며 특히 인공지능을 활용하여 주어진 텍스트 기사를 읽는 AI 아나운서를 개발하고 있습니다. 

 

 

 

개발사가 겪던 문제

기사 텍스트를 입력하면 AI 아나운서가 기사를 읽는 영상이 출력됩니다.

자연스럽게 텍스트를 영상으로 변환하기 위해서 음성데이터 전처리에 필요한 STT(Speech To Text)기술과 영상 생성 기술이 필요했습니다.
E사는 시간 단축을 위해서 음성데이터 제작에 전문성을 보유한 저희 데이터메이커 서비스를 선택하게 되었습니다.

 

 

 

데이터메이커의 솔루션

 

인공지능 학습을 위해 우선적으로 뉴스 영상에서 아나운서의 정상 발화 데이터 음원을 먼저 추출하였습니다.
추출한 음원을 AI 전처리 엔진을 통해 잡음을 제거한 뒤 문장단위로 섹션을 구분하면서 음성과 텍스트를 생성-매칭하는 작업이 이루어졌습니다.

음성과 텍스트로 구분된 데이터는 기존에 설정된 카테고리로 재분류가 되었습니다.
이 과정에서 중복 카테고리화 되는 부분에 대해서는 고객사가 정해주신 우선순위를 가장 상위 기준으로 정하여 진행했습니다. 

 

<고객사와 주고받은 피드백 정리 자료>


사람의 말을 텍스트로 전사(轉寫) 하는 작업이기 때문에 '배경 음원 처리', '발화자의 버벅거림'의 음원 문제와 텍스트 전사 과정에서 '따옴표 설정'의 타이핑 처리에 있어서 어려움이 있었으나 고객사와 꾸준하게 주고받은 피드백을 통해 양사 모두 만족하는 수준의 전사규칙을 완성하여 퀄리티 있는 데이터를 가공할 수 있었습니다.

 

<실제 작업자 교육을 위해 사용된 가이드 라인>

 

 

작업자 선발

데이터 가공은 크라우드 워커를 채용하여 작업하는 방식으로 수행했습니다.

완성된 전사 규칙을 기반으로 가이드를 제작하여 작업자들에게 교육 및 배포하였습니다.

본격적인 작업을 시작하기 전에 크라우드 작업자들에게 3개의 파일을 우선 작업하도록 하였습니다. 작업자들이 파일을 작업하고 제출하면 담당 PM이 즉시 직접 검수를 진행하였습니다. 검수 과정에서 전사 규칙을 숙지할 수 있도록 잘못된 부분 예시를 들어 규칙을 안내하였으며, 잡음 묵음처리와 묵음처리를 할 때 아나운서의 자연스러운 발화를 위해서 발음이 잘리지 않도록 주의할 수 있도록 피드백을 주었으며 완전히 규칙을 이해할 때까지 재작업을 진행하였습니다. 

작업을 검수에서 통과한 작업자들에게만 우선적으로 지속적인 작업 참여 기회를 부여하고 이후의 작업들 또한 전수 검수를 진행하였습니다. 작업자들과 즉각적인 소통을 통해서 작업 중 전사 규칙을 적용하기 어려운 예외 상황이 있을 경우 빠르게 파악하여 규칙을 올바르게 적용할 수 있도록 대응하여 데이터 가공의 퀄리티를 향상시켰습니다.

 

 

 

프로젝트 수행을 마치며

음성 전사(傳寫) 프로젝트 중에서도 이번 프로젝트는, 아나운서의 정형적인 발화를 가공하는 작업이었기 때문에 음원과 텍스트 모두 꼼꼼한 규칙 설정이 필요했습니다. 깨끗한 음원과 텍스트의 싱크가 완벽하게 일치시키는 데이터 셋을 구축한다는 점에서 저희 데이터메이커의 전문성을 향상시키는 좋은 경험이 되었습니다.  

이를 바탕으로 앞으로는 일상 대화가 아닌 성우, 방송 음성 분야에서도 활용될 학습용 데이터를 구축하는 프로젝트도 더욱 효율적이고 개발에 적합한 형태로 양질의 데이터를 구축할 수 있을 것으로 생각합니다.

 

 


데이터메이커와 함께 하시려면..

저희 데이터메이커는 글로벌 데이터 가공 플랫폼입니다.

높은 보안을 갖춘 환경 속에서 작업한 우수한 품질의 학습 데이터를 업계 최저 가격에 제공합니다.

저희는 진심을 담아 고객사에게 최고의 품질의 데이터로 돌려드립니다.

데이터메이커 바로가기

 

 

가공 비용 걱정이 되시나요?

현재 2021년 한국데이터산업진흥원이 주관하는 데이터바우처 지원사업이 진행 중입니다.

일반 데이터 가공의 경우 최대 4,500만원 , AI 데이터 가공의 경우 최대 7,000만원 까지 바우처를 지원해주고 있습니다.

저희를 공급기업(가공기업)으로 선정하여 협약하시면, 위 혜택을 받아보실 수 있으십니다.

저희가 최대한 도와드리도록 하겠습니다.

데이터바우처 지원 사업 더 알아보기

 

 

 

Get Started Today
with datamaker

데이터메이커 시냅스를 회사에 도입하고 싶으시다면,
아래 의뢰하기 버튼을 눌러주세요!

synapse 문의하기