Project Review

AI 성우 모델 개발을 위한 영문 음성 데이터 수집 수행기

고객사 서비스 소개

이제는 일상적으로도 언제 어디서나 AI를 통해 오늘의 날씨, 미세먼지 수치, 강수량 등을 알 수 있는데요.

Chat GPT의 등장으로 AI를 일상속에서 활용하는데에 대한 진입장벽은 더욱 낮아졌습니다.

지금은 텍스트를 입력하고 채팅으로 답변을 받는 식의 활용이 보편적이지만, 이는 곧 실제 대화 형태로 AI와 소통하는 기술로 이어질 것으로 예상되어 관련 기술에 대한 연구와 상용화도 활발히 이루어지고 있습니다.

사람처럼 감정을 담아 말을 구사하는 AI 성우모델을 만들고자 했던 고객사는 이 문제점을 보완하기 위하여 양질의 음성 데이터를 얻고자 했습니다.

 

개발사가 겪던 문제

TTS(Text To Speech)를 활용한 데이터들은 사람이 아닌 로봇이 사용하는 딱딱한 말투를 구사합니다.

감정을 담은 사람처럼 영어를 구사하는 AI 모델 개발을 위해서는 첫번째로 양질의 음성데이터 구축이 필요 했습니다.

하지만 데이터 구축의 가장 기본인 작업자 고용부터 어려움이 있었습니다.

영어 발화가 자연스러운 작업자 고용, 스크립트 작성, 수 천개의 대사 한 줄 한 줄마다 파일을 저장하는 일 등 물리적으로 많은 시간이 소요되는 운영과 라벨링 작업을 필요로 했습니다.

영어 스크립트의 경우, 자연스러운 음성 발화 데이터에 맞춰 구어체로 확보할 수 있어야 했고, 발화하는 사람도 원어민 수준의 실력을 보유한 인력을 고용할 수 있어야 했습니다.

또한 작업자를 고용한다고 해도 스튜디오에서 녹음 시, 엔지니어와 작업자에게 order를 내리는 일이야 말로 많은 input이 투입되기 때문에 고객사에서 a부터 z까지 컨트롤하기란 매우 어려운 상황이었습니다.

데이터 수집 및 가공을 전문적으로 하는 데이터메이커에 의뢰하게 되었습니다.

 

데이터메이커의 솔루션

영어를 자연스럽게 구사하는 AI 성우 모델을 개발하는 것이 목적이었기 때문에, 영문 스크립트와 원어민 수준의 발화자가 필요했습니다.

스크립트의 경우 10,000여개의 대화문에서 총 2, 500여개를 까다로운 과정을 통해 정제, 선별 하였습니다.

로봇이 아닌 사람처럼 자연스럽게 구사해야 하기 때문에 일반 스크립트에 어색한 표현들은 모두 삭제, 구어체로 변경 후 평소에 원어민이 자주 사용하는 추임새, 즐겨 사용하는 표현 등으로 변경하여 훨씬 더 자연스럽게 발화할 수 있도록 스크립트 데이터를 가공했으며,

감정과 액션 카테고리를 추가해 발화자들이 실감나게 목소리 연기를 할 수 있게 되었습니다.

스튜디오 녹음 중 스크립트 내 어색한 표현이 있으면 발화자가 실시간으로 대사를 수정하며 녹음을 진행하였습니다.

 

 

작업자 선발

원어민 수준의 영어 발화가 가능한 작업자 모집을 위해 외국인, 통역사, 유학생 출신 등의 지원을 받은 후, 영어 테스트를 진행했습니다.

지원자들에게는 공통된 영문 스크립트를 제공하고, 이를 녹음하여 제출을 요청하였습니다.

제출된 녹음 파일들 중 가장 정확하고 자연스러운 톤으로 발화하는 인원을 고객사와의 협의를 통해 선발 하였습니다.

외국인 발화자의 경우, 자연스럽고 목소리 톤은 좋으나 딕션이 정확하지 않아 데이터로 활용하기에는 부적절했기 때문에, 한국계 미국인을 위주로 선발하게 되었습니다.

한국인이라 스튜디오 엔지니어분과 의사소통에도 문제가 없어 녹음 작업을 원활하게 진행할 수 있었습니다.

총 25,000여개(약 30시간 분량)의 문장을 녹음하는 작업은 생각보다 쉽지 않았지만, 녹음하면서 입에 붙는 자연스러운 표현으로 대사를 변경하여 진행하다 보니 NG 상황이 발생하는 일은 거의 없었습니다.

녹음 중에 스크립트를 수정하다 보니 작업시간이 지체된 점도 있었으나,

이러한 과정을 통해 더욱 양질의 데이터를 구축할 수 있게 되었습니다.

  • 프로젝트 수행을 마치며

전문 녹음 장비를 활용한 데이터 수집은 일반적인 크라우드 소싱 기반 데이터 구축에 비해 시간과 노력이 더욱 들어가는 방식입니다. 그래서인지 데이터 하나하나 정말 정성껏 만들고 완성하여 고객사에게 제공하는 프로젝트였다는 생각이 들고 특히나 보람찬 경험이 되었습니다.

Get Started Today
with datamaker

데이터메이커 시냅스를 회사에 도입하고 싶으시다면,
아래 의뢰하기 버튼을 눌러주세요!

Synapse 문의하기