TV·음악 등 소음 환경에서도 정확성 확보

SK텔레콤 누구 네모 제품 사진. / 사진=SK텔레콤
SK텔레콤 누구 네모 제품 사진. / 사진=SK텔레콤

“노래가 빨라지더라도 신경 쓰지 말고 계속 같은 박자로 문장 읽어주세요.”

오피스텔 현관문을 열자 자그마한 방 한가운데 놓인 마이크와 모니터 5~6대가 먼저 눈에 들어왔다. 그 앞에는 이동통신사와 정보기술(IT) 기업이 출시한 인공지능(AI) 스피커가 종류별로 나열돼 있었다. 최근 출시된 화면이 달린 스피커도 보였다.

이곳은 AI 스피커 인식률을 높이기 위해 음성인식 데이터베이스(DB)를 구축하는 한 중소기업의 녹음실이다. 잡음이 있는 환경에서도 음성 인식률을 높이고 오인식돼 깨어나는 일이 없도록 데이터를 구성하는 작업이 한창이다.

먼저 녹음을 하고 있던 한 여성이 다양한 목소리와 높낮이로 같은 호출어를 반복했다. 발음도 정확하고 목소리도 정갈한 이 여성의 녹음이 끝나자 이 업체는 이 여성에게 시간이 있느냐고 물었다. 다른 녹음도 부탁하기 위해서였다.

AI 스피커 음성 데이터 녹음은 아르바이트 사이트에서도 쉽게 찾아볼 수 있다. 연령대와 성별만 맞으면 누구나 참여할 수 있다. 다만 사투리를 쓰거나 발음이 부정확한 이들은 녹음 조건에 미달된다.

기자는 최대한 표준어로 또박또박 읽어 내려갔다. 호출어 두 가지를 반복해서 녹음한 뒤 대본에 적힌 문장들을 읽어내려 갔다. 같은 호출어지만 다르게 불러 달라고 업체는 요구했다. '친절하게' '저음으로' '다급하게' '신나게' 등 다양한 방식으로 호출어를 읽었다.

발음이 조금이라도 미흡하면 업체는 한 번 더 녹음할 것을 요구했다. 곧 노래도 틀었다. 노래가 시끄럽게 나오는 환경 속에서 호출어와 문장을 또 반복해서 읽었다. 신나는 노래가 나오자 함께 흥이 올라 빠르게 문장을 읽으니 업체 측은 천천히 읽어야 한다고 강조했다. 성적 표현도 들어 있었지만 읽을 필요가 없다고 했다.

다음엔 TV다. TV 소리가 나오자 그쪽으로 시선이 쏠렸지만 전혀 관계없는 문장들을 계속 읽어 나갔다. 조용한 환경이 아니다 보니 자연스레 목소리가 커졌고, AI 스피커를 부르는 심정이 좀 더 간곡해졌다. 실제 가정 내 사용 환경에서 TV와 음악이 가장 큰 장애물로 작용하기 때문에 이처럼 잡음 섞인 가운데서 음성인식 데이터를 확보하는 것이다.

AI 스피커 사용 환경에서 소음은 가장 큰 장애물이다. 조용한 곳에서는 잘 작동하던 AI 스피커가 조금만 시끄러운 환경에 놓이면 말귀를 알아듣지 못하거나 잘못 깨어나기도 한다. 조용한 곳에서 음성인식률이 높아지자 사용자들은 점차 다양한 환경에서 음성인식을 시도하기 시작했다. 그러면서 이런 소음이 섞인 환경에서 발화하는 사용자들이 늘어났다. AI 스피커 제조사에서도 이런 사용자의 요구를 반영해 TV 소리와 음악이 섞인 데이터를 확보하고 있는 것이다.

AI 스피커가 사람의 음성을 정확하게 인식하려면 우선 많은 데이터 확보가 필수다. 많은 데이터가 있어야 여러 가지 표현을 다 알아듣고 상황에 맞춰 명령을 수행할 수 있다. 같은 명령이라도 사람마다 표현하는 방법은 다르다. 여러 사람을 모아서 음성 데이터를 확보해야 그 표현들을 AI가 학습할 수 있다.

발음 방법과 어조도 다르기 때문에 이런 다양성을 확보하기 위해서 연령·성별별 음성 데이터가 필요하다. 해당 문장은 언어학 관련 대학에서 제공하기도 하고 업체별로 원고를 제공하기도 한다.

업체별로 특정 분야에 초점을 맞춰 데이터를 준비하기도 한다. 또 다른 업체에서 진행하는 음성인식 데이터 녹음용 원고를 받아보니 구매 관련 내용을 담은 문장 200개가 들어 있었다. 각 문장에는 오픈마켓·쇼핑몰 이름이 들어갔고 상품명과 함께 장바구니에 넣는 내용, 구매하는 내용, 판매 여부를 묻는 내용이 주를 이뤘다.

현재도 일부 서비스되고 있지만 향후 AI 스피커가 음성으로 더 많은 제품들을 주문해 온라인쇼핑 도구로 활용될 수 있도록 준비하고 있는 데이터였다. 낯선 브랜드와 낯선 제품명도 눈에 띄었다.

호출어와 문장을 거듭하다 보니 이내 진이 빠졌다. 이런 녹음은 보통 1시간 정도 이뤄지며 수백 문장을 읽게 된다. 아르바이트로 하게 되면 짧은 시간에 몇 만원은 챙길 수 있다. 다만 큰소리로 또박또박 문장을 읽어야 하기 때문에 목이 쉽게 피로해지는 것은 감수해야 했다.

저작권자 © 시사저널e 무단전재 및 재배포 금지