일부 데이터로 목소리 만들어 낼 수 있어…음성인식과 달라

그래픽=김태길 디자이너
최근 네이버가 음성합성 기술에 대한 자신감을 드러냈습니다. 음성합성을 하기 위해 필요한 시간이 4시간이면 충분하다고 밝혔는데요. 아직 대중들에게 음성합성은 낯선 개념입니다. 그동안 인공지능 플랫폼에서는 음성인식이 가장 중요하게 다뤄졌기 때문이죠. 정보통신기술(ICT) 기업이 최근 많은 결과물들을 보여 주고 있는 음성합성에 대해서 알아보겠습니다.

Q 음성합성이 뭐예요?
A 음성합성이라고 하면 합친다는 느낌이 드시나요? 그러면 절반정도는 이해하신 겁니다. 음성합성은 사람의 목소리를 만들어내는 것인데요. 일정량의 목소리 데이터만 있으면 그 목소리를 토대로 모든 말을 만들어낼 수 있는 기능입니다.

Q 목소리 데이터는 어떻게 만들죠?
A 일정한 문장을 읽는데요. 다양한 음가들이 포함된 문장들을 연속해서 읽습니다. 최소한의 데이터로 완벽한 합성을 할 수 있도록 전문적으로 연구‧개발된 문장을 읽습니다. 아무 문장이나 읽는 것이 아닙니다. 오타까지 포함된 문장도 있어요. 잘못 말하기 쉬운 문장 데이터도 입력합니다. 딱딱한 설명문도 있고 자연스러운 대화체도 있습니다.

Q 음성합성에는 어떤 종류가 있나요?
A 음성합성에는 조음합성, 통계적 합성, 파형접합합성 등이 있습니다. 네이버가 하는 음성합성 하는 방법은 파형접합합성 기반인데 텍스트를 형태소 분석과 발음열 변환 과정을 통해 음소 단위로 변환한 뒤에 운율 모델링을 통해 음의 높낮이, 지속시간 등을 예측합니다. 여기서 최적의 합성단위를 선택하고 연결해서 합성음을 생성합니다.

Q 음성인식과 다른가요?
A 음성인식과는 다릅니다. 우리가 인공지능 플랫폼에게 말을 하면 그 말의 소리를 인식하고 뜻을 이해하는 것이 음성인식입니다. 음성인식에는 더 많은 데이터가 필요합니다. 인공지능 플랫폼이 계속 진화하는 이유도 플랫폼 사용으로 데이터가 누적되기 때문입니다. 음성인식에서는 말귀를 잘 알아듣는 것이 가장 중요한 포인트랍니다. 우리가 평소에 대화하듯 편하게, 멀리서 말해도 잘 인식되도록 하는 것이 음성인식을 개발하는 연구자들의 연구 목표이기도 합니다.

Q 화자인식은 뭐죠?
A 화자인식은 말하는 사람이 누군지 구별하는 겁니다. 가정 내에서 인공지능 스피커를 사용한다면 여러 가족이 사용할 수 있겠죠. 이때 내 정보가 다른 가족에게 공유되지 않기를 원할 수 있습니다. 개인 관심사도 다 다르니 화자에 맞는 대화, 추천 등이 이뤄진다면 더 좋겠죠? 그래서 목소리를 듣고 알아보는 기능, 화자인식이 필요하게 됩니다. 하지만 아직 화자인식은 보편화된 기술은 아닙니다. 시도는 계속 이뤄지고 있지만 보안 등의 이슈로 아직 과감한 적용은 되지 않고 있는 것 같아요.

Q 음성합성이 되면 뭐가 좋죠?
A 음성합성이 되면 원하는 사람의 목소리와 대화할 수 있습니다. 생활 속에서 소중한 사람과 대화할 수 있다면 더없이 좋겠죠? 네이버는 오는 8월 중에 유명인의 목소리를 음성합성으로 선보인다고 합니다. 평소 좋아하는 연예인과 아침부터 밤까지 대화할 수 있게 됩니다. 이후에는 사용자의 목소리도 음성합성이 가능해질 것으로 보입니다. 가족, 친구, 연인 등의 목소리와 끊임없이 대화할 수 있게 되지요.

 

저작권자 © 시사저널e 무단전재 및 재배포 금지