박정석 KT융합기술원 서비스연구소 팀장···AI 음성합성·화자인식 기술의 진화 발표

박정석 KT융합기술원 서비스연구소 음성합성&AI 비즈 프로젝트 팀장이 19일 서울 중구 더플라자호텔에서 개최된 ‘인공지능포럼(AIF) 2019’에서 발표하고 있다. / 사진=최기원PD
박정석 KT융합기술원 서비스연구소 음성합성&AI 비즈 프로젝트 팀장이 19일 시사저널e 주최로 서울 중구 더플라자호텔에서 개최된 ‘인공지능포럼(AIF) 2019’에서 발표하고 있다. / 사진=시사저널e

인공지능(AI) 동화는 아이들에게 가장 친숙한 ‘엄마, 아빠’의 목소리로 만들어진다. 엄마, 아빠가 300문장을 녹음하면 AI는 딥러닝(Deep Learning) 기술을 활용해 음성 동화 한 편을 만들어낸다. AI 음성합성 기술의 발전이다.

박정석 KT융합기술원 서비스연구소 음성합성&AI 비즈 프로젝트 팀장은 19일 시사저널e 주최로 서울 중구 더플라자호텔에서 개최된 ‘인공지능포럼(AIF) 2019’에서 “AI 음성합성 기술은 문자를 사람의 말소리로 바꿔주는 기술이다”며 “3년 전부터 AI 딥러닝을 활용해 사람의 목소리를 생성하는 기술이 개발됐다. 이 기술은 1초에 2만4000개 소리값을 예측하고 사람이 말한 것을 정확하게 파악한다”고 말했다.

박 팀장은 “과거에는 전문 성우가 녹음한 음성을 자음, 모음으로 나눠 소리를 붙여 문장을 만들었다. 지하철역이나 ARS음성안내에 주로 사용됐다. 얼마나 자연스럽게 들리냐가 중요했다”며 “그러나 최근 음성합성 기술은 자음과 모음의 순서와 2만4000개 글자를 딥러닝해서 만들기 때문에 종합데이터를 활용해 다양한 사람의 목소리를 만들고 있다. 지금은 얼마나 많은 사람들의 목소리를 비슷하게 내는지가 관건”이라고 설명했다.

KT융합기술원 서비스연구소 음성합성&AI 비즈 프로젝트팀은 음성합성 기술을 활용해 댜앙한 서비스를 선보이고 있다. 10시간 동안 녹음한 개그맨 박명수 퀴즈쇼, KBS 3‧1절 100주년 독립운동가 목소리 재연, 내 목소리 동화, 핑크퐁 칭찬하기 등이 대표적이다.

박 팀장은 “독립운동가 목소리 재연의 경우 녹취된 데이터를 가지고 새로운 목소리를 만들어냈다. 이갑성 선생님은 10분, 정재용 선생님은 1시간 가량의 데이터가 있었다”며 “기계는 자음과 모음 시퀀스를 학습하기 때문에 10분을 1시간 정도로 늘려서 재연해냈다”고 했다.

박 팀장은 또 “내 목소리 동화의 경우 아이들을 위한 음성 동화를 엄마, 아빠의 목소리로 녹음한 것이다. 엄마, 아빠가 300문장을 스마트폰을 통해 녹음하면, AI가 딥러닝을 통해 동화를 만들어내고 AI스피커인 기가지니 단말기가 읽어주는 형태”라며 “그러나 300문장을 꾸준히 읽는 것이 (일반인들에게는) 쉽지 않다. 100문장만 읽어도 딥러닝 학습이 가능해질 정도로 기술이 발전하면 본격적으로 서비스할 계획”이라고 말했다.

이어 그는 “아이들에게 유명한 캐릭터 핑크퐁을 활용한 음성합성 기술도 있다. 핑크퐁이 직접 아이의 이름을 불러 칭찬을 하는 서비스다. 핑크퐁 캐릭터도 억양이 심해서 쉽진 않았다”라며 “부모가 양치하라고 하면 닦지 않던 아이들이 AI 핑크퐁이 부탁하면 닦더라. 부모와 아이들이 모두 좋아했다”고 덧붙였다.

한편 AI 화자인식 기술 또한 과거보다 발전되는 추세다. 화자인식 기술은 목소리로 사람을 구분하는 기술이다.

박 팀장은 “엄마와 딸, 쌍둥이 등 구분이 쉽지 않는 목소리가 있다. 그러나 AI는 이 목소리들도 화자를 인식해 구분한다”며 “화자가 특정한 문장을 등록하면 AI는 과거에 (목소리를) 등록했던 사람과 동일 인물인지 구분한다. 화자인식 기술은 점점 발전돼 사람이 아무렇게나 말해도 인식할 수 있게 됐다”고 강조했다.

박 팀장은 “화자인식 서비스를 기반으로 가족 목소리를 구분하는 계좌 정보 조회, 음성간편결제, 콜센터 목소리 인증 서비스를 지원하고 있다”고 말했다.

저작권자 © 시사저널e 무단전재 및 재배포 금지