인공지능 음성인식은 홈 IoT 제어할 강력 플랫폼…화자인식기술 통해 발전해야

장준혁 한양대 융합전자공학부 교수가 시사저널이코노미 주최로 25일 서울 삼성동 코엑스에서 열린 제3회 인공지능 컨퍼런스에서 AI시대 음성비서 기술에 대해 발표하고 있다. / 사진=최형균 기자

인공지능(AI) 음성인식 기술이 나날이 발전하고 있지만, 음성인식 기술 개발에는 소음과 거리가 큰 장애물인 것으로 나타났다.

시사저널이코노미, 시사저널, 국회 4차산업혁명포럼 공동 주최로 25일 서울 삼성동 코엑스에서 열린 ‘제3회 인공지능 컨퍼런스’에서 장준혁 한양대 융합전자공학부 교수는 AI시대 음성비서 기술에 대해 발표했다. 장 교수는 최신 AI 음성인식 연구 경향과 기술을 소개하고 넘어야 할 산도 함께 지적했다.

인공지능 음성인식 기술은 국내외에서 매우 폭발적으로 연구되고 있는 분야다. 과거에도 단어를 인식하는 아주 간단한 음성인식 기술이 있었지만, 인공지능에 기계학습기술인 딥러닝이 적극 도입되면서 인공지능 음성인식 기술이 매우 빠른 속도로 개선됐다.

장 교수는 AI 스피커가 사물인터넷(IoT)홈 환경에서 헤게모니를 가져갈 수 있는 가장 유력한 플랫폼이기 때문에 매우 중요하다고 소개했다. AI 스피커가 수행할 수 있는 작업이 많아지고 주요 기능이 추가되면서 AI 스피커를 찾는 이용자들도 많아졌다. 실제로 아마존 AI 스피커인 에코의 경우 1000만대 이상 팔리며 인기를 끌고 있다.

국내에서는 SK텔레콤의 누구가 첫 AI 스피커인데 잇따라 다양한 기업에서 AI 스피커를 쏟아내고 있다. 최근에는 인터넷기업인 네이버와 카카오가 AI스피커를 내놓으면서 경쟁이 심화되고 있다.

 

장 교수는 “현재까지는 국내 AI 스피커도 선방하고 있지만 구글 어시스턴트 한국어 버전이 영어 버전만큼 역할을 수행하기 시작한다면 앞으로 판세는 가늠하기 힘들다”고 말했다.

장 교수는 이날 음성인식이 왜 어렵고 갈 길이 먼지 이해시키는 것이 목적이라고 강조했다. 그는 AI 스피커는 종종 매우 열악한 상황에 놓인다고 설명했다. AI 스피커 입장에서는 언제 사용자가 명령을 내릴지 계속 대기하면서 귀기울여야 한다. 사용자가 조용한 환경의 가까운 거리에서 또박또박 말해주면 좋지만, 음성인식률이 개선되면서 사용자들은 좀 더 다양한 환경에서 명령내리는 일이 많아졌다.

예를 들어 자녀가 떠드는 상황에서 명령을 한다든가 청소기를 돌리면서 명령을 내리는 경우다. 또 TV가 켜져 있는 상황이나 음악이 흘러나오는 상황에서는 AI 스피커가 사용자의 말을 구분해 내기가 쉽지 않다.

이런 상황을 개선하기 위해 장 교수는 화자 위치와 화자를 인식하는 기술이 반드시 필요하다고 지적했다. 마이크를 많이 장착하면 화자 위치를 알기 쉽다. 화자인식을 통하면 미리 등록된 화자의 목소리만 인식하기 때문에 다른 목소리가 헛갈리는 일이 줄어든다. AI스피커 입장으로선 다른 소리에 혼란을 느끼지 않아도 되는 것이다.

그러나 미리 등록된 화자일지라도 감기에 걸려서 목소리가 바뀌거나 나이가 들어서 목소리가 변할 때, 성대모사를 잘 하는 사람이 임의로 흉내낼 때는 다시 구분이 어려워지는 난점이 있다. 최근에는 이런 가변적인 상황도 대비할 수 있는 화자 인식기술 개발이 활발하게 이뤄지고 있다.

장 교수는 “앞으로 음성인식 기술이 더 발전하기 위해서는 양질의 데이터 확보가 매우 중요하다​고 주장했다. 좋은 데이터를 통해 인공지능을 많이 학습시킬수록 음성인식률은 물론, 자연어처리 능력도 향상되기 때문이다.

저작권자 © 시사저널e 무단전재 및 재배포 금지