어린이 계정 문제 등 고심

그래픽=셔터스톡
그래픽=셔터스톡

인공지능(AI) 음성인식 기술이 빠르게 발전하면서 사람 목소리를 구별해 인공지능 스피커를 사용하는 화자인식에 대한 관심이 높아졌다. 이미 일부 적용된 사례도 있지만 대다수 인공지능 스피커와 서비스업체는 도입을 망설인다. 인증체계 때문이다.

화자인식을 하면 개인별로 다른 콘텐츠 추천이 가능하다. 이전에 보던 콘텐츠를 이어서 즐길 수 있고, 연령대·관심사에 맞는 뉴스나 콘텐츠를 제공받을 수 있다. 화자별 스케줄이나 행선지도 따로 알려줄 수 있다. 확장성이나 보안 측면에서 매우 가치 있는 기술인 셈이다. 특히 가정 내에서 AI 스피커를 공유해서 쓴다면 이런 기술은 더욱 필요하다.

화자인식은 말하는 사람, 즉 발화자의 목소리를 구별해내는 것을 말한다. 여러 사람이 AI 스피커를 사용할 때 목소리를 듣고 사람을 인식해낼 수 있는 기술이다. 미리 입력된 데이터베이스를 바탕으로 목소리를 비교해 식별할 수 있다.

개인이 자신의 기기를 가지고 말을 한다면 그 사람 취향에 맞는, 적합한 정보만 제공하면 된다. 그러나 여러 사람이 함께 사용한다면 내가 듣다가 멈춘 콘텐츠, 필요한 정보가 모두 다르다. 화자인식이 되면 다른 사람에게 공유하고 싶지 않은 정보를 전달하지 않을 수도 있다.

AI 음성인식 초기에만 해도 화자인식은 가장 어려운 기술로 손꼽혔다. 그러나 현재 기술은 실현 가능한 수준으로 발전했다.

장준혁 한양대 융합전자공학부 교수는 “현재 실험실 환경에서 AI 스피커에 목소리를 등록한 뒤 발화자를 구분하는 정확도가 99%에 달하는 수준”이라면서 “99.9999%의 정확도는 아니어서 인증으로 사용하기는 어렵겠지만 개인화 서비스를 제공하는 데는 무리 없는 수준”이라고 말했다.

화자인증 도입의 발목을 잡고 있는 요소는 기술 수준이 아닌 인증체계다. 김영준 SK텔레콤 AI서비스플랫폼단 AI기술유닛장은 “특히 아동의 경우 더 복잡하다. 만 14세 미만 어린이의 경우 부모 등 보호자의 동의를 받아야 하는데 이 과정이 번거롭기도 하다”며 “게다가 누구 플랫폼 내에서도 Btv·티맵·티전화·키즈폰 등의 ID 체계가 조금씩 다르기 때문에 이를 통합해서 관리하기가 쉽지 않은 실정”이라고 말했다.

AI 스피커인 누구는 대개 하나의 아이디를 사용해서 가족끼리 공용으로 사용하는 경우가 많다. 하지만 화자인식을 하려면 개인별 아이디나 계정이 필요하게 된다. 그에 맞춰서 DB를 따로 구축해야 하기 때문이다.

김 유닛장은 “만약 임시 ID를 발급한다고 해도 어린이들이 음원서비스 등 유료 서비스를 사용하고 있지 않다면 부모 계정으로 잘 나오던 노래가 계정 변경으로 인해 사용할 수 없는 경우도 생길 수 있다”며 “음악을 끊기게 할 수는 없는데 아이들을 위한 노래를 어느 정도까지 표출할지도 고민”이라고 덧붙였다.

이 문제를 해결하기 위해 SK텔레콤 내부에서 여러 논의가 이어지고 있다. 현재 소셜 로그인 방식과 아이 목소리 인식을 통한 부모 계정 일부 사용 등이 후보에 올라 있다.

장 교수는 “AI 스피커의 경우 카메라를 잘 사용하지 않아 오롯이 목소리만으로 개인화를 해야 하는데 부모의 계정을 쓰는 대신 아이의 목소리를 아이라고 인식해서 사용하는 방법이 대안이 될 수 있을 것”이라며 “포털에서 어린이 관련 서비스를 이용하듯이 AI 스피커에서도 어린이 목소리 인식으로 정제된 서비스를 제공하면 될 것”이라고 제안했다.

저작권자 © 시사저널e 무단전재 및 재배포 금지