장준혁 한양대 교수팀 4개 음성비서 비교 실험…키워드 인식률, 연속어 인식률 등

19일 장준혁 한양대 융합전자공학부 교수팀이 음성비서 4종을 테스트하고 있다. / 사진=강유진 기자

빅스비, 구글나우, 시리, 클로바 등 내로라하는 음성비서 4총사 중 구글나우가 가장 탁월한 것으로 조사됐다. 장준혁 한양대 융합전자공학부 교수팀은 17, 18일 양일간 4가지 비서의 성능을 비교·분석하는 실험을 진행했다. 음성비서 4종을 전문가가 평가하기는 처음이다. 


삼성전자 빅스비와 구글 구글나우, 애플 시리, 네이버 클로바는 각 기업의 자존심을 건 인공지능 음성비서다. 네 비서 모두 한국어를 지원한다. 아마존과 마이크로소프트도 훌륭한 음성비서를 갖고 있지만 한국어를 지원하지 않아 이번 평가에서는 제외했다. 

 

구글은 구글나우에서 업그레이드 된 버전인 구글어시스턴트를 내놓았지만 한국어를 지원하지 않아 이전 버전인 구글나우를 사용했다. 빅스비는 삼성전자 갤럭시S8로, 시리는 아이폰6로, 구글나우와 클로바는 LG전자 G6로 실험했다.

 

결과적으로 구글나우가 키워드 인식이나 연속어 인식, 반응속도 면에서 높은 수준을 보여줬다. 오랫동안 연구해온 기술과 구글 포털에서 쌓인 DB(데이터베이스)가 이점으로 작용한 것으로 풀이된다. 구글어시스턴트 한국어 버전이 출시되면 다소 부족했던 음성명령 처리 성능도 개선될 것으로 예상된다.

장준혁 교수는 “음성비서 엔진을 비교하고 싶었는데 우연한 기회로 실험을 기획하게 됐다”며 “여러 전문가가 투입돼서 더 많은 조건으로 실험하면 더 정확한 결과가 얻을 수 있겠지만 일단은 광범위하게 조사를 진행했다”고 설명했다.

연구실에는 단호한 목소리가 울려 퍼졌다. 여성 2, 남성 2명이 스마트폰에 끊임 없이 말을 걸었다. 이들은 최대한 같은 목소리 크기로 음성비서를 호출하고 명령했다. 소음은 국제 표준 데이터베이스를 활용했다. 실험 항목은 크게 키워드 인식, 음성인식률, 음성 명령 처리 3가지로 구분했다.

 

그래픽=조현경 디자이너

우선 키워드 인식에서는 시리가 약한 모습을 보였다. 키워드는 음성비서를 호출하기 위한 명령어를 말한다. 클로바는 키워드 기능이 탑재되지 않았다. 조용한 환경에서 빅스비와 시리, 구글나우 모두 높은 인식률을 보였다. 조용할 땐 가볍게 첫 운을 뗄 수 있는 셈이다.

 

소음 환경에서는 달랐다. 소음은 약 -10dB(데시벨) 수준의 사무실 환경으로 설정했다. 구글나우는 소음에서도 자신의 이름을 잘 알아들었다. 반면 시리는 자신을 부른다는 것을 거의 인식하지 못했다. 빅스비는 보통 수준으로 알아들었다.

 

이어 TV에서 나오는 뉴스 음향에 30분간 노출해서 오인식률을 테스트했다. 다행히 뉴스 소리에 잘못 깨어나는 일은 없었다. 모두 오인식 횟수는 0회였다. 장 교수는 조용한 환경에서는 음성비서가 다 잘 작동한다음성비서는 잘 되는 것이 목표가 아니라 안 되지 않도록 하는 것이 더 중요하다고 말했다. 응답속도는 구글나우와 시리가 0.5초이내, 빅스비는 1초 이내로 빅스비가 가장 느리게 반응했다.

 

그래픽=조현경 디자이너

본격적으로 음성인식률 성능을 비교하기 위해 남녀 4명이 각각 4개의 문장을 읽었다. 통일성을 유지시키기 위해서다. 잡음 환경은 사람의 웅성거리는 소리와 사무실 환경으로 구분했다. 각 환경별로 다소 시끄러운 환경, 꽤 시끄러운 환경, 매우 시끄러운 환경 3단계로 구분해 실험했다. 사람의 웅성거리는 소리가 매우 시끄러운 환경 속에서 구글나우의 음석인식 점수는 96.9점으로 가장 높았다. 반면 같은 환경에서 시리는 90점으로 가장 낮은 점수를 기록했다.

 

매우 시끄러운 사무실 환경에서는 시리가 98점으로 최고점을 기록했다. 반면 빅스비는 87.5점으로 뚝 떨어졌다. 전체 환경을 통틀어 구글나우가 98.4점으로 평균 1등을 차지했다. 이어 빅스비(96.3), 클로바(95.5), 시리(94.6) 순이었다.

 

실험 과정에서 빅스비는 같은 명령에 다른 결과를 보여주는 경우가 발생했다. 특히 소음을 사람의 명령으로 인식해 실제 음성 명령의 끝점을 찾는 데 어려움을 보였다. 그로인해 반응 시간도 현저히 길어졌다.

 

그래픽=조현경 기자

마지막으로 음성비서의 수행 능력을 비교했다. 시간 확인부터 알람 등록 날씨 정보 등 일상에서 많이 쓰이는 질문을 음성비서에게 물었다. 질문은 문장 길이와 단어 수를 고려해서 정했다. 네이버 효과로 클로바가 8가지 질문에 모두 성공적으로 응답했다. 빅스비와 시리는 3가지 질문에 답하지 못했고 구글나우는 대다수 질문에 구글 검색결과만 출력했다. 

저작권자 © 시사저널e 무단전재 및 재배포 금지