음성인식 인공지능 기술로 개발…음성수집·딥러닝으로 성능↑

 

이형희 SK텔레콤 사업총괄이 지난달 31일 인공지능 기술 전략에 대해 설명하고 있다. / 사진=민보름 기자

 

 

SK텔레콤이 인공지능 자연어 처리 기술을 바탕으로 한 음성인식 허브를 지난달 31일 공개했다. ‘누구(NUGU)’는 사용자의 음성명령을 인식하고 이에 따른 답변을 하는 동시에 스피커와 LED조명 기능도 한다.

 

무엇보다 중요한 기능은 누구가 사용자와 대화를 한다는 것이다. 인공지능 자연어 처리 기술이 이를 가능케 한다. 인공지능 학습 기술 특성상 사용자와 이 사용자가 제공하는 언어 데이터가 늘면 음성인식 엔진도 진화하게 된다.

 

SK텔레콤은 자사 스마트홈 서비스는 물론 멜론, 11번가와 누구를 연동하려 한다. 이를 통해 음성으로 가정용 기기를 작동시키고 음악 듣기, 상품 주문을 위한 명령도 내릴 수 있다. 여기에 네비게이션 서비스 T맵이나 IPTV BTV도 연동할 경우 누구는 SK텔레콤 플랫폼 전체를 잇는 허브가 된다.

 

비서이자 친구, 음성 UI로 시장 선도

 

팅커벨, 너 몇 살이니?” “나이는 숫자에 불과합니다.”

 

가을에 듣기 좋은 노래 들려줘. 이 노래는 제목이 뭐니?” “윤건의 힐링이 필요해입니다.”

 

팅커벨은 상품 시연 당시 누구를 부르던 이름이다. 누구 사용자는 기기에 이름을 붙여 부르게 된다. 이름 종류는 현재 네 가지다. 팅커벨, 아리아, 레베카, 프라스타 등이 있다. 서비스가 발전하면 사용자 임의대로 이름을 설정할 수 있다.

 

이 이름들은 비서이자 친구인 누구 시스템을 소환하는 웨이크업(Wake up) 열쇠 말 역할을 하게 된다. 현재 누구는 20대 중후반 비서 이미지를 구현하는 성우 목소리를 지원한다.

 

사용자가 이름을 부르고 명령하면 누구는 다양한 기능들을 실행한다. 알람과 날짜, 날씨 알려주기가 대표적이다. 누구가 각종 스마트홈 기기들과 연동되면 스마트 플러그와 연결된 조명부터 공기청정기 전원을 조작할 수 있다. SK 음원 서비스 멜론에 접속해 사용자가 원하는 음악을 들려주기도 한다. 배달음식 주문도 대신 해준다.

 

이밖에도 음성인식 누구에는 SK텔레콤과 자회사의 역량이 담겼다. 스피커는 고품질 음향기기 자회사인 아이리버가 튜닝했다. 이런 하드웨어적 성능과 디자인, 한국어를 지원한다는 점에서 아마존이 출시한 음성인식 허브 에코와 차별화된다.

 

김성한 SK텔레콤 디바이스 지원단 본부장은 에코와 비교했을 때 자체 블라인드 시험에서도 더 낫다는 평가를 받았다누구를 SK가 자체 보유한 T맵이나 BTV 서비스와 연동하는 등 강점을 갖게 할 것이라고 설명했다.

 

딥러닝으로 진화하는 인공지능, 음성인식 UI로 고객 생활 파고들 것 

 

SK텔레콤 음성인식 기기 누구를 시연하는 모습 / 사진=민보름 기자

이형희 SK텔레콤 사업총괄은 통신회사이자 소리를 업으로 하는 SK텔레콤이 소리에 대한 연구가 제대로 있었나 하는 비판이 사내에 있었다면서 이에 따라 2011년부터 처리 연구개발 인력을 뽑아 기술 개발을 하게 됐다고 말했다.

 

음성인식은 터치를 잇는 새로운 사용자 인터페이스(UI) 방식이다. 2009년 스마트폰 등장에 따라 마우스와 그래픽에 한정됐던 UI 방식이 터치로 확장됐다. 그러다 최근 인공지능과 사물인터넷(IoT) 기술이 발달하면서 가장 원초적인 UI로서 음성인식 방식이 각광 받게 됐다.

 

박일환 SK텔레콤 디바이스 지원단장은 마우스와 그래픽 UI는 현재 기기 3억 대에서 사용하고 터치 UI13억에서 15억대로 확장됐다“UI방식이 내추럴(natural)할수록 연결 기기는 많아지게 된다고 설명했다. 단순한 방식으로 명령할수록 사용자는 시간과 자원을 절약하게 된다.

 

인공지능은 음성인식 서비스를 가능케 하는 핵심 기술이다. 음성인식 서비스를 위해서는 수많은 사용자의 다양한 언어 데이터가 필요하다. 이 데이터를 딥러닝(Deep Learning)을 통해 인공지능 엔진이 학습하면 상황과 맥락에 따라 적합한 대화를 제공할 수 있다.

 

SK텔레콤은 수년간 데이터를 축적해 맥락에 맞는 인식 시스템을 개발했다. 누구는 사용자가 나이를 물었을 때 단순히 나이를 알려주는 대신 대화하듯 사회적인 답변을 내놓게 된다.

 

박명순 SK텔레콤 미래기술원장은 연구팀이 다양한 언어를 데이터베이스화 해서 서비스를 준비했지만 서비스 출시 후 훨씬 많은 음성 데이터를 수집해 거의 실시간으로 소프트웨어를 업데이트 할 것이라고 밝혔다.

 

이 시스템은 클라우드 서버에 구축돼 누구 기기와 통신한다. 즉 음성인식 시스템이 구축됨에 따라 기기 자체는 고성능 CPU나 메모리를 갖출 필요가 없어진다. 다른 기기, 서비스와 연동도 쉬워진다. 박일환 단장은 인공지능의 힘은 기기 자체가 아닌 클라우드에 있다따라서 기기는 상당히 싸지고 음성 UI 플랫폼은 상당히 커질 수 있다고 말했다.

 

 

저작권자 © 시사저널e 무단전재 및 재배포 금지