화자인식에 임베디드형 적용…디스플레이 장착도 최초

장준혁 한양대 융합전자공학부 교수 연구팀이 개발한 인공지능 스피커 '플루토' 모습. / 사진=장준혁 교수

대학 연구팀에서 처음으로 인공지능 스피커를 자체 개발한 가운데 다른 인공지능 스피커와 차별화된 기술이 도입돼 관심을 모으고 있다. 현재 해당 인공지능 스피커의 음성인식 기술은 자동차 제조업체는 물론 게임업체에서도 협력을 요구해 와 상용화를 앞둔 상황이다.

장준혁 한양대 융합전자공학부 교수 연구팀은 지난 21일 인공지능(AI) 스피커 ‘플루토’를 공개했다. 플루토는 지난 2014년부터 연구가 시작돼 약 3년 만에 완성됐다. 대학 연구실에서 AI 스피커 전체 시스템을 통합해 제품형태로 만든 것은 이번이 처음이다.

장 교수팀은 전처리기술, 딥러닝기반 음향모델기술, 언어모델기술을 모두 자체기술로 연구·개발해 냈다. 국내 기업들의 AI스피커 전처리 시스템과 키워드 인식 알고리즘에 해외 제품과 기술이 도입된 것과는 대조적이다. 이런 탓에 플루토가 완성되기까지는 수 억원의 연구 및 제작비가 투여됐다.

게다가 국내 최초 임베디드형 AI 스피커다. 임베디드는 내장된 시스템으로 네트워크 연결 없이도 20만 단어 수준의 대용량 음성인식시스템을 구현한다. 장 교수팀은 소형 리눅스 구동보드에 전체 소프트웨어를 최적화했다. 기존 AI스피커는 클라우드 서버와 연동돼 작동되기 때문에 네트워크 지연이나 보안 위험에 대한 우려가 있었다.

임베디드 형식으로 구현하면 발화자의 음성이 클라우드에 노출될 위험도 없다. 사적인 공간인 집이나 차량 내에서 스마트 가전이나 로봇에게 명령을 내리기 좋은 구조를 갖춘 셈이다. 또 항상 동일한 응답속도를 얻을 수 있는 점도 장점이다.

특히 플루토는 목소리로 사람도 알아본다. 화자인식이 가능해진 것이다. 등록된 화자의 음성만 인식할 수 있도록 아이백터(I-vector) 기반의 목소리 인식 기능을 최초로 탑재했다. 4개의 마이크가 장착돼 360도 방향으로 화자의 위치를 찾고 해당 방향에서 나는 소리를 증폭해 받아들인다.

또 7인치 디스플레이를 통해 화자의 위치를 화면에 표시해주기도 한다. 화자인식이 가능해지면 TV 등에서 나오는 사람 목소리와 구별이 가능해지면서 오인식률을 낮출 수 있는 효과가 있다. 디스플레이가 부착된 AI 스피커 역시 국내에서는 이번이 처음이다.

기업이 아닌 학내 연구팀은 탓에 가장 어려운 부분은 데이터 확보다. 음성인식은 데이터가 많이 확보돼야 점진적인 개선이 이뤄질 수 있다. 장 교수는 “여러 방면으로 데이터를 얻고 있다”며 사람들이 발음하는 패턴이 다 다르기 때문에 다양성 확보 차원”이라고 설명했다.

데이터는 서울대 언어학과에서 제공한 음성인식 데이터용 문장 2500가지를 다양한 사람이 읽고 녹음하는 방식으로 확보되고 있었다.

 

22일 기자가 직접 데이터 확보 작업에 참여해 봤다. 기자는 1시간 30여분 동안 500문장을 읽었고 해당 내용에는 드라마 대본, 뉴스, 일상어 등 다양한 문장이 포함돼 있었다. 심지어 오타, 말실수 등도 포함돼 있어 이런 것을 필요 없는 부분으로 인식하는 훈련도 진행하고 있었다.

현재 추가 연구 중인 플루토2.0에서는 7미터 이상의 초원거리용 전처리기술을 선보일 계획이다. 또 향후 어린이, 노인, 방언 등 다양한 데이터베이스를 모아서 말투에 구애받지 않고 자연스러운 대화가 가능한 음성인식 기술을 개발할 예정이다.

저작권자 © 시사저널e 무단전재 및 재배포 금지