딥러닝 클라우드 플랫폼 NSML 시스템 최적화 연구

17일 열린 네이버 개발자 콘퍼런스 데뷰2017에서 클로바의 선행 기술 연구 조직인 클레어(CLAIR)에서 사용하고 있는 딥러닝 클라우드 플랫폼인 NSML이 소개되고 있다. / 사진=변소인 기자
네이버가 기계학습기술인 머신러닝과 빅데이터를 좀 더 효율적으로 다루기 위해 최적화된 플랫폼 개발에 노력을 기울이는 것으로 나타났다.


개발자 콘퍼런스 ‘네이버 데뷰2017’ 이틀째인 17일에는 빅데이터와 머신러닝을 구체적으로 다룬 관련 세션이 많았다. 인공지능의 핵심인 딥러닝을 위해서는 양질의 빅테이터가 많이 필요한데 이것들을 처리하고 다루는 과정에서 걸림돌이 되는 부분이 많다.

이 부분을 해결해서 효율을 높이기 위해 네이버가 직접 소매를 걷어 올렸다. 네이버는 자사 인공지능 플랫폼인 클로바의 선행 기술 연구 조직인 클레어(CLAIR)에서 사용하고 있는 딥러닝 클라우드 플랫폼인 NSML을 소개했다. 클레어는 다양한 문제를 해결하기 위한 새로운 모델을 연구하고 개발한다.

NSML은 클레어의 효과적인 연구를 위해 시작된 머신러닝 플랫폼 프로젝트며 현재 개발 중에 있다. 최근 딥러닝에 대한 인기와 관심으로 폭발적인 연구가 이뤄지고 있는데 플랫폼은 정작 이들의 요구를 충족하지 못하고 있다.

이런 점에 착안해 클레어는 쉽고 익숙하게, 기존 PC처럼 사용할 수 있는 시스템 최적화를 연구하게 됐다. 이렇게 되면 빠른 속도로 머신러닝을 처리할 수 있을 뿐만 아니라 동시에 병행 실험도 진행할 수 있어 시간도 단축하고 효과적인 분석도 가능해 진다.

NSML은 모델 연구‧개발에 필요한 복잡한 과정들을 대신 처리해줘 연구 개발자들이 정말 딥러닝 모델개발에만 전념할 수 있도록 도와주는 것이 목표다. 사용 가능한 자원을 최대한 활용해 유휴 시간을 줄여준다.

이와 함께 다른 사람들의 실험을 쉽게 재현해 볼 수 있고, 다른 사람의 모델과 자신의 모델을 쉽게 비교해볼 수 있는 시스템도 구축할 계획이다. 일정 상금을 걸고 문제를 해결했거나 가장 좋은 성적을 낸 연구자들에게 상금을 돌려주는 방법을 채택해 빠른 속도로 연구가 가속화되게 할 방침이다.

클레어는 향후 최근 딥러닝 연구분야에서 주목받고 있는 강화학습, 분산처리 등의 신규 기능도 추가할 계획이다. 현재 클레어는 NSML알파 테스터를 모집하고 있다.

다른 세션에서는 개발된 딥러닝 모델을 실제 서비스에 적용하기 위한 시스템 구성과 일반화된 플랫폼 구축에 관한 내용이 소개됐다. 네이버는 앞서 딥러닝 적용을 위한 C3 DL이라는 그래픽처리장치(GPU) 플랫폼을 개발해서 운영하고 있다.

하지만 연구자들의 딥러닝 연구가 나날이 발전하면서 그동안 트레이닝에 머물렀던 요구사항이 직접 서비스를 적용하기 위한 뒷단으로 확장됐다.

특히 빅데이터에 대한 추론(inference) 처리를 위해서는 다수의 분산된 GPU가 할당돼 처리하는 것이 필요했고, 분산 딥러닝 처리에 대한 요구도 늘어났다.

이를 반영해 네이버는 C3 DL 기반으로 분산 딥러닝 플랫폼 기능 개발했고 GPU 자원이 남을 때 많이 사용할 수 있고, 장비 장애 발생 시 자동으로 재시작 할 수 있도록 발전시켰다.

저작권자 © 시사저널e 무단전재 및 재배포 금지