“데이터사이언스는 인공지능의 기반···과거 데이터 단순 분류에서 역할 확대”
“데이터 처리 과정에서 개인프라이버시 등 문제는 해결 과제”

윤상호 구글페이 데이터 사이언스테크니컬 리더. / 사진=시사저널e.
윤상호 구글페이 데이터 사이언스테크니컬 리더. / 사진=시사저널e.

“머신러닝(Machine Learning·기계학습)은 궁극적으로는 데이터를 기반하고 있다. 따라서 데이터를 어떻게 효율적으로 쓰느냐에 따라 머신러닝의 효과가 달라질 수 있다.”

윤상호 구글페이 데이터 사이언스테크니컬 리더는 19일 서울 중구 더플라자호텔에서 시사저널e 주최로 개최된 ‘인공지능포럼(AIF) 2019’에서 인공지능 발전에 있어 데이터사이언스(data science)의 역할에 대해 이같이 말했다.

윤 리더는 우선 데이터사이언스에 대해 “최근 관심이 많이 높아진 분야이지만 아직 이렇다 할 정의가 없어 다양하게 해석되고 있다”면서도 “결국 데이터사이언스는 중요한 문제를 해결하기 위해 어떤 정보를 이용해 어떤 방법을 쓸 것인지를 통계학·수학·경제학 등 다양한 지식을 응용해 컴퓨팅 기술로 풀어내는 것으로 볼 수 있다”라고 설명했다.

이어 윤 리더는 데이터사이언스의 역할도 과거와는 다르게 변했다고 덧붙였다. 그는 “과거 데이터사이언스는 단순히 데이터를 분류하는 측면이 강했지만 현재는 데이터들이 어떤 의미를 담고 있는지, 어떤 정보를 주는 지, 어떤 비즈니스에 적용할 수 있는지 등 보다 심층적이고 다변화된 역할을 하고 있다”라고 밝혔다.

윤 리더는 데이터사이언스가 어떻게 인공지능에 쓰이는 지 그가 구글에서 수행한 프로젝트를 예로 들었다. 그는 “구글 클라우드 관련 프로젝트를 할 때 저장공간을 어떻게 효율적으로 만드는 지가 중요한 문제였다. 그 중 하나가 이용자들이 클라우드에서 데이터를 지울 때다”며 “지워진 데이터 만큼 그 공간을 다시 쓰기 위해선 다시 데이터를 읽는 리라이팅(rewriting)이라는 작업을 거치게 되는데, 이용자가 데이터를 지울때 마다 리라이팅을 하면 비효율이 발생하고 데이터를 모두 지울 때까지 기다리면 그동안 저장공간이 낭비된다”라고 말했다.

그는 “따라서 클라우드 이용자들이 언제 어떤 파일을 지울 것인지를 예측하고 그룹화 해 한번에 리라이팅 한다면 효율이 높지 않을까 생각했다”며 “여기에서 데이터사이언스는 업로드된 파일들을 분석하고 이 데이터로 머신러닝을 트레이닝할 때 중요하게 활용됐다”라고 설명했다. 

윤 리더는 데이터사이언스의 발달로 머신러닝의 활용은 더욱 높아질 것이라고 전망했다. 그는 구글 클라우드의 AI 솔루션인 ‘오토ML(AutoML)’을 예로 들며 “이제 머신러닝은 소수만 사용하는 것이 아니라 다수로부터 응용될 수 있다. 데이터사이언스를 통해 머신러닝이 개별적인 상황에 맞게 트레이닝 할 수 있기 때문”이라며 “대표적으로 오토ML은 기업이 보유한 사진·텍스트 등 각종 데이터로 AI를 학습시켜 불량 판정 등 특정 결과를 도출해 낼 수 있게 한다”라고 밝혔다. 

다만 그는 데이터사이언스가 아직 해결해야 할 도전 과제들이 남아있다고 주장했다. 그는 “데이터사이언스가 당면한 큰 문제는 데이터가 너무 많다는 것이다”며 “단순히 많은 것에서 그치는 것이 아니라 같은 정보 샘플이더라도 정보량이 다르고 다양한 포맷에서 정보 샘플들이 나오기도 한다. 게다가 이러한 샘플들은 독립적인 것이 아니라 다른 데이터와도 연결돼 있다”라고 말했다. 

그는 또 “프라이버시와 관련된 이슈도 데이터사이언스가 해결해야 할 과제다. 마케팅 대상에게 가장 유용한 광고를 보여주기 위해선 유저 정보를 많이 알수록 좋다. 하지만 그 과정에서 프라이버시 문제가 생긴다”며 “유저 정보를 존중하면서 데이터를 효율적으로 사용할 수 있는 지가 중요해졌다”라고 밝혔다.

저작권자 © 시사저널e 무단전재 및 재배포 금지