대표 직속 전담 조직 마련
[시사저널e=이하은 기자] 카카오가 지난 10월 발생한 서비스 장애 재발방지를 위해 향후 5년간 시스템안정화 투자금액을 기존의 3배 이상으로 확대하고 IT엔지니어링 조직을 대표 직속으로 편입하는 등 조직개편에 집중한다. 고우찬 카카오엔터프라이즈 부사장이 전담 조직을 이끌면서 전문가 영입에 나설 계획이다.
7일 남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장은 연례 개발자 콘퍼런스 ‘이프 카카오 데브 2022’ 기조연설에서 이같은 계획을 발표했다.
남궁 소위원장은 “카카오 ESG의 최우선 과제는 ‘서비스를 안정적으로 제공하는 것’ 그 자체”라며 “섬과 섬 사이에 다리를 만들 때 처음부터 끝까지 연결돼 있지 않다면 그것을 다리라고 부를 수 없다. 우리의 이중화도 완성되지 않은 다리와 같았다”고 말했다.
이어 “부족했던 모든 부분을 개선하기 위해 과거의 원인을 분석하고 현재에 대한 재발 방지 대책을 세우며 미래에 대한 투자를 하도록 하겠다”고 덧붙였다.
◇ “인프라 조직 재구성···전문 인력 공격적 채용”
카카오는 인프라 조직을 재구성할 계획이다. 남궁 소위원장은 “인프라를 소홀히 하지 않고 서비스 안정성을 보장하기 위해 고우찬 카카오엔터프라이즈 부사장을 영입했다”고 밝혔다.
남궁 소위원장과 함께 공동 소위원장을 맡고 있는 고 부사장은 카카오 내에 IT엔지니어링 전문가들로 전담 조직을 만들어 안정적인 서비스 환경을 조성에 집중할 계획이다. 해당 조직은 기존 개발조직에서 분리돼 별도의 상위 조직으로 꾸려진다.
이어지는 발표에서 고우찬 재발방지대책 공동 소위원장은 재발 방지를 위해 IT엔지니어링 거버넌스 강화 및 인재확보, 업무연속성계획(BCP)·재해복구(DR) 정비, 과감한 투자 등을 약속했다.
그는 “하나하나가 초기 투자비를 제외하고도 연간 운영비만 수백억에서 수천억원의 단위다. 과감한 투자 결정이 있어야 실행할 수 있는 것”이라며 “회사는 향후 5년간 지난 5년간 투자한 금액의 3배 이상 규모로 투자를 확대하겠다”고 말했다.
카카오는 투자 규모를 늘려 IT엔지니어링 전문가 영입과 클라우드 인재 양성에 투입한다. 고 소위원장은 “IT엔지니어링 전담 조직을 대표 직속으로 확대·편성하고, 국내 최고의 IT 엔지니어링 전문가들도 적극 영입하겠다”며 “특히 데이터센터 사이트안정성 엔지니어링(SRE)·데브옵스·클라우드 개발 엔지니어를 공격적으로 채용·육성할 생각”이라고 말했다.
또한 각종 자연재해나 사건·사고에도 사업이 중단되는 상황을 최소화하기 위해 외부 전문가들의 자문을 구해 BCP 취약성을 진단할 계획이다. 또 DR은 삼중화 이상의 구조로 개선할 계획이다.
고 소위원장은 “데이터센터 삼중화는 구조상 세 개의 데이터센터 중 하나가 무력화되는 상황에서도 이중화가 담보된다”며 “더불어 외부 클라우드를 안전장치로 추가하겠다. 모든 것이 무력화되더라도 카카오톡 등 단기간에 살려야 할 서비스를 위해 원격 데이터센터 구축도 검토할 것”이라고 설명했다.
현재 카카오는 2024년 상반기 완공을 목표로 안산에 자체 데이터센터를 짓고 있다. 24시간 무중단 운영을 위해 전력부터 냉방, 통신까지 이중화 인프라를 구축한다. 판교 데이터센터 화재에서 문제가 됐던 무정전 전원 장치(UPS)와 배터리실을 방화 격벽으로 분리해 화재가 발생하더라도 시설에 영향을 미치지 않게 설계했다.
◇ “데이터센터·서버 이중화 미흡···삼중화 구축”
이확영 원인조사 소위원장(현 그렙 대표)은 외부인사로 장애 발생 원인 조사 결과를 발표하며 “장애가 길어진 첫 번째 원인은 데이터센터 간 이중화가 미흡한 것”이라며 “일부 시스템이 판교 데이터센터 내에서만 이중화돼 있어서 장애 복구가 늦어졌다”고 분석했다.
이중화 시스템 장치 미흡이 일차 문제였다면 자동화 시스템 미비도 장애가 길어진 또 다른 원인으로 지적됐다. 일부 시스템은 판교 외 데이터센터에 이중화됐지만 자동 전환해 주는 시스템이 없었다. 자동화 시스템은 판교에만 설치돼 있어 다른 데이터센터로 자동 전환이 불가능했다. 이에 따라 수동으로 전환 작업을 진행했기 때문에 복구가 지연됐다. 이 소위원장은 개발과 운영관리 시스템 이중화가 미흡한 점도 문제점으로 지목했다.
이 소위원장은 “판교 데이터센터 전체를 대신할 만큼의 가용 자원이 확보되지 않았기 때문에 판교 데이터센터의 전원이 들어와서 모든 시스템이 정상화되기 전까지 복구를 완료할 수 없었다”며 “전체 시스템의 이중화 수준은 가장 약한 시스템의 이중화 수준을 따라가기 때문에 개별 시스템의 미흡한 이중화가 전체적인 장애를 유발했다”고 진단했다.
기술적 개선사항을 발표한 이채영 재발방지대책 부위원장은 데이터센터 이중화에 대해 “앞으로는 모든 형태의 데이터를 1대 1 복제를 넘어 데이터센터 간 이중화 이상의 다중 복제 구조를 구성하겠다”며 “장애 발생 시 장애 복구 조치를 즉각 실행할 수 있는 환경을 구축하겠다”고 말했다.
이어 “메인 백본 데이터센터를 현재 두 곳에서 세 곳으로 확대하고 데이터센터 간에 늘어날 트래픽에 대응할 수 있도록 확장성을 고려한 설비 투자를 진행할 것”이라며 “대용량 트래픽 전송이 필요한 서비스의 데이터센터 간 삼중화를 위해 별도 전용망도 구성하겠다”고 말했다.