“2달내 화재 사고 방지 환경 구축·데이터센터는 1년내 완공”
“카카오톡 이용자 보상안 검토”···이후 SKC&C와 구상권 논의
[시사저널e=이하은 기자] 카카오가 재해복구 대책이 미흡했다고 인정하며 고개 숙였다. 카카오는 이중화 시스템을 갖고 있다고 공지했었지만, 데이터센터가 셧다운되는 상황에 대비한 이중화는 구축하지 못했다고 설명했다.
이번 사태에 책임을 지고 남궁훈 각자대표는 대표직에서 물러나 비상대책위 재난대책소위 위원장으로 카카오 쇄신에 집중한다. 카카오는 투자의 우선순위를 인프라 구축으로 재설정하고 2개월 내 개발자 도구 이중화를, 1년 내 자체 데이터센터 완공을 약속했다.
19일 남궁훈·홍은택 카카오 각자대표는 경기도 성남시 카카오판교아지트에서 기자회견을 열고 SKC&C 판교 데이터센터 화재로 발생한 대규모 서비스 장애에 대국민 사과했다.
남궁 대표는 “참담한 심정과 막중한 책임을 통감하며, 카카오의 쇄신과 변화에 대한 의지를 다지고자 대표이사직을 내려놓고, 이번 사태에 끝까지 책임을 지고자 비상대책위원회 재난대책소위원회를 맡아 부족한 부분과 필요한 부분을 채워나가는 일에만 전념하겠다”고 밝혔다.
비상대책위원회를 맡은 홍 대표는 “카카오톡은 이제 국민 대다수가 쓰기 때문에 공공성을 띠는 서비스다. 카카오는 그에 부합하는 책무를 다하지 못했다”면서 “복구가 늦어진 이유를 고통스럽더라도 철저히 파헤쳐야 한다고 생각한다. 직접적인 원인과 그 배경이 되는 간접적인 원인까지 방대하게 조사할 예정”이라고 말했다.
이어 “현재는 복구가 급선무이기 때문에 대략적인 원인만 파악한 단계이며 복구가 완료되는대로 본격적인 조사에 착수할 예정”이라고 덧붙였다.
◇ 작업도구 이중화 미흡···자체 데이터센터 등 인프라 집중
카카오는 셧다운에 대비한 재해복구(DR·Disaster Recovery)대책이 미흡했다고 인정했다. 홍 대표는 “카카오톡은 트래픽이 폭증하는 것을 대비한 컨틴전시 플랜을 수시로 훈련하고 있다. 그러나 이번처럼 데이터센터 셧다운을 대비한 훈련은 없었다”고 시인했다.
이어 “서비스의 주요 데이터와 서비스 응용프로그램에 대한 이중화는 돼 있었으나 이를 다루는 개발자들의 주요 작업 및 운영도구가 이중화되지 못했다”며 “치명적인 실패라고 생각한다”고 덧붙였다.
지난 15일 카카오는 “화재 발생 직후 해당 사실을 인지하고 즉시 이원화 조치 적용을 시작했다”고 밝힌바 있다. 그러나 전문가들은 이중화가 돼 있음에도 정상화에 30시간 이상 소요된 점을 이해할 수 없다고 입을 모았다.
카카오는 두 달 안에 완전 이중화 시스템을 만들겠다고 약속했다. 홍 대표는 “이 도구들의 이중화는 판교 데이터센터 운영이 안정화 되는대로 시작하겠다. 안정화 이후 2개월 안에 유사한 사고는 막을 수 있는 환경을 구축하겠다”고 말했다.
카카오는 한양대 에리카캠퍼스(경기 안산)와 서울대 시흥캠퍼스(경기 시흥)에 자체 데이터센터를 구축한다. 첫번째 자체 데이터센터는 내년 9월 완공해 2024년 1월 개소할 계획이다. 제2 데이터센터는 2024년 1월 착공을 목표로 하고 있다.
홍 대표는 “당장 3만여개의 서버를 일시에 옮길 공간이 충분치 않다”며 “제1 데이터센터로 서버 12만대, 4000랙을 확보하고 제2 데이터센터로 8000랙을 추가로 확보할 예정”이라고 말했다.
제1 데이터센터는 전력·냉방·통신 이중화를 구축해 화재 등 비상시에 원활하게 전력공급을 할 수 있도록 설계할 계획이다. 홍 대표는 “무정전전원장치(UPS)실과 배터리실을 방화 격벽으로 분리해 배터리실에 화재가 발생해도 나머지 시설이 문제없이 작동하도록 설계한 것이 핵심”이라고 설명했다.
화재 발생 시 3단계에 걸쳐 진압하는 계획도 수립했다. 모든 전기판넬에 각각 화재 감지 센서를 설치해 스파크가 발생할 경우 즉각 소화장치가 작동되도록 하겠다는 것이다. 1, 2차 소화 실패 시 화재 발생구간을 차단한 후 냉각수로 채워 화재를 조기에 진압할 계획이다.
◇ “카카오톡 이용자 보상 검토···이후 1차 책임자인 SKC&C와 논의”
카카오는 복구에 오랜시간이 걸린 점에 대해 사과하면서도 화재의 1차적 책임은 SKC&C에 있다고 수차례 강조했다. 화재는 지하 3층 전기실에 있는 리튬이온 배터리에서 시작된 것으로 확인됐다. 당시 소방당국은 화재진화에 어려움이 있다고 판단해 SKC&C측에 데이터센터의 전력 차단을 요청한 바 있다.
홍 대표는 전력 차단 자체는 문제의 본질과 동떨어진 것이라고 말했다. 그는 “불이 확산되는 걸 막기 위해 물을 뿌려야 한다는 결정은 소방서에서 한 것으로 들었다. 소방서가 현장 통제권을 갖고 있는 게 맞다”며 “진위를 따지는 것은 본질과 관계가 없다고 생각한다”고 말했다.
다만, 전력을 차단하기 전부터 화재로 서버 상당수의 전원이 차단됐다는 게 카카오의 주장이다. 불이 난 배터리는 UPS 백업용 배터리로 비상 전력을 공급해주는 UPS 장치에 전력을 제공하는 역할을 한다. 리튬 배터리와 UPS가 같은 공간에 있어 불길이 카카오 전산실과 연결되는 케이블까지 번졌다는 설명이다.
변수는 서비스레벨계약(SLA)이 될 전망이다. SKC&C는 카카오와 단순히 공간을 빌려주는 상면 임대 계약만을 체결했기에 유지보수에 책임이 없다는 입장이다. 반면, 카카오는 전력공급과 공간대여 중 SKC&C가 안정적 전력공급에 대한 책임이 있다고 주장하고 있다.
홍 대표는 “배상 범위는 면책조항이 어디까지 적용될지에 따라 다르다. 양사 간의 주장이 다른 상황”이라면서도 “지금은 SKC&C와 구상권 청구 문제를 논의할 단계는 아닌 것 같다”고 말했다. 업계에선 카카오가 먼저 이용자들에게 피해를 보상한 뒤 데이터센터를 운영하는 SK C&C에 구상권을 청구하는 방식으로 전개될 것으로 전망하고 있다.
이날 카카오는 유료 서비스뿐만 아니라 카카오톡과 같은 무료 서비스 이용자도 보상하는 것을 고려한다고 밝혔다. 이용자들은 카카오톡 상단 배너에 ‘카카오 서비스 장애 피해 접수’를 통해 신고할 수 있다. 신고 채널은 2주간 운영할 계획이다.
홍 대표는 무료 서비스 보상에 대해 "보상 선례 및 기준이 없어서 어떤 사례가 있는지 보고 판단해야 할 것"이라며 "직접적인 보상액 자체는 크지 않을 것으로 보이며 간접 보상액은 기준을 세워보면 추정할 수 있을 것"이라고 말했다.