카카오, ‘자체 데이터센터’도 없이 몸집부터 불렸다가 재난대응 구멍

2022.10.16 16:53 입력 2022.10.16 20:16 수정

카카오톡 오류

카카오톡 오류

S C&C 판교데이터센터 화재로 장시간 서비스 장애가 이어지면서 카카오가 데이터 백업과 재난 시 장애 대응 체계에 한계를 고스란히 드러냈다. 특히 같은 곳에 서버를 둔 네이버의 경우 검색·쇼핑·뉴스 등 일부만 장애가 발생했고, 그나마 3~4시간 만에 대부분 복구됐다는 점에서 대조된다. 무엇보다 자체 데이터센터도 없이 서비스만 성급히 늘린 바람에 결국 재난상황에 잘 대처하지 못한 게 아니냐는 비판도 나온다.

16일 정보통신(IT) 업계 관계자들의 말을 종합하면, IT 회사들은 자사 서비스의 원활한 구동을 위해 국내외 데이터센터 여러 곳에 기업 서버를 둔다. 지진·화재 등에 대비해 데이터를 분산 저장하고 특정 지역 데이터센터에서 문제가 생기면 다른 데이터센터를 이용해 서비스를 복구한다.

카카오 역시 경기 판교·안양 등 4개 지역 데이터센터에 서버를 뒀다. 카카오는 카카오톡 등 주요 서비스에 이상이 생기는 경우 다른 서버를 이용해 20분 안에 복구하는 것을 원칙으로 한다.

그러나 전날 판교데이터센터 화재를 진화하기 위해 데이터센터 서버의 전원을 모두 차단하자 취약성이 바로 드러났다. 카카오톡 등 카카오의 주요 서비스 대부분이 이날 오후 3시 30분쯤부터 장시간 ‘먹통’이 됐다. 카카오톡 문자 수발신 기능이 일부 복구된 건 장애 발생 10시간이 지난 16일 오전 2시 16분이었다. 카카오톡과 카카오페이, 카카오T, 카카오맵 등 일부 주요 서비스는 이날까지도 완전히 복구되지 않았다.

장시간 장애가 이어진 것은 카카오가 SK C&C 판교데이터센터 한 곳에 가장 많은 서버를 몰아넣었기 때문이다. 양현서 카카오 대외협력실장(부사장)은 “SK C&C 판교데이터센터를 가장 메인으로 사용하고 있다”며 “서버 3만2000대 전체가 다운된 것은 IT 역사상에도 유례가 없는 사항이기 때문에 그런 점에서 저희 대처에 어려운 점이 있었다”고 말했다.

반면 네이버는 자체 데이터센터를 별도로 운영하고 있고 판교데이터센터에 상대적으로 적은 서버를 둬서 복구가 빠른 것으로 알려졌다. 네이버 관계자는 “네이버는 춘천·판교·안양 등 서버를 분산시키는 작업을 오랫동안 진행했고 ‘이중화’가 잘 관리됐기 때문에 상대적으로 영향이 적었다”고 밝혔다. 이중화는 같은 데이터를 복제해 분산 저장하는 방식이다.

특히 덩치에 걸맞지 않게 데이터센터를 제대로 구축하지 않고 성장에 급급한 게 근본 원인으로 지목됐다. 업계 관계자는 “갑작스런 화재 등에 대비해 이중화 조치 등 ‘재난 복구’ 계획이 제대로 짜여졌어야 한다”면서 “카카오의 경우 데이터센터를 빌려 쓰고 있어 한계가 있는 데다, 재난 복구 계획도 충분치 않았던 것으로 보인다”고 평했다. 카카오는 내년 완공을 목표로 경기 안산 한양대 에리카캠퍼스에 첫 자체 데이터센터를 건설 중이지만 ‘만시지탄’이다.

순이용자 4743만명이 넘는 ‘국민 메신저’ 카카오톡의 실시간 데이터양 자체가 워낙 많은 데다, 화재로 인해 전원 공급이 갑자기 중단된 것도 장시간 지연의 원인으로 분석된다. 대기업 데이터센터 등을 관리하는 업계 관계자는 “카카오톡에서는 실시간으로도 움직이는 데이터 수준이 몇백 테라바이트(TB)에 달했을 것”이라며 “이 데이터를 다른 데이터센터를 통해서 복구하고 서비스를 재개한다 하더라도 소요 시간이 상당할 수밖에 없다”고 말했다. 그는 “통상 서버 전원 공급을 차단할 때는 서버에 무리가 가지 않게 하기 위해 단계적으로 전원을 끄는 등 수천대 서버를 끄는 데만 한 시간 이상이 걸린다”면서 “카카오 서버의 경우 화재 발생 직후 수만대에 전원이 바로 차단됐기 때문에 손상된 하드웨어 복구는 물론, 관련 데이터 등을 확인하는 데만 수십 시간이 걸렸을 것으로 보인다”고 말했다.

이번 사태를 계기로 정부와 IT업계가 ‘최악의 상황’에 대비해 비상대응 체계를 재점검해야 한다는 목소리가 높다. 업계 관계자는 “이번 기회로 카카오 등이 ‘국민 서비스’로서 책임감을 느끼고 어떤 상황에서도 버틸 수 있도록 준비해야 한다”고 말했다. 카카오 측도 “앞으로는 화재 등의 상황까지 대비해서 서버를 증설하고 재발 방지 대책을 강화하겠다”고 밝혔다.

나아가 화재나 자연재해, 해커 공격 등에 대비해 민간 서비스라도 핵심적인 것은 범정부적인 관리 방안이 필요하다는 지적도 이어지고 있다. 마치 전화나 인터넷망 자체가 주요 국가기반시설이듯, 데이터센터도 국가적 책임이 따라야 한다는 뜻이다. 이종호 과학기술정보통신부 장관은 화재 현장을 찾아 “우리 국민들의 일상의 불편을 넘어 경제·사회 활동이 마비될 우려도 있는 만큼, 정부도 이번 상황을 매우 엄중히 여기고 있다”고 밝혔다.

추천기사

바로가기 링크 설명

화제의 추천 정보

    오늘의 인기 정보

      추천 이슈

      이 시각 포토 정보

      내 뉴스플리에 저장