‘exit’ 명령어 한 줄 누락···전국 ‘KT 통신 대란’ 불렀다

2021.10.29 15:00 입력 2021.10.29 21:36 수정

지난 25일 오전 한때 KT의 ‘설정 오류에 따른 장애’로 유·무선 인터넷 서비스가 중단됐다. 서울 종로구 KT 광화문 사옥 모습. 연합뉴스

지난 25일 오전 한때 KT의 ‘설정 오류에 따른 장애’로 유·무선 인터넷 서비스가 중단됐다. 서울 종로구 KT 광화문 사옥 모습. 연합뉴스

지난 25일 발생한 KT의 전국 통신 먹통 사태는 KT의 부실한 관리 체계에서 비롯됐다는 정부 조사 결과가 나왔다. KT는 전국을 하나로 연결한 대규모 네트워크 장치를 안전장치 없이 운영했으며, 오류를 사전에 차단할 장치도 마련하지 않고, 작업 관리자 없이 협력업체 직원들끼리만 작업을 수행한 것으로 드러났다.

과학기술정보통신부는 KT 네트워크 장애 사고에 대한 원인 조사·분석 결과를 29일 발표했다.

과기정통부에 따르면 지난 25일 오전 11시16분부터 KT DNS(Domain Name System·도메인 주소를 IP 주소로 변환하는 역할을 수행) 서버에서 트래픽이 급증했다. 중앙 1차 DNS(혜화)의 경우 평시 대비 22배 이상, 중앙 2차 DNS(혜화)는 평시 대비 4배 이상, 부산 DNS는 평시 대비 3.7배 이상 트래픽이 증가했다.

■KT 안전불감증·네트워크 관리 외주화가 ‘먹통 사태’ 초래

25일 발생한 KT 라우팅 오류의 전국 전파 과정. 과기정통부 제공

25일 발생한 KT 라우팅 오류의 전국 전파 과정. 과기정통부 제공

과기정통부는 이번 사고 로그기록을 분석한 결과, 부산국사에서 기업 망 라우터를 교체하던 중 작업자가 잘못된 설정 명령을 입력해 사고가 발생했다고 밝혔다. 이 라우팅 오류로 인해 전국적인 인터넷 네트워크 장애가 발생했다는 것이다.

해당 작업자는 사고가 난 라우터에 라우팅 설정 명령어를 입력할 때 IS-IS(내부 라우터 간 경로정보를 주고받는 프로토콜) 명령어를 마무리하는 과정에서 ‘exit’ 명령어를 누락한 것으로 확인됐다. 이로 인해 BGP(외부 라우터와 경로정보를 주고받는 프로토콜)에서 교환해야 할 경로정보가 IS-IS로 전송됐다. 통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서 라우팅 경로에 오류가 발생한 것이다.

이 같은 라우팅 오류가 전국으로 확산된 배경에는 KT의 부실한 관리가 있었다. 과기정통부 조사 결과, KT 네트워크에 있는 라우터들을 연결하는 IS-IS는 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있었다. 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대됐다. 전체 라우터에 오류가 전파되기까지 걸린 시간은 30초 이내였다.

또 KT의 IPTV와 음성전화 서비스에 장애가 발생한 이유는 인터넷 서비스 장애로 인해 문자 사용이 늘고 단말 전원을 리셋하는 이용자가 늘어나면서 트래픽이 증가해 부하가 가중됐기 때문으로 추정됐다.

조사반은 디도스 공격 여부에 대한 조사 결과, DNS 서버에 대한 트래픽 증가는 있었지만 시스템 자원 디도스 공격이나 네트워크 대역폭 공격은 확인되지 않았다고 설명했다.

■협력업체 일 떠넘기고, 안전장치는 ‘無’

KT 네트워크 구조. 과기정통부 제공

KT 네트워크 구조. 과기정통부 제공

과기정통부는 당초 라우터 교체 작업이 야간에 예정됐으나, 주간에 수행된 이유 역시 KT의 관리적·기술적 문제 때문으로 파악했다. 작업 관리자 없이 KT 협력업체 직원들끼리만 라우팅 작업을 수행하는 등 오류를 방지하기 위한 관리 체계가 부실했으며, 네트워크가 연결된 채로 작업이 진행됐다.

1·2차에 걸친 사전검증 단계가 존재했으나, 사람이 직접 검토하는 체계이기 때문에 오류를 발견하지 못했다. 또 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 없었다.

과기정통부는 이번 조사 결과를 바탕으로 주요 통신사업자 네트워크의 안정성 확보 방안을 마련하기로 했다. 과기정통부 네트워크정책실장을 단장으로 네트워크 전문가들과 태스크포스(TF)를 꾸린다.

단기적으로는 통신사업자의 네트워크 작업체계, 기술적 오류 확산 방지체계 등 네트워크 관리 체계를 점검하고, 통신사업자가 네트워크 작업으로 인한 오류 여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다. 또 통신사업자가 승인된 작업계획서의 내용 및 절차를 준수하는지 네트워크관제센터에서 점검하는 체계를 구축하고, 라우팅 설정 오류로 인한 피해를 최소화하기 위해 통신사업자가 라우팅 작업을 할 때 한 번에 업데이트되는 경로정보 개수를 일정 수준 이하로 제한하는 방안도 검토한다.

중장기 대책으로는 통신사업자의 통신장애 대응 모니터링 체계 강화, 네트워크 안정성과 복원력을 높이는 기술 개발 등을 추진할 예정이다.

KT는 이용자 피해 현황을 조사하고 피해구제 방안을 마련하고, 방송통신위원회는 이행 여부를 점검할 예정이다. 방통위는 통신장애 발생 시 실효성 있는 피해구제를 위해 법령, 이용약관 등을 개선하는 방안도 검토할 계획이다.

▶관련 기사: "야간에 작업하기 싫어서" KT 상식 깬 관리 소홀에 정부조차 “당황스럽다”

추천기사

바로가기 링크 설명

화제의 추천 정보

    오늘의 인기 정보

      추천 이슈

      이 시각 포토 정보

      내 뉴스플리에 저장