"야간작업 싫어서 대낮에"…30초만에 전국망 다운됐다

과기정통부, KT 네트워크 장애 원인분석 결과 발표
“KT 관리·기술 총체적 부실…30초만에 전국망 다운”
"횡단보도를 파란불에 건너라는 기본 원칙 안 지킨 수준"
홍진배 과학기술정보통신부 정보보호네트워크정책관이 29일 오후 서울 종로구 정부서울청사 본관 브리핑룸에서 'KT 네트워크 장애 원인분석 결과' 관련 브리핑을 하고 있다. 과기정통부 제공
관리감독자도, 사전 테스트도, 네트워크간 안전장치도 없는 ‘총체적 관리 부실’ 탓이다. 지난 25일 전국에 걸쳐 발생한 KT 유·무선 통신 장애 원인에 대해 과학기술정보통신부가 정보보호·네트워크 전문가들과 함께 분석한 결과다.

부산 명령어 오류로 30초만에 전국 통신망 마비

29일 과학기술정보통신부는 정부서울청사에서 KT 통신장애 사고조사반 브리핑을 열고 이같이 발표했다. 과기정통부에 따르면 25일 KT 통신장애는 당일 오전 11시16분께 KT북부산국사에서 시작됐다. 협력업체 직원들이 기업망 장비를 교체한 뒤 원격으로 네트워크 경로설정(라우팅) 정보를 입력하던 중 실수를 냈다. 라우팅은 통신 데이터가 알맞은 기기를 찾아 전달될 수 있게 해주는 일종의 데이터 주소 배정 과정이다. 그런데 작업자의 실수로 내부 라우터 장비간 데이터 경로 정보를 주고받는 IS-IS 프로토콜에 대해 ‘exit’ 명령어 한 줄이 누락됐다. 이때문에 스크립트가 완료되지 않은 채 다른 스크립트와 연결됐다.
이 명령어 오류가 전국에 퍼지기까지 걸린 시간은 불과 30초다. ‘자동 업데이트’ 형식으로 전국 네트워크가 연동된 탓이다. 부산의 기업용 라우터가 잘못된 명령어를 업데이트 정보로 인식해 부산 일대 데이터를 책임지는 부산 백본 라우터에 전달했다.

부산의 백본 라우터는 전국 모든 지역 백본 라우터에 연결돼 있는 서울 혜화·구로 센터 라우터에 이를 전했다. 그리고 잘못된 명령어를 서울 센터 라우터가 전국 백본 라우터에 뿌렸다. 지역을 가리지 않고 전국망이 ‘다운’된 이유다. 이에 대해 과기정통부는 “지역에서 일어난 장애가 전국으로 퍼지는 것을 막기 위한 안전장치가 없었다”며 “KT 네트워크가 라우터간 안전장치 없이 전국을 모두 하나로 연결하고 있는 바람에 라우터 하나의 오류가 전국에 연쇄적으로 장애를 일으킨 것”이라고 설명했다.


인터넷망 오류인데 IPTV·전화도 불통된 이유는

통신장애 당일 일부 KT 이용자들은 인터넷TV(IPTV)와 음성전화·문자 서비스에서도 장애를 겪었다. IPTV 서비스나 음성전화·문자 서비스망이 인터넷망과 별도로 운영되는데도 그랬다.

과기정통부는 이에 대해 “인터넷 서비스 장애로 인해 단기간 전화와 문자 이용이 급증했다”며 “여기에다 통신 장애에 놀란 이용자들이 단말 전원을 껐다가 켜는(리셋) 경우가 많아지면서 트래픽 증가가 발생해 망 부하가 가중됐을 것으로 추정된다”고 밝혔다. 단말전원을 끈 뒤 새로 켤 때 단말이 통신망에 새로 등록되는 절차를 거치기 때문에 트래픽(데이터 전송량)이 추가로 발생했다는 설명이다.

디도스 공격은 없었다

과기정통부는 이날 “25일 외부의 디도스(DDoS·분산 서비스 거부) 공격 정황은 없었다”고 밝혔다. KT는 통신장애 발생 직후 디도스 공격 가능성을 거론했다가 이를 약 두시간만에 번복했다.

과기정통부는 “당일 11시16분부터 KT의 DNS 서버에서 트래픽이 급증했지만 이는 디도스 공격 영향은 아닌 것으로 확인됐다”고 했다. DNS는 도메인 주소를 IP주소로 변환해주는 역할을 한다. 과기부 조사반의 패킷 분석 결과에 따르면 이날 개별 IP의 DNS 질의는 최대 15개 이내 수준에 그쳤다. 통상 디도스 공격이 발생하면 개별 IP당 수백~수천개 질의가 발생한다.

과기정통부는 이어 “트래픽 분석 실시 결과 중앙 1차 DNS서버 대역폭의 최대 8%, 부산 DNS 서버 대역폭의 28% 규모만 트래픽이 유입됐다”며 “이는 대역폭 대비 충분히 수용 가능한 수준이라 네트워크 대역폭 공격도 아닌 것으로 판단된다”고 했다.

“KT·협력사가 상호협의하에 대낮 작업하다 사고”

과기정통부는 이날 “KT의 관리, 기술 두 측면 모두 문제가 있었다”고 지적했다. “파란 불에 길건너는 것이 상식인데, 이를 지키지 않아 큰 사고가 일어난 것과 같다”는 얘기다.

일단 작업계획서와 달리 작업이 이뤄졌다. 당초엔 KT네트워크 관제센터가 야간작업으로 승인했으나 대낮 점심시간 전에 정보 업데이트를 했다. 통신 수요가 많은 점심시간 전후로 오류가 난 탓에 음식점과 카페, 대형마트, 배달 플랫폼 등에서 피해가 속출했다.

작업시간을 바꾼 것은 KT 담당자와 협력사 직원이 협의해 한 것으로 드러났다. 과기정통부는 “작업 시간을 바꾼 것은 협력사의 단독 결정이 아니라 KT와 상호 협의하에 한 것”이라며 “야간작업을 좋아하는 이들은 없기 때문에 그런 것으로 판단된다”고 했다.

이에 대해 KT 관계자는 “이번 작업이 낮에 이뤄진 것은 개별적인 사례일 뿐, 전문가들이 모두 주간 작업만 선호하는 것은 아니다”라며 “야간 작업의 경우 추가 수당이 나오고 다음날 근무를 쉴 수 있어 근무 시간이 짧다보니 야간 작업을 선호하는 이들도 있다”고 해명했다.

감독관리도 부실했다. 당시 작업은 KT 감독자가 없는 채로 협력업체 작업자들끼리만 이뤄졌다. KT는 과기정통부에 “관리자는 다른 업무가 있어서 자리를 비웠다”고 해명했다.

기술적 측면에서도 문제가 드러났다. 주요 장비를 새로 들여 명령어를 입력할 땐 네트워크가 차단된 상태에 작업하고, 스크립트가 제대로 구동하는지 사전 테스트를 거친다. 하지만 KT는 두 단계를 모두 어겼다. 또 사람이 직접 스크립트를 검토하는 사전검증 단계에서도 오류를 파악하지 못했다.

“네트워크 안정성 확보방안 마련할 것”

과기정통부는 이번 조사결과를 바탕으로 주요통신사업자에 대해 ‘네트워크 안정성 확보방안’을 마련할 계획이다. 과기정통부 네트워크정책실장을 단장으로 네트워크 전문가 등과 태스크포스를 운영한다.

과기부는 이날 “단기 대책으로는 주요통신사업자의 네트워크 관리 체계를 점검하고, 네트워크 작업으로 인한 오류여부를 사전에 진단할 수 있도록 시뮬레이션 시스템을 도입할 것”이라고 밝혔다. 주요통신사업자가 작업계획서를 준수하는지 점검하도록 네트워크관제센터 기능도 강화한다. 라우팅 설정오류로 인한 피해를 최소화하기 위해, 라우팅 작업을 할 때 한 번에 업데이트되는 경로정보 개수를 일정 수준 이하로 제한하는 안도 검토하기로 했다.
취재진 질문에 답하는 구현모 KT 대표 / 사진=국회사진기자단
이날 방송통신위원회는 KT의 통신 장애로 인한 이용자들의 피해를 보상 방안 이행 여부를 점검하겠다고 밝혔다. KT는 이날 오전 긴급 이사회를 개최하고 통신장애 피해보상안과 재발방지 대책 등을 논의했다. KT 관계자는 "정부와의 협의 등을 거쳐 보상안을 발표할 계획"이라고 말했다.

선한결 always@hankyung.com