야간에 할 작업을 대낮에…결국 '명령어 누락', KT 먹통사태 불렀다
입력
수정
부산서 생긴 라우터 오류 30초만에 전국으로지난 25일 발생한 KT의 유·무선 인터넷 통신 먹통의 원인이 작업자의 명령어 누락이 있었던 것으로 파악됐다. 작업 원칙을 어기고 대낮에 장비를 교체하는 등의 총체적 관리 부실이 확인됐다.
야간작업을 대낮에...KT 관리 부실 여실히 드러나
과학기술정보통신부는 KT 장애와 관련해 정보보호·네트워크 전문가로 구성된 사고조사반과 함께 원인을 조사·분석한 결과를 29일 발표했다. 조사 결과 이번 사고는 25일 오전 11시16분께 시작돼 오후 12시45분께 복구가 완료될 때까지 약 89분간 이어졌다.
원인은 라우팅 오류...명령어 누락 등 KT 관리부실
과기정통부가 분석한 이번 사태의 원인은 기존에 알려진 대로 '라우팅 오류' 였다. KT는 사고 직후 원인으로 '디도스(분산서비스거부·DDoS)'라고 밝힌 바 있으나 조사 결과 디도스 공격은 없었다.사고조사반에 따르면 부산 국사에서 KT 기업 망 라우터 교체 작업을 진행하던 중 작업자가 사고발생 라우터에 라우팅 설정명령어 입력과정에서 '엑시트(exit)' 명령어를 누락하는 실수를 저질렀다. 이로 인해 수십만개의 정보가 잘못 전송돼 오류가 발생했다.
부산 지역 라우터에 잘못된 경로가 설정된 것이 다른 지역 라우터에도 전달되면서 전국적으로 오류가 확산된 것으로 조사됐다. 이 과정에서 전국 모든 지역 라우터와 연결된 서울 혜화 센터와 구로 센터가 오류 확산의 '허브'가 됐다. 전체 라우터에 오류가 전파되기까지 걸린 시간은 30초 이내였다.스크립트에서 명령어가 누락됐지만 작성 및 1·2차에 거친 사전검증 과정에서 발견하지 못할 정도로 사전검증이 부실하다는 점도 확인됐다.
통상 오전 1∼6시 하는 야간 작업으로 승인된 작업을 대낮에 수행한 점도 문제가 됐다. KT의 작업 관리자 없이 협력업체 직원들끼리만 라우팅 작업을 수행하는 등 관리상 문제점도 드러났다. 게다가 작업이 네트워크가 연결된 상태로 이뤄지는 등 기본이 지켜지지 않았다.
과기정통부 측은 "KT에는 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었다"며 "또 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했다"고 설명했다.과기정통부는 이번 조사 결과를 바탕으로 주요통신사업자 네트워크의 생존성·기술적·구조적인 대책이 담긴 '네트워크 안정성 확보방안'을 마련할 계획이다.
최수진 한경닷컴 기자 naive@hankyung.com