부산 라우터 교체 중 경로설정 잘못…서울 거쳐 연쇄 오류
관리자 없이 협력업체가 주간 작업수행…네트워크 분리도 안해
전화는 별도망 쓰지만 이용증가로 과부하…디도스 공격 부재


전국의 KT 유·무선 인터넷이 마비된 지난 25일의 네트워크 장애는 작업자의 한 단어짜리 명령어 누락이 불씨가 돼 내부 안전장치가 없는 탓에 전국으로 확산된 것으로 확인됐다.

관리자 없이 협력업체 직원끼리만 낮에 네트워크도 분리하지 않은 채 장비를 교체하는 등 관리상 문제도 확인됐다.

과학기술정보통신부는 이번 KT 장애와 관련해 정보보호·네트워크 전문가로 구성된 사고조사반과 함께 원인을 조사·분석한 결과를 29일 발표했다.
KT 장애, 명령어 하나 누락으로 시작…안전장치 없어 전국 확산
◇ 'exit' 명령어 누락…외부용 정보가 내부로 전달돼 과부하

조사 결과 이번 사고는 25일 오전 11시 16분께 시작돼 낮 12시 45분께 복구가 완료될 때까지 약 89분간 이어졌다.

최초 KT DNS(도메인 네임 시스템·Domain Name System) 서버에서 평소보다 트래픽이 급증한 것이 네트워크 장애로 이어졌다.

DNS는 8비트 숫자 4개로 된 도메인 주소를 일반 글자로 이뤄진 IP 주소로 변환하는 역할을 수행한다.

관련 로그 기록을 분석한 결과 부산국사에서 기업 망 라우터(네트워크 경로 설정 장비) 교체 작업 중, 작업자가 잘못된 설정 명령을 입력했고 이후 라우팅(경로 설정) 오류로 전국적인 인터넷 네트워크 장애가 발생했다.

작업자는 사고 발생 라우터에 라우팅 설정 명령어 입력을 마무리하면서 'exit' 명령어를 누락한 것으로 파악됐다.

이에 따라 보더 게이트웨이 프로토콜(BGP·Border Gateway Protocol)로 교환돼야 할 경로 정보가 내부 게이트웨이에 쓰이는 IS-IS 프로토콜로 전송됐다.

라우터는 최신 경로정보를 라우터끼리 교환하기 위해 프로토콜을 사용하는데, KT와 외부 네트워크 경로 구성에는 BGP를 사용하고, KT 내부 경로 구성에는 IS-IS 프로토콜을 쓴다.

통상 1만 건 내외 정보를 교환하는 IS-IS 프로토콜에 그 수십만배 규모인 BGP 정보가 엉뚱하게 전송된 결과 라우팅 경로에 오류가 발생한 것이다.
KT 장애, 명령어 하나 누락으로 시작…안전장치 없어 전국 확산
◇ 부산발 오류, 서울 혜화·구로 타고 30초만에 전국 확대

부산 지역 라우터에 잘못된 라우팅 경로가 설정된 것이 다른 지역 IS-IS 라우터에도 전달되면서 전국적으로 오류가 확산했다.

이 과정에서 전국 모든 지역 라우터와 연결된 서울 혜화 센터와 구로 센터가 오류 확산의 허브가 됐다.

전체 라우터에 오류가 전파되기까지 걸린 시간은 30초 이내였다.

특히 KT의 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 하나로 연결하고 있었기 때문에 하나의 잘못된 경로 업데이트가 전국 라우터에 연쇄적으로 일어나면서 장애가 전국으로 확산했다고 과기정통부는 설명했다.

당초 새벽 1∼6시에 하는 야간작업으로 승인된 작업을 대낮에 수행하고, 작업 관리자 없이 협력업체 직원들끼리만 라우팅 작업을 수행하는 등 관리상 문제점도 드러났다.

작업도 네트워크가 연결된 상태로 이뤄지는 등 기본이 지켜지지 않았다.
KT 장애, 명령어 하나 누락으로 시작…안전장치 없어 전국 확산
◇ 정부 네트워크 안정성 확보방안 및 이용자보호 대책 추진

인터넷 프로토콜 TV(IPTV)와 음성전화·문자메시지 서비스는 인터넷 서비스와 별도 망을 사용하고 있으나, 인터넷 장애로 전화와 문자 이용이 늘고 단말기 전원을 리셋한 사용자가 늘면서 트래픽이 증가해 부하가 가중된 것으로 나타났다.

최초 원인으로 지목됐던 디도스(분산서비스거부·DDoS) 공격은 없었음이 확인됐다.

과기정통부는 다량의 도메인 또는 비정상 도메인을 DNS 서버에 질의하는 '시스템 자원 공격', 또는 대량의 네트워크 패킷을 DNS 서버에 전송해 서비스 대역폭을 채우는 '네트워크 대역폭 공격' 등 디도스 공격의 2가지 유형 중 어느 쪽도 발견되지 않았다고 밝혔다.

과기정통부는 주요 통신사업자와 네트워크 안정성 확보방안을 마련할 계획이다.

주요 사업자의 네트워크 관리체계를 점검하고, 오류를 사전에 진단하는 시뮬레이션 시스템을 도입한다.

작업 절차 준수 여부에 대한 기술적 점검체계 구축과 라우팅 작업 시 경로정보 개수 제한도 검토한다.

방송통신위원회는 KT의 이용자 피해구제 방안 이행 여부를 점검하는 한편 통신장애 발생 시 실효성 있는 피해구제를 위한 법령 및 이용약관 등 개선방안 마련을 검토중이다.

/연합뉴스