KT "라우터 교체 年4천번…작업자 OTP 입력절차 도입"
입력
수정
"10월 25일 망 연결 전 사전작업 절차 안 지켰다"
오류 확산 방지 기능 모든 엣지망으로 확대지난달 25일 전국 통신 먹통 사고를 일으킨 KT가 1일 발표한 재발방지책에는 협력사 직원이 작업을 수행할 때 일회용 비밀번호(OTP)를 입력토록 하겠다는 내용이 포함됐다.KT는 이날 광화문 사옥에서 진행한 설명회에서 이번 대규모 사고를 일으킨 경위를 자체 진단한 결론을 밝혔다.
KT는 주요 문제점으로 ▲ 야간에 진행해야 할 작업을 낮에 KT 직원이 없는 상황에서 진행한 점 ▲ 사전 검증에서 협력사의 명령어 누락을 파악하지 못한 점 ▲ 잘못된 라우팅(네트워크 경로설정) 정보가 엣지(말단)망을 통해 전국으로 확산한 점을 꼽았다.
서창석 KT 전무는 "원래는 장비 교체 한 달 전에 하드웨어 설치를 하고, 망 연결이 되지 않은 2단계에서 라우터 이름과 기본정보를 설정하는 사전 작업 절차가 있지만, 이번 인터넷 장애는 이를 준수하지 않아 발생했다"며 "이런 작업이 연간 4천번 정도 있었지만 문제가 없었고 이번에 문제가 생겼다"고 설명했다.서 전무는 이런 사고가 재발하지 않도록 관리와 기술 측면에서 대책을 마련했다고 설명했다.
작업 관리 측면으로는 '이중 삼중의 현장작업 자동통제 시스템'을 도입하겠다고 밝혔다.
KT는 야간에 이뤄져야 할 작업이 주간에 진행되는 잘못이 되풀이되지 않도록, 협력업체 직원 등 작업자가 주요 명령어를 입력할 때 OTP로 KT 관리자의 승인을 받도록 할 방침이다.또 네트워크 관제센터에서는 혹시 누군가 미승인 작업을 하는지 실시간으로 감시토록 할 예정이다.
나아가 관제센터에서 KT 직원의 작업 참여를 인증한 후에야 실제 작업이 되도록 하는 등 단계별 검증 절차를 붙이기로 했다.
서 전무는 "이번 부산 고객망 라우팅 연결 작업은 원래 야간작업으로 KT에 신고돼 있었으나, 미승인된 상태에서 주간에 작업을 했다"며 "앞으로는 KT 직원이 입회했는지 확인하고 통제시스템에 등록해야 최종 승인되는 시스템을 구축할 것"이라고 설명했다.기술 측면으로는 기존 시뮬레이션 시스템을 확대하겠다고 KT는 밝혔다.
전에는 작업 준비 단계에서만 적용했던 시험을 이제는 전국 어느 곳이든 새로운 라우팅을 적용하기 직전에 최종 시험을 하고 나서 실제 망에 적용하는 방안을 추진하겠다는 것이다.
KT는 또 장비 교체나 업데이트 때 정보전달 개수를 제한하는 등 오류 확산 방지 기능을 전국 모든 엣지망(말단망)으로 확대한다는 계획이다.
이런 제한은 현재 모든 센터망과 중계망에는 적용돼 있지만 엣지망에는 일부만 적용돼 있다.
서 전무는 "이번에 신설된 라우터에는 오류 확산 방지 기능을 적용하지 못한 상태였다"며 "이 기능을 확대해 라우팅 오류 피해 확산을 최소화하겠다"고 말했다.
KT는 이 재발방지 대책을 이른 시일에 철저하게 실행하고자 '네트워크혁신 태스크포스(TF)'를 만들었다고 덧붙였다.
KT 측은 사고 발생 초기에 장애 요인을 분산서비스거부(DDoS·디도스) 공격으로 오인한 이유도 설명했다.권혜진 KT 네트워크전략담당 상무는 "그간 인터넷 대형장애는 대부분 디도스 아니면 도메인네임시스템(DNS) 공격이었다"며 "당시 전국적으로 DNS 트래픽이 올라갔고, 전국적으로 DNS 장애 알람이 올라와서 디도스 공격의 가능성을 최우선으로 염두에 뒀다"고 말했다.
/연합뉴스
오류 확산 방지 기능 모든 엣지망으로 확대지난달 25일 전국 통신 먹통 사고를 일으킨 KT가 1일 발표한 재발방지책에는 협력사 직원이 작업을 수행할 때 일회용 비밀번호(OTP)를 입력토록 하겠다는 내용이 포함됐다.KT는 이날 광화문 사옥에서 진행한 설명회에서 이번 대규모 사고를 일으킨 경위를 자체 진단한 결론을 밝혔다.
KT는 주요 문제점으로 ▲ 야간에 진행해야 할 작업을 낮에 KT 직원이 없는 상황에서 진행한 점 ▲ 사전 검증에서 협력사의 명령어 누락을 파악하지 못한 점 ▲ 잘못된 라우팅(네트워크 경로설정) 정보가 엣지(말단)망을 통해 전국으로 확산한 점을 꼽았다.
서창석 KT 전무는 "원래는 장비 교체 한 달 전에 하드웨어 설치를 하고, 망 연결이 되지 않은 2단계에서 라우터 이름과 기본정보를 설정하는 사전 작업 절차가 있지만, 이번 인터넷 장애는 이를 준수하지 않아 발생했다"며 "이런 작업이 연간 4천번 정도 있었지만 문제가 없었고 이번에 문제가 생겼다"고 설명했다.서 전무는 이런 사고가 재발하지 않도록 관리와 기술 측면에서 대책을 마련했다고 설명했다.
작업 관리 측면으로는 '이중 삼중의 현장작업 자동통제 시스템'을 도입하겠다고 밝혔다.
KT는 야간에 이뤄져야 할 작업이 주간에 진행되는 잘못이 되풀이되지 않도록, 협력업체 직원 등 작업자가 주요 명령어를 입력할 때 OTP로 KT 관리자의 승인을 받도록 할 방침이다.또 네트워크 관제센터에서는 혹시 누군가 미승인 작업을 하는지 실시간으로 감시토록 할 예정이다.
나아가 관제센터에서 KT 직원의 작업 참여를 인증한 후에야 실제 작업이 되도록 하는 등 단계별 검증 절차를 붙이기로 했다.
서 전무는 "이번 부산 고객망 라우팅 연결 작업은 원래 야간작업으로 KT에 신고돼 있었으나, 미승인된 상태에서 주간에 작업을 했다"며 "앞으로는 KT 직원이 입회했는지 확인하고 통제시스템에 등록해야 최종 승인되는 시스템을 구축할 것"이라고 설명했다.기술 측면으로는 기존 시뮬레이션 시스템을 확대하겠다고 KT는 밝혔다.
전에는 작업 준비 단계에서만 적용했던 시험을 이제는 전국 어느 곳이든 새로운 라우팅을 적용하기 직전에 최종 시험을 하고 나서 실제 망에 적용하는 방안을 추진하겠다는 것이다.
KT는 또 장비 교체나 업데이트 때 정보전달 개수를 제한하는 등 오류 확산 방지 기능을 전국 모든 엣지망(말단망)으로 확대한다는 계획이다.
이런 제한은 현재 모든 센터망과 중계망에는 적용돼 있지만 엣지망에는 일부만 적용돼 있다.
서 전무는 "이번에 신설된 라우터에는 오류 확산 방지 기능을 적용하지 못한 상태였다"며 "이 기능을 확대해 라우팅 오류 피해 확산을 최소화하겠다"고 말했다.
KT는 이 재발방지 대책을 이른 시일에 철저하게 실행하고자 '네트워크혁신 태스크포스(TF)'를 만들었다고 덧붙였다.
KT 측은 사고 발생 초기에 장애 요인을 분산서비스거부(DDoS·디도스) 공격으로 오인한 이유도 설명했다.권혜진 KT 네트워크전략담당 상무는 "그간 인터넷 대형장애는 대부분 디도스 아니면 도메인네임시스템(DNS) 공격이었다"며 "당시 전국적으로 DNS 트래픽이 올라갔고, 전국적으로 DNS 장애 알람이 올라와서 디도스 공격의 가능성을 최우선으로 염두에 뒀다"고 말했다.
/연합뉴스