"화재 때 우린 서버 들고 달렸다"…삼성 직원의 8년 전 기억

"그땐 그랬지"…8년 전 삼성SDS '라떼글' 재조명된 이유
남궁훈·홍은택 카카오 각자대표가 19일 오전 경기 성남시 카카오 아지트에서 열린 판교 데이터센터 화재로 인한 서비스 장애 사태 관련 기자회견에서 이용자들에게 고개 숙여 사과하고 있다. 최혁 한경닷컴 기자 chokob@hankyung.com
최근 카카오 판교 데이터센터 화재로 장기간 서비스 장애가 발생하면서 8년 전 삼성SDS 과천 데이터센터 화재 사례가 재조명되고 있다. 복구가 예상보다 지연되면서 비슷한 일을 겪었던 삼성SDS 화재 사건이 다시 회자되는 것이다.

"서버 들고 누구보다도 빠르게 수원으로 튀어갔다"

사진=블라인드앱
지난 15일 데이터센터 화재로 카카오 서비스가 먹통 사태를 빚자 직장인들이 사용하는 익명 애플리케이션(앱) 블라인드에는 삼성SDS 직원들이 올린 것으로 추정되는 글이 누리꾼 사이에서 퍼졌다.

한 직원은 '그땐 그랬지'라는 제목의 게시글을 앱에 올렸다. 그는 "과천 디씨 화재 때 우린 서버 들고 수원으로 튀어갔다. 이렇게라도 복구해야 하는 거 아니야?"라고 썼다. 또 다른 직원은 "DR(재해 복구)은 무슨 이유로든 안 될 것 같으면 붙잡고 있지 말고 장비 다 들고 뛰어서 복구 시작해야 된다"고 주장했다.

삼성SDS 직원으로 추정되는 이들이 "PTSD(외상 후 스트레스장애)가 온다" "11층 걸어 올라가서 드라이아이스 무한 배송했다" "과천에서 수원까지 직원이 손으로 들고 택시 타고 날랐다" "근처 PC방 통전세 내서 PC방 IP 방화벽 열고 작업시켰다" 등의 댓글을 달기도 했다.이후에도 이 내용은 '카카오 사태를 보고 추억에 잠긴 삼성SDS 아재들'이란 제목으로 각종 온라인 커뮤니티에 돌아다니고 있다. 이들이 언급한 사례는 삼성카드, 삼성생명 등 금융계열사의 데이터를 백업하는 삼성SDS 데이터센터에서 2014년 4월20일 발생한 화재를 가리킨다.

당시 증언 "창문 깨부수고 송풍기로 드라이아이스 공급"

사진=블라인드앱
당시 일요일 오후에 일어난 화재는 건물 4층에서 발생해 외벽을 타고 서버가 있던 11층 내부까지 번졌다. 이로 인해 삼성카드를 이용한 온라인 쇼핑 및 삼성생명 서비스 접수, 삼성그룹 채용 홈페이지 등에서 장애가 발생했다.당시 현장에서 근무했던 한 삼성SDS 직원은 "당시 며칠 밤을 거의 새다시피 해서 대응했다"고 회상했다.

그는 "불이 건물 외벽을 타고 번지는 상황에서 소방헬기가 급파돼 화재 수습에 나섰는데 그 과정에서 옥상 냉각탑을 건드려 기능이 상실됐다"며 "이로 인해 각 층마다 직원들이 직접 서버 열을 빼내기 위해 고분고투했다"고 했다. 또 다른 삼성SDS 직원 역시 "당시 각 층마다 직접 유리창을 깨 서버에 찬 바람을 공급했다"면서 "부랴부랴 드라이아이스 박스를 대거 구해 층마다 송풍기와 함께 두고 서버 열을 식히기 위해 안간힘을 다했던 기억이 난다"고 덧붙였다.
사진=블라인드앱
삼성SDS 복구 사례는 특히 카카오 복구 작업이 한창이던 지난 16일 저녁 "내가 장애 대응 안 하는 이유"라는 제목의 카카오 직원 추정 글이 올라오면서 유사한 사고에 대한 상반된 직원 태도가 부각돼 주목받았다. 해당 직원 태도가 카카오 전체를 대변한다고 볼 수 없으나, 카카오 대응에 대한 비난이 나오는 상황에서 적절치 않은 처신이란 비판에 직면했다.

"카카오 DR 대응 미흡한 점 아쉬워"

사진=연합뉴스
정보기술(IT) 업계는 '같은 사건, 다른 대처'라는 관점으로 카카오와 과거 삼성SDS 사례를 비교하는 것은 무리가 있다면서도 "사고 대응 인프라가 부족했다"고 입을 모았다. 데이터 이원화(트윈 데이터센터) 등 복구 계획(DR) 차원에서 사전 준비가 미흡했다는 지적이다.

데이터 이원화는 외부 요인으로 물리적 손상이 가해졌을 때를 대비해 다른 데이터센터에 동일한 구조의 서버를 구축하는 것을 뜻한다. 이번 판교 데이터센터(IDC) 화재 당시 네이버의 대응이 상대적으로 빨랐던 것은 전국 여섯 곳의 IDC를 통해 시스템 백업을 구축해놨기 때문으로 평가된다. 화재 당시 네이버는 나우, 제페토, 위버스 등으로 방탄소년단(BTS) 공연을 생중계했는데 거의 서비스 장애가 발생하지 않았다.

긴급 사태에 대응하는 DR 기능이 제대로 작동하지 않은 점이 무엇보다 문제라는 지적이다. 대부분 IDC를 운영하는 경우 규정에 따라 정기적으로 블랙아웃(대규모정전) 대비 모의훈련을 하도록 돼 있다. 장애 발생 시 몇 시간 안에 복구할 것인지 등이 상세히 나와 있다.

구글의 경우 연 2회 이상 복구 훈련을 하고, 마이크로소프트도 연 1회 훈련을 진행한다. 이번 화재에는 이러한 DR 대응이 제대로 안된 셈이다. 업계 관계자들은 연 매출 6조원 규모에 달하는 카카오가 이런 인프라 투자에 미흡했다는 게 아쉽다는 반응을 내놨다.

한 IT 업계 관계자는 "데이터센터를 운영하는 회사라면 한 서버가 셧 다운되면 플랜B 데이터센터에서 서비스될 수 있어야 하는 구조를 갖춰야 한다"며 "과거 쿠팡, KT 등 여러 사례를 보면 이원화 작업과 DR이 중요하다는 것을 충분히 알았을 텐데 아쉽다"고 말했다. 또 다른 업계 관계자 역시 "너무 한 곳에 몰아서 데이터센터를 운영하지 않았나. 최소한 이런 화재에 대한 복구 인프라를 갖춰놔야 하는 거 아닌가 싶다"고 했다.카카오는 이번 '먹통 사태'에 대한 대응책으로 4600억원을 투입해 내년 중 안산에 자체 데이터센터를 완공할 계획이다. 2024년 시흥에도 데이터센터 착공을 앞두고 있다. 이번 사고 보상과 관련해서는 별도의 자체 창구를 통해 피해 사례를 접수 중이다.

조아라 한경닷컴 기자 rrang123@hankyung.com