AWS 장애에 당황한 고객사…쿠키런 킹덤, LOL 한때 먹통

머니투데이 백지수 기자 2021.02.23 13:00
글자크기
지난 19일 모바일 RPG 게임 '쿠킹런 : 킹덤' 접속 안내 화면에 AWS 서버 장애로 인한 오류가 발생했다는 알림이 떠 있다. /사진=쿠킹런 킹덤 화면 캡처지난 19일 모바일 RPG 게임 '쿠킹런 : 킹덤' 접속 안내 화면에 AWS 서버 장애로 인한 오류가 발생했다는 알림이 떠 있다. /사진=쿠킹런 킹덤 화면 캡처


모바일 RPG(역할수행게임) '쿠키런 : 킹덤'(이하 '쿠킹덤') 등 아마존웹서비스(AWS)의 클라우드에서 가동되는 서비스들이 지난 19일 최대 20시간에 달하는 장시간 접속 장애를 겪었다. 전세계 클라우드 서비스 시장 점유율 1위인 AWS에서 6시간 장애가 발생해 복구에 상당기간 시간이 소요된 것이다. 이에대해 IT 업계에서는 이례적인 사건이라는 반응이 나온다. AWS의 서비스 신뢰도가 크게 추락한 것이다.



23일 관련업계에 따르면 쿠킹덤 개발사 데브시스터즈는 지난 19일 오후 11시22분쯤부터 AWS 장애로 인한 긴급 점검을 실시했다. 복구는 다음날 오후 7시에야 완료됐다.

데브시스터즈는 쿠킹덤 공식카페 공지를 통해 "쿠킹덤 서버가 있는 AWS 데이터 센터 장애로 서버 환경이 불안정한 현상이 발생했다"고 밝혔다. 이에 따라 이용자들에게 접속불가에 따른 장애 보상으로 한 계정당 게임 재화 '크리스탈'을 5000개씩 지급한다고 안내했다.



데브시스터즈와 AWS에 따르면 이번 접속 장애는 쿠킹덤 서버가 있는 AWS 도쿄 리전(지역별 데이터센터 허브)에서 서버 냉각 시스템에 문제가 생기면서 발생했다. 클라우드 데이터센터는 서버가 과열되면 시스템이 멈출 수 있어 상시 냉각 시스템이 유지돼야 한다.

쿠킹덤의 경우 약 5시간 만인 오전 4시26분쯤 AWS 데이터 센터가 복구된 후에도 자사 서비스는 완전 복구되지 않았다. 이용자 수가 많아 서버를 여러 대 사용하는 상태였기 때문으로 파악됐다. 이에대해 AWS 관계자는 "해킹 등 보안 사고로 인한 서버 장애는 아니었다"면서 "순수한 AWS 서비스 장애는 6시간이었고 나머지 14시간은 고객사의 데이터 복구에 소요된 것"이라고 설명했다.

쿠킹덤 외에도 AWS 서버를 사용하는 라이엇게임즈의 '리그오브레전드'(LoL·'롤')도 지난 19일 약 1시간 남짓한 접속 오류를 겪은 것으로 확인됐다.


IT 업계 "AWS '업계 1위' 믿고 월 수천만원 내는데…"
AWS 장애에 당황한 고객사…쿠키런 킹덤, LOL 한때 먹통
IT 업계에서는 이번 사건으로 AWS에 대한 신뢰도에 상당한 손상이 갔다는 평가가 나온다. 모든 서비스에는 일정한 장애가 불가피하다는 점은 인정하더라도 고객사 서비스가 이처럼 장시간 중단된 것은 1위 사업자 답지 않다는 반응이다.

AWS는 2018년에도 서울 리전에서 84분 간의 서버 장애로 고객사들에게 피해를 안겼다. 당시 나이키, 쿠팡, 업비트 등 일반 소비자들이 자주 이용하는 웹사이트들이 마비됐다. 당시 AWS는 초반 공식 사과나 보상에 소극적인 태도를 보여 논란이 되기도 했다.

이렇게 클라우드 서비스에 장애가 생기면 정작 이용자들의 비난을 감수해야 하는 것은 클라우드 서비스 고객사들이다. 적잖은 금액을 지불하고 클라우드 인프라를 이용하는 기업들 입장에서는 클라우드 서비스 업체의 과실로 자사 서비스가 먹통이 되는 것은 억울한 일이다. 쿠킹덤의 경우 출시 한달밖에 안된 시점에서 장시간 접속오류로 제작사가 이용자들의 십자포화를 받고 무마하기위해 크리스탈(게임 내 재화)을 뿌려야 했다.

장애 생기면 고객사는 속수무책…시장에선 "클라우드 도입 위축 우려"
/사진=이지혜 디자인기자/사진=이지혜 디자인기자
보통 AWS를 비롯한 클라우드 업체들은 99.99%의 월 가동률을 보장하는 계약조건을 서비스 수준 계약(SLA) 등에 담는다. 월 가동률 99.99% 미만일 경우 미가동률에 따라 보상 크레딧을 제공하는 것으로 알려졌다. 클라우드 고객들은 이를 믿고 이용량에 따라 월 수천만씩 비용을 내며 서버 관리를 AWS 등 서비스형 인프라(IaaS·Infrastructure as a service) 업체들에 일임한다. 하지만 클라우드 서비스의 경우 문제가 생기면 직접 복구하기 어렵고 속수무책이다.

한 클라우드 업계 관계자는 "AWS 고객사에는 B2C 서비스를 하는 회사들이 많기 때문에 장애가 발생했을 때 일반 이용자들이 불편함을 호소하는 일이 많다"며 "1위 사업자의 명성에 걸맞지 않게 비슷한 사고가 반복되는 것은 문제"라고 말했다. 한 게임업체 관계자도 "이런 일이 더 반복된다면 고객사들도 복수 업체를 이용하거나 타 클라우드 회사를 찾게 될 것"이라고 말했다.

클라우드 업계에서는 클라우드 시장 위축에대한 우려도 나온다. AWS 고객사가 많아 AWS에서의 장애가 부각되는 면도 있지만 최근 타사 클라우드 서비스에서도 굵직한 장애가 적잖다는 점 때문이다. 지난해 말 구글 대규모 먹통 사고도 구글클라우드플랫폼(GCP)이나 클라우드 기반 기업용 서비스인 지스위트(G Suite) 고객사들을 곤란하게 했다.

업계에서는 클라우드 장애가 반복돼도 게임이나 플랫폼·배달·OTT서비스 등에서는 자체 물리적 서버를 구축하는 온프레미스 환경으로 복귀가 어렵다는 입장이다. 일단 데이터를 이전하기에 비용이 많이 들고 수십·수백만명 규모의 유동적인 글로벌 이용자 접속량을 감당하기에 클라우드 환경이 효율적이어서다.

한 클라우드 기업 관계자는 "솔직히 장애에서 자유로울 수 있는 클라우드 기업은 어디에도 없다"며 "이번 일로 기업들이 클라우드 도입을 고민하게될 수 있어 우려스럽다"고 말했다.
TOP