카카오 첫 안전성 보고서 발간
"지진·신년·화재가 카톡 안정성 높인 계기 돼"
대한민국 국민의 대다수가 쓰는 메신저 카카오톡은 2016년 지진, 2020년 신년, 작년 화재를 겪으며 각각 안정성을 높이는 계기를 마련한 것으로 나타났다.

3일 카카오가 최근 발간한 첫 안전성 보고서(Kakao Reliability Report)에 따르면 카톡은 2016년 9월 경주 지진을 계기로 트래픽(Traffic·앱과 서버 사이에 오가는 다양한 신호) 예측 불가능의 비상 상황에 대응할 수 있는 체계를 갖췄다.

당시 갑작스러운 지진으로 카톡 이용자의 메시지 수·발신량이 폭증했고, 이에 따라 예측하지 못한 거대한 양의 트래픽이 발생하면서 카톡이 정상적으로 작동하지 못했다.

지진이 발생하고 30초 뒤 전 국민에게 발송된 재난 문자로 수많은 스마트폰이 동시에 활성화된 점이 트래픽 폭증의 주요 원인으로 지목됐다.

전 국민의 스마트폰에서 카톡의 '백그라운드 로그인'(이용자가 매번 카톡 애플리케이션을 켤 때마다 직접 로그인할 필요가 없도록 스마트폰 화면이 켜지는 순간 로그인 화면을 단말기에 띄우지 않고 실행하는 로그인)이 실행된 결과 엄청난 양의 트래픽이 카톡 서버로 쏟아졌다.

예상치 못한 트래픽 증가로 서버 구성 요소들의 성능이 저하되면서 결국 서비스가 제대로 동작하지 않는 장애가 발생한 것이다.

카카오는 이를 계기로 메시지가 오가는 데 꼭 필요한 트래픽과 로그인 요청 같은 부가적 트래픽을 분리하는 방식으로 카톡 트래픽 관리 체계를 개편했다.

카톡에 일종의 버스 전용차선을 만든 셈이다.

트래픽 분할 시스템의 구축으로 이듬해인 2017년 11월 포항 지진과 올해 7월 전북 지진이 발생했을 때는 카톡 서비스가 정상적으로 동작할 수 있었다.

"지진·신년·화재가 카톡 안정성 높인 계기 돼"
2020년 1월 1일 신년 0시에 벌어진 카톡 메시지 수·발신 장애는 신년, 연말, 월드컵 등 트래픽 규모를 어느 정도 예측할 수 있는 대형 이벤트 날의 안정성을 높이는 계기가 됐다.

이날 장애 이후 카톡은 예측할 수 있는 이벤트의 수·발신 속도를 보장하기 위해 이용자나 데이터 흐름 등에 우선순위를 정해 트래픽 처리 방식을 개선했다.

보고서는 "프로토콜((Protocol·컴퓨터나 통신 장비 사이에서 데이터를 주고받기 위해 정의한 규칙)별로 사용할 수 있는 스레드(Thread·프로세스에서 실행되는 작업 흐름의 단위) 수를 제한해 중요한 데이터를 주고받는 프로토콜은 스레드를 많이 사용할 수 있도록 구현한 것"이라면서 "프로토콜은 전용 차선, 데이터는 차량에 비유할 수 있는데 중요한 메시지는 더 빨리 전송될 수 있도록 메시지의 우선순위를 적용했다"고 설명했다.

지난해 10월 카카오 데이터센터(IDC) 화재로 발생한 카톡 서비스 장기 '먹통' 사태는 데이터센터에서 벌어지는 사고에 대한 대비를 강화하는 계기가 됐다.

보고서는 "데이터센터에서 발생하는 이벤트도 트래픽 대응처럼 전략적 체계를 구축하고, 정기 훈련 개념의 주기적 모의 훈련을 진행할 필요성을 인식했다"며 "데이터센터 장애 이후 모의 훈련을 기획하고 훈련이 가능한 환경을 구성하는 작업을 진행하고 있다"고 소개했다.

"지진·신년·화재가 카톡 안정성 높인 계기 돼"
/연합뉴스