본문 바로가기

클라우드 운영 팁

장애 발생! 뭐가 문제지? Azure Service Health로 장애 나기 전에 미리미리 사태 파악하자 ~

최근 페이스북, 인스타그램, 지메일 등 굵직한 서비스들 장애가 일어났죠. 다들 무슨 일이냐 싶었을 것입니다. 대형 업체도 장애는 피할 수 없습니다. 클라우드에서 서비스나 시스템을 운영 중 장애가 나면? 누구의 문제인지가 궁금해지죠? 내가 뭘 잘못 설정했나? 아니면 클라우드 사업자 문제인가? 성능 저하나 시스템 다운 같은 장애가 일어나기 전에 미리미리 알 수 있는 간편한 방법은 없을까?

세상에 찾으면 없는 게 어디 있겠습니까? 네, 있습니다. 마이크로소프트 애저(Microsoft Azure)를 이용하는 관리자라면 보통 서비스가 정상적으로 돌아가는지를 애저 상태 웹 페이지(Azure Status Page)에서 확인할 것입니다.


이 페이지에 가면 마이크로소프트 애저의 주요 리전의 서비스 상태를 볼 수 있습니다. 좋음, 경고, 오류, 정보 아이콘을 통해 상태를 보여주는데요, 문제는 리전이 너무 많고 각 리전에서 제공하는 클라우드 상품과 서비스가 많다 보니 마우스를 스크롤 하면서 보기 불편합니다. 개인 설정을 통해 대시보드로 볼 수도 있지만, 이 또한 '설정'이라는 과정을 거쳐야 하죠.

이런 불편을 덜어 드리고자 Microsoft가 간편한 서비스 상태 파악 도구를 만들었습니다. 이름하여 애저 서비스 헬스(Azure Service Health), 이를 활용하면 내가 꼭 봐야 할, 확인해야 할 애저 상태만 파악할 수 있습니다.


애저 서비스 헬스는 현재 내가 운영 중인 서비스, 시스템 관련 애저 상태 정보만 추려 보여줍니다. 내가 찾아보는 게 아니라 마이크로소프트가 알아서 한번 걸려 꼭 봐야 할 것만 알려 주는 일종의 '요약정리'입니다. 애저 서비스 헬스는 다음과 같이 사용자에게 직접 영향을 끼치는 것 3가지를 보여 줍니다.

1. 서비스 이슈: 애저에 발생한 문제가 사용자의 서비스에 영향을 끼칠 때 이를 알려줌

2. 계획된 유지보수: 애저 유지보수 계획 중 사용자가 이용 중인 자원과 서비스에 해당하는 일정 공유

3. 서비스 헬스 관련 도움말: 사용자가 설정을 잘못하였거나, 사전에 정해둔 용량이나 성능을 넘어서는 등 잠재적으로 문제를 일으킬 수 있는 것들을 찾아 관련 도움말 제공

애저 서비스 헬스의 좋은 점은 매번 애저에 접속해 서비스 헬스 대시보드에서 보지 않아도 된다는 것입니다. 이메일, 문자로 서비스 헬스 관련 정보를 받아 볼 수 있습니다. 서비스나우(ServieNow) 같은 서비스를 이용해 관리할 경우 웹푹을 통해 노티를 받아 볼 수 있습니다.


더 자세한 내용은 관련 문서를 참조 바랍니다.