본문 바로가기

카테고리 없음

Azure HDInsight를 위한 막강한 디버깅 툴 등장

Azure HDInsight 사용자를 위한 디버깅 기능이 Spark History Server에 추가되었습니다. Spark History Server 화면에 들어가 보면 Graph와 Data라는 새로운 탭이 바로 새로 보강된 기능들입니다. 

Graph와 Data 기능은 마이크로소프트가 Cosmos 클러스터를 운영하면서 겪은 현장의 운영 경험을 바탕으로 만든 기능입니다. 간단히 말해 성능 관련 디버깅을 어떻게 하면 더 쉽게 할 수 있을까? 고민하다 만든 기능입니다. 현재 퍼블릭 프리뷰 단계이며, 공식 발표될 때에는 아마 기능이 더 개선되거나 추가되지 않을까 예상합니다. 

간단히 살펴보시죠. Spark History Server는 애저 포탈에서 스파크 클러스터를 선택한 다음, 클러스터 대시보드를 통해 들어갈 수 있습니다. Graph와 Data 각각 어떤 기능인지 살펴보겠습니다. 

먼저 Graph 탭을 누르면 Spark 잡(Job) 실행에 관련된 다양한 정보를 볼 수 있습니다. 스파크 애플리케이션의 각 실행 단계별 데이터 입력과 출력에 대한 상세 내용을 볼 수 있습니다. 스파크 개발자는 잡 진행 과정을 다시 되돌려 보면서 데이터 읽기와 쓰기 작업이 어떻게 진행되었는지 볼 수 있습니다.


또한, 데이터 읽기와 쓰기 관련 히트맵 보기도 지원합니다. 따라서 스파크 애플리케이션의 성능이 좀 이상해 보인다 싶으면 병목 구간이 어디인지 짚어 내기 쉽습니다. 


다음으로 Data 탭을 살펴보겠습니다. 이 탭 화면에서 스파크 개발자와 데이터 과학자가 디버깅을 위한 목적으로 스파크 잡 관련 데이터에 대한 프리뷰, 다운로드, 복사, CSV 파일로 내보내기 등의 작업을 간단하게 할 수 있습니다. Hive 메타 데이터 보기도 지원하여 스파크 잡 관련 성능 문제 해결을 위한 잡 분석 작업을 더 수월하게 할 수 있습니다.