비주얼 스튜디오 코드에서 HDInsight 클러스터로 직접 연결하는 초간단 비법 ~ 빅 데이터 관련 개발이 더 안전하고, 편리해진다 ~
평소 손에 익은 개발 환경에서 빅 데이터를 다룬다! 이 정도 편의성이야 기본이죠. 마이크로소프트 애저는 'HDInsight Tools for VSCode'란 도구로 이 편의를 제공하죠. 비주얼 스튜디오 코드(Visual Studio Code)를 설치한 다음 애저 마켓플레이스에서 'HDInsight Tools for VSCode'를 찾아 깔면 됩니다. 윈도우 환경이 아니라 맥이나 리눅스를 개발 머신으로 쓴다면 Mono 4.2.x만 더 설치하면 됩니다. 이렇게 간단히 준비하면 비주얼 스튜디오 코드 화면에서 HDInsight 클러스터에 연결해 하이브 쿼리와 배치 작업 그리고 PySpark 작업을 할 수 있습니다.
개발자 도구에서 직접 빅 데이터 클러스터에 접근하는 것은 보안 측면에서 보면 위험할 수 있습니다. 그래서 마이크로소프트가 기업에 꼭 필요한 개발 편의성과 빅 데이터 클러스터에 대한 보안성 모두를 만족하는 기능을 보강했습니다.
HDInsight 이용하는 기업에서 할 일은 비주얼 스튜디오 코드에 'HDInsight Tools for VSCode'만 설치하면 됩니다.
그러고 나서 다음과 같이 HDInsight 클러스터 URL과 암바리 사용자 이름, 비밀번호를 입력하고 클러스터 유형을 선택합니다. 성공적으로 연결되었다는 메시지가 뜨면 이제 하이브와 스파크 쿼리와 배치 작업을 연결된 클러스터에서 바로 실행할 수 있습니다.
다른 연결 방법은 앞서 언급한 HDInsight 엔터프라이즈 시큐리티 패키지를 이용하는 것입니다. 이 경우 시큐어 하둡 도메인에 대한 사용자 이름과 비밀번호를 입력해 접속합니다.
연결된 클러스터에 대한 정보 확인도 명령어로 간단히 할 수 있는데요 'HDInsight: List cluster'를 입력하면 다음과 같이 정보를 확인할 수 있습니다. 연결이 더 필요 없으면 'HDinsight: Unlink a cluster'를 입력하면 됩니다.