본문 바로가기

HDInsight

(3)
HDInsight 클러스터 환경에서 운영하는 아파치 피닉스 ~ 이제 제플린 노트북으로 사용할 수 있다! 아파치 피닉스(Apache Phoenix)는 HBase 기반의 대규모 병렬 관계형 데이터베이스로 OLPT나 분석 워크로드 처리에 쓰입니다. 아파치 피닉스 운영 환경으로 궁합이 참 잘 맞는 것이 애저의 HD인사이트(HDInsight)입니다. 그 이유는 4개 정도로 압축할 수 있습니다. 1) 아파치 피닉스 클러스터 생성의 간함 애저 환경에서 아파치 HBase나 피닉스 기반 워크로드 운영을 위한 클러스터를 생성하는 데 필요한 시간은? 몇 분이면 충분합니다. 애저 포탈을 통해 간편하게 만들 수 있습니다. 클러스터를 자주 만들어야 한다면 JSON 템플릿, 파워쉘, REST API, 애저 클라이언트 SDK를 통해 클러스터 생성 과정을 자동화할 수도 있습니다. 2) 필요한 때만 쓰는 경제성 높은 클러스터 HD인사이트..
Azure, Big Data 그리고 락플레이스... HDInsight 개발자 가이드 문서 ~ 735페이지 분량의 알찬 공개 자료 마이크로소프트 애저(Azure) 환경에서 빅 데이터 플랫폼을 운영하는 방법은 여러 가지입니다. 직접 호튼웍스 HDP 같은 빅 데이터 플랫폼을 올려 클러스터를 꾸리는 방법과 함께 내부에 클러스터 관리 인력이 마땅치 않다면 마이크로소프트가 제공하는 매니지스 서비스를 이용할 수도 있습니다. Azure HDInsight란? 하둡, 스팍, 하이브, 맵리듀스, H베이스, 스톰, 카프카, 마이크로소프트 R 등 오픈 소스 기반 분석 클러스터 환경을 마이크로소프트가 책임지고 관리하는 매니지드 서비스입니다. 99.9% 수준의 SLA를 보장하기 때문에 클러스터 문제로 분석 작업에 차질이 생길까 걱정하지 않아도 됩니다.이 서비스 이름은 그 유명은 'Azure HDInsight'입니다. 호튼웍스 HDP로 직접 꾸린 환경과 HD..
비주얼 스튜디오 코드에서 HDInsight 클러스터로 직접 연결하는 초간단 비법 ~ 빅 데이터 관련 개발이 더 안전하고, 편리해진다 ~ 평소 손에 익은 개발 환경에서 빅 데이터를 다룬다! 이 정도 편의성이야 기본이죠. 마이크로소프트 애저는 'HDInsight Tools for VSCode'란 도구로 이 편의를 제공하죠. 비주얼 스튜디오 코드(Visual Studio Code)를 설치한 다음 애저 마켓플레이스에서 'HDInsight Tools for VSCode'를 찾아 깔면 됩니다. 윈도우 환경이 아니라 맥이나 리눅스를 개발 머신으로 쓴다면 Mono 4.2.x만 더 설치하면 됩니다. 이렇게 간단히 준비하면 비주얼 스튜디오 코드 화면에서 HDInsight 클러스터에 연결해 하이브 쿼리와 배치 작업 그리고 PySpark 작업을 할 수 있습니다. 개발자 도구에서 직접 빅 데이터 클러스터에 접근하는 것은 보안 측면에서 보면 위험할 수 있습니다...