본문 바로가기

Azure Databricks

(2)
Azure SQL Data Warehouse ~ 클라우드 기반 DW 시장 불꽃 튀는 경쟁 시대 요즘 클라우드 기반 데이터웨어하우스(DW) 시장 분위기가 심상치 않습니다. 클라우드 선두 주자들이 각자 기술 역량을 총동원해 자동화 기반의 경제적이고, 성능 좋은 DW 서비스의 장점을 알리느라 바쁩니다. 마이크로소프트의 무기는 Azure SQL Data Warehouse입니다. 성능이야 뭐 TPC-H, TPC-DS 등의 벤치마크를 통해 검증되었죠. 사용 기업도 늘고 있는 추세인데요, 포춘 1000대 기업에 속하는 Anheuser Busch InBev, Thomson Reuters, ThyssenKrupp 등에서 쓰고 있다고 합니다. Azure SQL Data Warehouse는 2018년 4월 Gen2 버전이 발표되면서 관심을 끌기 시작했습니다. Gen2의 주요 특징은 다음과 같이 세 가지로 압축할 수 ..
애저 HDInsight 새소식, 아파치 스파크 2.3 지원됩니다! 스파크 기반 머신 러닝, IoT 등 활용 시나리오가 더욱 풍성 ~ 마이크로소프트가 제공하는 매니지드 기반 빅 데이터 서비스인 애저 HDInsight가 아파치 스파크 2.3.0을 공식 지원합니다. 스파크 2.3.0 버전의 주요 개선 사항은 크게 세 가지입니다. 첫 번째는 파이썬 UDF를 이용하는 데이터 엔지니어는 10배에서 최대 100배까지 빨라진 데이터 처리 속도를 경험할 수 있다는 것입니다. 이에 따라 데이터 엔지니어는 스파크 기반 머신 러닝 환경에 텐서플로우 등의 프레임워크를 통합해 운영하기 좋아졌습니다. 흔히 머신 러닝 파이프라인이라고 하죠. 다음 그림 보면 이해가 쉬울 것입니다. 스파크 기반 머신 러닝 파이프라인에 각종 프레임워크를 연결해 써도 될 만큼 데이터 처리 속도가 좋아졌습니다. 두 번째 개선 사항은 비즈니스 분석가를 위한 혜택입니다. 널리 쓰이는 컬럼 ..