본문 바로가기

호튼웍스

(3)
하둡 애플리케이션을 위한 가장 경제적인 선택 - 클라우드 오브젝트 스토리지에서 Data Lake 운영 하둡 커뮤니티에서 가장 경제적인 스토리지 인프라 운영 방안으로 꼽는 것은? 네, 클라우드 서비스 사업자의 오브젝트 스토리지로 데이터 레이크를 운영하는 것입니다. 관련해 하둡 커뮤니티에서 최고로 꼽는 것은 ADL(Azure Data Lake) 스토리지입니다. ADL만 해도 경쟁력이 충분한데 마이크로소프트에서 ADL Gen2 프리뷰로 제대로 된 데이터 레이크 전용 클라우드 스토리지 아키텍처를 제시해 화제입니다. 다음 자료는 호튼웍스에서 작성한 것인데요. 클라우드 스토리지 관련 선택지를 보여 줍니다. 성능과 최적화 면에서 ADL은 최고죠. 클라우드 오브젝트 스토리지를 이용할 경우 성능이 문제가 되곤 합니다. 그 이유는 하둡 파일시스템(HDFS)을 추상화하기 때문이죠. ADL Gen2는 이런 문제를 근본적으로 ..
애저 마켓플레이스 '추천 솔루션' - Azure에 올린 호튼웍스 HDP 클러스터 관리를 손쉽게 해주는 'Cloudbreak' 애저 마켓플레이스에 최근 빅 데이터 관련해 꽤 유용한 서비스가 올라왔습니다. 그 이름은 'Cloudbreak for Hortonworks Data Platform(이하 Cloudbreak)'입니다. 호튼웍스 HDP는 세계적인 기업들이 사용하는 오픈 소스 기반 빅 데이터 플랫폼인데요, 애저에서도 서비스 형태로 이용할 수 있습니다. 예전에는 직접 빅 데이터 클러스터를 구축해 운영하는 곳이 많았습니다. 하지만 최근에는 추세가 클라우드 쪽으로 바뀌고 있습니다. 클러스터를 직접 구축하고 여기에 운영체제, HDP 등 빅 데이터 관련 소프트웨어 스택을 올려 설정하는 작업이 만만치 않다 보니, 이를 클라우드에 믿고 맡기는 곳이 늘고 있는 것이죠. Cloudbreak는 애저 환경에서 HDP 클러스터 관리를 쉽게 해줍니다..
[클라우드 도입 사례] 빅 데이터 개발자의 솔직담백한 Linux On Azure 사용기 본 포스팅은 호튼웍스 최종욱 개발 이사가 소셜 네트워크에 올린 글을 공유한 것입니다. 애저를 개발 환경으로 쓰고자 하는 개발자에게 좋은 팁이 담겨 있습니다. 서버 프로그램 개발용으로 Linux on Azure에 MacBook으로 접속해서 쓰고 있습니다. 이 환경을 최종적으로 선택할 때까지 많은 요소를 고려했습니다. 다음은 그 자세한 내용입니다. 개인적인 선호로 Azure를 선택했습니다. 다른 클라우드 인프라 제공 업체를 사용해도 큰 줄기는 비슷할 것입니다. 1. 배터리원격 근무자답게 여러 장소에서 MacBook으로 작업을 할 수 있기를 원했습니다. 하지만 주로 만드는 프로그램들이 서버용이다 보니 노트북 배터리 용량이 부족한 문제가 있습니다. 일반적인 사무용으로 쓰면 6시간 이상 사용할 텐데, 서버용으로는..