본문 바로가기

Database

Azure Data Factory 버전 2 발표! 마우스 드래그앤드롭으로 70개가 넘는 소스에서 데이터 수집 및 통합

다양한 데이터 원천에서 데이터를 추출하고 변환해 적재하는 ETL 작업 ~ 참 손 많이 가는 일이죠. 클라우드에서는 이게 참 쉽습니다. 애저 환경의 경우 애저 데이터 팩토리(ADF) 기능을 지원하는데요, 최근 버전 2가 공식 발표되었습니다. ADF v2에 추가된 신 기능을 보면 '와우 ~' 소리가 좀 나옵니다. 데이터 원천을 지정하고, 정한 일정에 맞춰 데이터를 추출하고 변환해 통합하는 일련의 작업들이 정말 간단합니다. 여러 데이터 원천을 대상으로 ETL 작업을 하는 데이터 파이프라인을 이렇게 쉽게 그려도 되나 싶을 정도입니다. 


간단히 주요 개선 사항을 보시죠. 첫 번째는 사용자 인터페이스(UI)입니다. 새로운 UI는 정말 직관적입니다. 데이터 소스를 지정하고 데이터를 가져오기 위해 코드 한 줄 쓸 일이 없습니다. ADF 이용을 위한 간단한 설정을 하고 나서 데이터 팩토리 페이지에서 'Author & Monitor'를 누르면 다음과 같은 UI가 뜹니다. 좌측에서 연필 모양 탭을 누른 다음 클릭 몇 번 하면 새로운 데이터 소스에 연결하는 작업을 시작할 수 있습니다. 

이후 설정도 간단합니다. 마우스 클릭 몇 번 하다 보면 연결이 됩니다. 



두 번째로 좋아진 점은 데이터 파이프라인을 만들고 디버깅하는 것도 쉬워졌다는 것입니다. ADF가 제공하는 기능을 사용하면 코드 한 줄 작성하지 않고 원하는 데이터 파이프라인을 그리고 설계한 파이프라인이 잘 동작하는지 테스트하기도 쉽습니다. 



세 번째로 개선된 것은 데이터 파이프라인이 작업이 성공했는지, 아닌지를 담당자가 쉽게 파악할 수 있다는 것입니다. 

관리자가 좋아할 만한 기능으로 더 유연한 스케줄링도 빼놓을 수 없죠. 이것이 네 번째 개선 포인트입니다. 시간, 이벤트 발생 등 다양한 조건으로 스케줄링을 할 수 있습니다. 


다섯 번째 개선 사항은 ADF 파이프라인을 통해 수집되는 데이터를 HD인사이트 클러스터 상에서 스팍 작업을 위해 쓴다거나, 애저 데이터브릭스 노트북에서 사용하는 것이 가능하다는 것입니다. 

이외에 파이썬, 닷넷, REST, 파워쉘 관련 SDK 지원에 대한 업데이트도 있습니다. 

ADF에 대한 더 자세한 내용은 백서에서 찾아 볼 수 있습니다.