study/TIL🐥

Data lake란?

서나쓰 2021. 3. 30. 15:41
728x90

데이터 레이크는 모든 규모의 정형 및 비정형 데이터를 저장할 수 있는 중앙 집중식 저장소.

데이터를 구조화하지 않고도 데이터를 그대로 저장할 수 있으며, 대시 보드 및 시각화부터 빅 데이터 처리, 실시간 분석, 기계 학습에 이르기까지 다양한 유형의 분석을 실행하여 더 나은 결정을 내릴 수 있다.

 

데이터 레이크가 필요한 이유?

데이터에서 비즈니스 가치를 성공적으로 생성하는 조직은 동료보다 우수한 성과를 거둡니다. 매출 성장을 이룬 회사의 리더들은 로그 파일, 클릭 스트림의 데이터, 소셜 미디어, 데이터 레이크에 저장된 인터넷 연결 장치와 같은 새로운 소스에 대한 기계 학습과 같은 새로운 유형의 분석을 수행하였습니다. 이를 통해 고객을 유치 및 유지하고 생산성을 높이고, 장치를 사전에 유지관리하고, 정보에 입각한 결정을 내림으로써 성장 기회를 더 빨리 식별하고 이에 따라 조치를 취할 수 있었습니다.

 

데이터웨어 하우스와 데이터 레이크

요구사항에 따라서 데이터웨어 하우스와 데이터 레이크가 모두 필요합니다.

데이터웨어 하우스는 트랜잭션 시스템 및 업무용 애플리케이션에서 오는 관계형 데이터를 분석하도록 최적화된 데이터베이스. 빠른 SQL 쿼리를 최적화하기 위해 미리 정의, 일반적으로 운영 보고 및 분석에 사용. "단일 소스" 역할을 할 수 있도록 정리, 보강, 변화.

데이터 레이크는 비즈니스 애플리케이션의 관계형 데이터와 모바일 앱, IoT 장치 및 소셜 미디어의 비 관계형 데이터 저장. 신중한 설계나 향후 답변이 필요한 질문을 알 필요 없이 모든 데이터 저장. SQL 쿼리, 빅 데이터 분석, 전체 텍스트 검색, 실시간 분석 및 기계 학습과 같은 데이터에 대한 다양한 유형의 분석을 사용, 통찰력을 발견.

 

데이터 레이크에서 사용하는 주요 솔루션

Data movement

실시간으로 가져올 수 있는 모든 양의 데이터를 가져올 수 있다. 데이터는 여러 소스에서 수집되어 원래 형식으로 데이터 레이크에 이동. 시간을 절약하면서 모든 크기의 데이터로 확장.

Analytics

데이터를 별도의 분석 시스템으로 이동할 필요 없이 분석을 실행할 수 있다.

Securely store, and catalog data

운영 데이터베이스 및 LOB 애플리케이션의 데이터와 같은 관계형 데이터와 모바일 앱, IoT 장치 및 소셜 미디어와 같은 비 관계형 데이터를 저장할 수 있다. 또한 데이터 크롤링, 카탈로그 작성 및 인덱싱을 통해 Lake에 있는 데이터를 이해할 수 있는 기능을 제공. 데이터 보호 가능.

Machine Learning

데이터에 대한 보고, 가능한 결과를 예측하기 위해 모델이 구축된 머신 러닝 수행, 다양한 유형의 데이터 통찰력 생성, 최적의 결과를 달성하기 위해 규정된 다양한 조치 제안.

728x90