데이터 웨어하우스의 정의와 개념
데이터 웨어하우스(data warehouse)는 사용자의 의사 결정에 도움을 주기 위하여 분석 가능한 형태로 정보들이 저장되어 있는 중앙 저장소다. 정보(data)와 창고(warehouse)의 의미가 합성되어 만든 어휘다. 줄여서, DW, DWH, 혹은 Enterprise Data Warehouse (EDW) 라고 불린다.
데이터 웨어하우스(DW)는 1980년대 중반 IBM이 자사의 하드웨어를 판매하기 위해 처음으로 도입했던 개념으로, IBM은 ‘정보창고’의 의미로 인포메이션 웨어하우스(Information Warehouse )라는 용어를 사용하였다. 이후 이 개념은 많은 하드웨어, 소프트웨어 및 툴(tool) 공급 업체들에 의해 이론적, 현실적으로 성장하였으며, 1980년대 후반 W.H Inmon에 의해 최초로 데이터 접근 전략으로 데이터웨어하우스 개념을 사용함으로써 많은 관심과 집중을 받게 되었다.
데이터웨어 하우스의 일반적인 정의는 의사결정에 필요한 정보처리 기능을 효율적으로 지원하기 위한 통합된 데이터를 가진 양질의 데이터베이스이다. 최근에 빅데이터 시대가 되면서 주목을 받게 된 솔루션이다.
데이터는 트랜잭션 시스템, 관계형 데이터베이스(RDMS) 및 기타 소스로부터 보통 정기적으로 데이터 웨어하우스로 들어간다. 비즈니스 애널리스트, 데이터 엔지니어, 데이터 사이언티스트들은 비즈니스 인텔리전스(BI) 도구, SQL 클라이언트 및 기타 분석 응용 프로그램을 통해 데이터에 액세스하게 된다.
데이터웨어 하우스(DW)는 기존 정보를 활용해 더 나은 정보를 제공하고, 데이터의 품질을 향상시키며, 조직의 변화를 지원하고 비용과 자원관리의 효율성을 향상 시키는 것이 목적이다.
데이터 웨어하우스의 4가지 특성
▶ 주제지향(Subject Oriented):
기존의 데이터베이스가 대출, 예금, 재고관리 등과 같은 '기능'이나 '업무' 처리를 중심으로 설계되는 것에 비해 데이터웨어 하우스(DW)는 고객, 거래처, 공급자, 상품 등과 같은 '주제' 중심으로 구성된다. 즉, 이용자에게 이해하기 쉬운 형태로 제공된다.
▶ 통합(Integrated):
기존의 운영시스템은 부서나 부문, 혹은 기관별로 일관성 없는 다량의 데이터를 중복 관리하지만, 데이터 웨어하우스(DW)는 데이터 속성의 이름, 코드의 구조, 도량형 단위 등의 일관성을 유지하며 전사적 관점에서 하나로 통합한다.
▶ 시계열(Time Variant):
기존의 데이터베이스는 사용자가 사용하는 현재 시간을 기준으로 최신의 값을 유지하지만, 데이터웨어 하우스(DW)는 일정 기간 수집된 데이터를 갱신 없이 보관하며 일, 월, 분기, 년 등과 같은 기간 관련 정보를 함께 저장한다. 시계열성은 어떤 자료가 시간에 따라 변경되어야 하는 것이 아니고, 시간에 따른 변경을 항상 반영하고 있어야 함을 의미한다.
▶ 비휘발성(Nonvolatile):
기존의 데이터베이스에서는 추가나 삭제, 변경 등과 같은 갱신 작업이 레코드 단위로 지속적으로 발생하지만, 데이터 웨어하우스(DW) 내의 데이터는 일단 적재(loading)가 완료되면 읽기 전용 형태의 스냅 샷 데이터로 존재하게 된다.
'study > TIL🐥' 카테고리의 다른 글
ORM/NoSQL (0) | 2020.12.27 |
---|---|
DAO란? (0) | 2020.12.27 |
인텔리제이의 장점 (0) | 2020.12.26 |
DBMS 종류, 데이터 웨어 하우스 (0) | 2020.12.26 |
String 객체 생성의 차이 (0) | 2020.12.26 |