ADsP 데이터 이해_데이터 레이크_데이터 웨어하우스_데이터 마트_ETL

데이터 레이크 vs 데이터 웨어하우스 vs 데이터 마트


1. 데이터 레이크 (Data Lake)

"모든 데이터의 집합소"
다양한 형태의 대규모 데이터를
원시(raw) 형태로 저장하는 중앙 저장소
특징설명
데이터 형태정형 + 반정형 + 비정형 모두 수용
저장 방식원본 그대로 저장 → 데이터 손실 없음
저장소AWS S3, Hadoop HDFS 등 비용 효율적
유연성분석 전에 가공하지 않아 유연성 높음
사용자데이터 과학자
장점 → 모든 데이터 보관 가능
단점 → 정리 안되면 데이터 늪(Swamp)이 됨

2. 데이터 웨어하우스 (Data Warehouse)

"분석 최적화된 중앙 창고"
조직의 의사결정을 지원하기 위해
여러 출처 데이터를 구조화된 형식으로 저장
특징설명
데이터 수집ERP, CRM, SCM 등 다양한 시스템에서 수집
저장 방식수정/삭제 없이 누적 저장 → 시계열 분석 가능
데이터 품질분석 최적화된 정제 데이터
사용자분석가, 경영진
장점 → 빠르고 정확한 분석 가능
단점 → 구축 비용 높음

3. ETL 프로세스

데이터 레이크/소스 → 데이터 웨어하우스로
데이터를 옮기는 핵심 흐름
단계풀네임설명
Extract추출여러 시스템에서 데이터를 추출
Transform변환형식/스키마 변환, 클렌징, 정제, 집계
Load적재변환된 데이터를 DW에 적재
ETL 흐름
ERP / CRM / SCM
      ↓ Extract (추출)
  원본 데이터
      ↓ Transform (변환)
  정제/가공 데이터
      ↓ Load (적재)
데이터 웨어하우스
→ ETL은 데이터 웨어하우스 구축의 핵심 흐름!

4. 데이터 마트 (Data Mart)

"DW의 하위 개념, 주제별 맞춤형 저장소"
데이터 웨어하우스의 데이터를
특정 부서/주제별로 분리 저장한 소규모 저장소
특징설명
범위특정 부서/주제별
예시판매 데이터 마트 → 고객, 상품, 거래 정보 중심
구조사용자 친화적 구조 제공
목적빠른 분석과 조회
사용자특정 부서 현업 직원
데이터 웨어하우스 (전체)
        ↓
┌───────┼───────┐
↓       ↓       ↓
영업    마케팅   재무
마트    마트     마트

전체 흐름

다양한 데이터 소스
(ERP / CRM / SCM / IoT)
        ↓
  데이터 레이크
  (원시 데이터 그대로 저장)
        ↓
   ETL 프로세스
  Extract → Transform → Load
        ↓
 데이터 웨어하우스
  (정제된 전사 데이터)
        ↓
┌───────┼───────┐
↓       ↓       ↓
영업   마케팅   재무
마트    마트    마트
        ↓
   BI / OLAP 분석
        ↓
     의사결정

최종 비교표

데이터 레이크데이터 웨어하우스데이터 마트
정의원시 데이터 저장소정제된 전사 저장소부서별 소규모 저장소
데이터 형태정형+반정형+비정형정형만정형만
저장 방식원본 그대로정제 후 저장부서별 필요 데이터
크기가장 큼작음
비용저렴비쌈저렴
속도느림빠름가장 빠름
사용자데이터 과학자분석가/경영진현업 부서

쉬운 비유

데이터 레이크    = 거대한 호수 (모든 것이 섞여있음)
데이터 웨어하우스 = 대형 마트 창고 (잘 정리된 상품들)
데이터 마트      = 편의점 (필요한 것만 진열)
ETL             = 호수에서 물을 정수해서 창고로 옮기는 과정

댓글 남기기