
데이터 레이크 vs 데이터 웨어하우스 vs 데이터 마트
1. 데이터 레이크 (Data Lake)
"모든 데이터의 집합소"
다양한 형태의 대규모 데이터를
원시(raw) 형태로 저장하는 중앙 저장소
| 특징 | 설명 |
|---|---|
| 데이터 형태 | 정형 + 반정형 + 비정형 모두 수용 |
| 저장 방식 | 원본 그대로 저장 → 데이터 손실 없음 |
| 저장소 | AWS S3, Hadoop HDFS 등 비용 효율적 |
| 유연성 | 분석 전에 가공하지 않아 유연성 높음 |
| 사용자 | 데이터 과학자 |
장점 → 모든 데이터 보관 가능
단점 → 정리 안되면 데이터 늪(Swamp)이 됨
2. 데이터 웨어하우스 (Data Warehouse)
"분석 최적화된 중앙 창고"
조직의 의사결정을 지원하기 위해
여러 출처 데이터를 구조화된 형식으로 저장
| 특징 | 설명 |
|---|---|
| 데이터 수집 | ERP, CRM, SCM 등 다양한 시스템에서 수집 |
| 저장 방식 | 수정/삭제 없이 누적 저장 → 시계열 분석 가능 |
| 데이터 품질 | 분석 최적화된 정제 데이터 |
| 사용자 | 분석가, 경영진 |
장점 → 빠르고 정확한 분석 가능
단점 → 구축 비용 높음
3. ETL 프로세스
데이터 레이크/소스 → 데이터 웨어하우스로
데이터를 옮기는 핵심 흐름
| 단계 | 풀네임 | 설명 |
|---|---|---|
| Extract | 추출 | 여러 시스템에서 데이터를 추출 |
| Transform | 변환 | 형식/스키마 변환, 클렌징, 정제, 집계 |
| Load | 적재 | 변환된 데이터를 DW에 적재 |
ETL 흐름
ERP / CRM / SCM
↓ Extract (추출)
원본 데이터
↓ Transform (변환)
정제/가공 데이터
↓ Load (적재)
데이터 웨어하우스
→ ETL은 데이터 웨어하우스 구축의 핵심 흐름!
4. 데이터 마트 (Data Mart)
"DW의 하위 개념, 주제별 맞춤형 저장소"
데이터 웨어하우스의 데이터를
특정 부서/주제별로 분리 저장한 소규모 저장소
| 특징 | 설명 |
|---|---|
| 범위 | 특정 부서/주제별 |
| 예시 | 판매 데이터 마트 → 고객, 상품, 거래 정보 중심 |
| 구조 | 사용자 친화적 구조 제공 |
| 목적 | 빠른 분석과 조회 |
| 사용자 | 특정 부서 현업 직원 |
데이터 웨어하우스 (전체)
↓
┌───────┼───────┐
↓ ↓ ↓
영업 마케팅 재무
마트 마트 마트
전체 흐름
다양한 데이터 소스
(ERP / CRM / SCM / IoT)
↓
데이터 레이크
(원시 데이터 그대로 저장)
↓
ETL 프로세스
Extract → Transform → Load
↓
데이터 웨어하우스
(정제된 전사 데이터)
↓
┌───────┼───────┐
↓ ↓ ↓
영업 마케팅 재무
마트 마트 마트
↓
BI / OLAP 분석
↓
의사결정
최종 비교표
| 데이터 레이크 | 데이터 웨어하우스 | 데이터 마트 | |
|---|---|---|---|
| 정의 | 원시 데이터 저장소 | 정제된 전사 저장소 | 부서별 소규모 저장소 |
| 데이터 형태 | 정형+반정형+비정형 | 정형만 | 정형만 |
| 저장 방식 | 원본 그대로 | 정제 후 저장 | 부서별 필요 데이터 |
| 크기 | 가장 큼 | 큼 | 작음 |
| 비용 | 저렴 | 비쌈 | 저렴 |
| 속도 | 느림 | 빠름 | 가장 빠름 |
| 사용자 | 데이터 과학자 | 분석가/경영진 | 현업 부서 |
쉬운 비유
데이터 레이크 = 거대한 호수 (모든 것이 섞여있음)
데이터 웨어하우스 = 대형 마트 창고 (잘 정리된 상품들)
데이터 마트 = 편의점 (필요한 것만 진열)
ETL = 호수에서 물을 정수해서 창고로 옮기는 과정