
아래는 제공해주신 데이터 엔지니어링 로드맵을 “무엇을 공부할 것인가”가 아니라 “무엇을 실제로 실행할 것인가” 중심의 Action Plan으로 재구성한 문서입니다.
각 주차별로 구체적인 산출물(Output) 과 실행 단위(Action) 를 명확히 두어, 학습 → 실습 → 결과물이 자연스럽게 연결되도록 설계했습니다.
전체 목표
3주 후 달성 목표:
- 개인 로컬 또는 클라우드 환경에 엔드투엔드 데이터 파이프라인 1개 구축
- SQL 기반 데이터 모델 + Python 오케스트레이션 + 품질 테스트 + 기본 CI 구조 보유
- 실무 투입 가능한 데이터 엔지니어 기본 역량 확보
Week 1: 데이터 엔지니어 기본 실행력 확보
1. SQL Foundations (Action 중심)
목표 산출물
- GitHub 저장소에 SQL 실습 쿼리 모음
- DuckDB 또는 Postgres 기반 로컬 분석 DB
Action Plan
- 로컬 DB 환경 구성
- DuckDB 또는 Postgres 설치
- 샘플 데이터셋 적재 (HackerNews, StackOverflow 등)
- SQL 핵심 문법 실습
- DDL: CREATE TABLE, ALTER TABLE
- DML: INSERT, UPDATE, DELETE
- JOIN, WHERE, GROUP BY를 활용한 분석 쿼리 10개 이상 작성
- 고급 SQL 적용
- Window Function 최소 3개 사용
- CTE 기반 가독성 높은 쿼리 리팩토링
- 트랜잭션 실습 (ROLLBACK / COMMIT)
- OLTP vs OLAP 비교 실습
- 동일 데이터에 대해 OLTP 스키마 / OLAP 쿼리 차이 문서화
- dbt Core 또는 SQLMesh 도입
- 모델 3개 이상 정의
- 테스트 1개 이상 추가 (not null, unique)
2. Version Control
목표 산출물
- GitHub 저장소 1개
- PR 기반 협업 시뮬레이션 로그
Action Plan
- Git 저장소 초기화
- 브랜치 전략 적용 (main / feature)
- SQL 변경사항을 PR로 관리
- 커밋 메시지 규칙 적용
- (선택) GitHub Actions로 SQL lint 또는 테스트 자동 실행
3. Linux & Scripting
목표 산출물
- 실행 가능한 Bash 스크립트 2~3개
Action Plan
- Linux 기본 명령 숙달 (ls, grep, awk, sed)
- Bash 스크립트 작성
- 데이터 다운로드
- SQL 실행 자동화
- SSH로 원격 서버 접속 연습
- Cron으로 주기 실행 설정
Week 2: 코어 데이터 엔지니어링 구현
4. Data Modeling & Warehousing
목표 산출물
- 스타 스키마 기반 데이터 모델
- Fact / Dimension 테이블 문서
Action Plan
- 비즈니스 질문 3개 정의
- Fact / Dimension 테이블 설계
- Granularity 명시
- SCD Type 2 구현
- Kimball 방식으로 데이터 마트 구성
5. Python for Data Engineering
목표 산출물
- Python 기반 ETL 스크립트
- 데이터 검증 로직 포함
Action Plan
- Python 환경 구성 (pyenv / uv)
- Pandas 또는 Polars로 데이터 변환
- DuckDB 연동
- Pydantic 또는 pytest로 데이터 검증
- 외부 API 연동 예제 1개 구현
6. Workflow Orchestration
목표 산출물
- DAG 1개 (Airflow 또는 대체 도구)
Action Plan
- Airflow 로컬 실행
- Extract → Transform → Load DAG 구성
- 의존성 명확히 분리
- 실패 시 재시도 설정
- 로그 확인 및 장애 시나리오 테스트
7. Cloud & BI 기초
목표 산출물
- 클라우드 스토리지 + BI 대시보드 1개
Action Plan
- AWS / GCP / Azure 중 1개 선택
- Object Storage 생성
- 데이터 업로드 자동화
- Notebook 기반 분석
- KPI 정의 및 시각화 대시보드 생성
Week 3: 실무 고급 역량 확보
8. Streaming & Event-Driven (선택적)
목표 산출물
- 실시간 데이터 흐름 PoC
Action Plan
- Kafka 개념 이해
- CDC 시나리오 설계
- Batch vs Streaming 비교 문서화
9. Data Quality & Observability
목표 산출물
- 자동화된 데이터 품질 테스트
Action Plan
- Great Expectations 도입
- 주요 테이블 품질 규칙 정의
- 실패 시 알림 로직 설계
- 데이터 계약(Data Contract) 문서화
10. Cost Optimization & Performance
목표 산출물
- 성능 개선 리포트
Action Plan
- 느린 쿼리 식별
- 인덱스 / 파티션 적용
- 실행 시간 및 비용 비교
- 불필요한 파이프라인 제거
11. IaC & DevOps 기초
목표 산출물
- Docker 기반 실행 환경
- CI 파이프라인 초안
Action Plan
- Dockerfile 작성
- 로컬 컨테이너 실행
- Terraform 개념 이해
- CI로 테스트 자동 실행
최종 결과물 체크리스트
- SQL 모델 + dbt 프로젝트
- Python ETL + Airflow DAG
- 데이터 품질 테스트
- 클라우드 스토리지 + BI 대시보드
- GitHub 저장소 (문서 포함)
원하시면 다음 단계로:
- 신입 / 주니어 데이터 엔지니어 취업 기준 Action Plan
- 실무형 포트폴리오 프로젝트 설계
- 현재 레벨 진단 후 압축 로드맵
중 하나로 확장해 드릴 수 있습니다.
출처
Summer Data Engineering Roadmap - MotherDuck Blog
A comprehensive 3-week structured roadmap for learning data engineering fundamentals, from SQL and Git basics to advanced topics like streaming, data quality, and DevOps.RetryClaude can make mistakes. Please double-check responses. | Reading time: 15 min r
motherduck.com
2025년 데이터 엔지니어링 로드맵
서론데이터 엔지니어링의 전략적 중요성현대 기업 환경에서 데이터 엔지니어링은 더 이상 백오피스 지원 기능이 아닙니다. 이는 비즈니스 인텔리전스(BI), 고급 분석, 그리고 인공지능(AI)에 이
brownbears.tistory.com
'Career Development' 카테고리의 다른 글
| [Career] 취업 공고를 분석해봅시다 (0) | 2026.03.31 |
|---|---|
| 데이터 엔지니어 장기 로드맵 (0) | 2025.12.17 |
| 신입 백엔드 개발자를 위한 조언 및 학습 방향성 (1) | 2025.11.25 |
| [커리어 파인튜닝] 3. 데이터 엔지니어 커리어 로드맵 (0) | 2025.11.14 |
| [커리어 파인튜닝] 2. AI가 개발자를 대체할 수 있을까? (0) | 2025.11.14 |