Career Development

데이터 엔지니어링 로드맵 (3주)

montmer27 2025. 12. 17. 12:18

 

아래는 제공해주신 데이터 엔지니어링 로드맵을 “무엇을 공부할 것인가”가 아니라 “무엇을 실제로 실행할 것인가” 중심의 Action Plan으로 재구성한 문서입니다.
각 주차별로 구체적인 산출물(Output)실행 단위(Action) 를 명확히 두어, 학습 → 실습 → 결과물이 자연스럽게 연결되도록 설계했습니다.


전체 목표

3주 후 달성 목표:

  • 개인 로컬 또는 클라우드 환경에 엔드투엔드 데이터 파이프라인 1개 구축
  • SQL 기반 데이터 모델 + Python 오케스트레이션 + 품질 테스트 + 기본 CI 구조 보유
  • 실무 투입 가능한 데이터 엔지니어 기본 역량 확보

Week 1: 데이터 엔지니어 기본 실행력 확보

1. SQL Foundations (Action 중심)

목표 산출물

  • GitHub 저장소에 SQL 실습 쿼리 모음
  • DuckDB 또는 Postgres 기반 로컬 분석 DB

Action Plan

  1. 로컬 DB 환경 구성
    • DuckDB 또는 Postgres 설치
    • 샘플 데이터셋 적재 (HackerNews, StackOverflow 등)
  2. SQL 핵심 문법 실습
    • DDL: CREATE TABLE, ALTER TABLE
    • DML: INSERT, UPDATE, DELETE
    • JOIN, WHERE, GROUP BY를 활용한 분석 쿼리 10개 이상 작성
  3. 고급 SQL 적용
    • Window Function 최소 3개 사용
    • CTE 기반 가독성 높은 쿼리 리팩토링
    • 트랜잭션 실습 (ROLLBACK / COMMIT)
  4. OLTP vs OLAP 비교 실습
    • 동일 데이터에 대해 OLTP 스키마 / OLAP 쿼리 차이 문서화
  5. dbt Core 또는 SQLMesh 도입
    • 모델 3개 이상 정의
    • 테스트 1개 이상 추가 (not null, unique)

2. Version Control

목표 산출물

  • GitHub 저장소 1개
  • PR 기반 협업 시뮬레이션 로그

Action Plan

  1. Git 저장소 초기화
  2. 브랜치 전략 적용 (main / feature)
  3. SQL 변경사항을 PR로 관리
  4. 커밋 메시지 규칙 적용
  5. (선택) GitHub Actions로 SQL lint 또는 테스트 자동 실행

3. Linux & Scripting

목표 산출물

  • 실행 가능한 Bash 스크립트 2~3개

Action Plan

  1. Linux 기본 명령 숙달 (ls, grep, awk, sed)
  2. Bash 스크립트 작성
    • 데이터 다운로드
    • SQL 실행 자동화
  3. SSH로 원격 서버 접속 연습
  4. Cron으로 주기 실행 설정

Week 2: 코어 데이터 엔지니어링 구현

4. Data Modeling & Warehousing

목표 산출물

  • 스타 스키마 기반 데이터 모델
  • Fact / Dimension 테이블 문서

Action Plan

  1. 비즈니스 질문 3개 정의
  2. Fact / Dimension 테이블 설계
  3. Granularity 명시
  4. SCD Type 2 구현
  5. Kimball 방식으로 데이터 마트 구성

5. Python for Data Engineering

목표 산출물

  • Python 기반 ETL 스크립트
  • 데이터 검증 로직 포함

Action Plan

  1. Python 환경 구성 (pyenv / uv)
  2. Pandas 또는 Polars로 데이터 변환
  3. DuckDB 연동
  4. Pydantic 또는 pytest로 데이터 검증
  5. 외부 API 연동 예제 1개 구현

6. Workflow Orchestration

목표 산출물

  • DAG 1개 (Airflow 또는 대체 도구)

Action Plan

  1. Airflow 로컬 실행
  2. Extract → Transform → Load DAG 구성
  3. 의존성 명확히 분리
  4. 실패 시 재시도 설정
  5. 로그 확인 및 장애 시나리오 테스트

7. Cloud & BI 기초

목표 산출물

  • 클라우드 스토리지 + BI 대시보드 1개

Action Plan

  1. AWS / GCP / Azure 중 1개 선택
  2. Object Storage 생성
  3. 데이터 업로드 자동화
  4. Notebook 기반 분석
  5. KPI 정의 및 시각화 대시보드 생성

Week 3: 실무 고급 역량 확보

8. Streaming & Event-Driven (선택적)

목표 산출물

  • 실시간 데이터 흐름 PoC

Action Plan

  1. Kafka 개념 이해
  2. CDC 시나리오 설계
  3. Batch vs Streaming 비교 문서화

9. Data Quality & Observability

목표 산출물

  • 자동화된 데이터 품질 테스트

Action Plan

  1. Great Expectations 도입
  2. 주요 테이블 품질 규칙 정의
  3. 실패 시 알림 로직 설계
  4. 데이터 계약(Data Contract) 문서화

10. Cost Optimization & Performance

목표 산출물

  • 성능 개선 리포트

Action Plan

  1. 느린 쿼리 식별
  2. 인덱스 / 파티션 적용
  3. 실행 시간 및 비용 비교
  4. 불필요한 파이프라인 제거

11. IaC & DevOps 기초

목표 산출물

  • Docker 기반 실행 환경
  • CI 파이프라인 초안

Action Plan

  1. Dockerfile 작성
  2. 로컬 컨테이너 실행
  3. Terraform 개념 이해
  4. CI로 테스트 자동 실행

최종 결과물 체크리스트

  • SQL 모델 + dbt 프로젝트
  • Python ETL + Airflow DAG
  • 데이터 품질 테스트
  • 클라우드 스토리지 + BI 대시보드
  • GitHub 저장소 (문서 포함)

원하시면 다음 단계로:

  • 신입 / 주니어 데이터 엔지니어 취업 기준 Action Plan
  • 실무형 포트폴리오 프로젝트 설계
  • 현재 레벨 진단 후 압축 로드맵

중 하나로 확장해 드릴 수 있습니다.

 

출처

 

Summer Data Engineering Roadmap - MotherDuck Blog

A comprehensive 3-week structured roadmap for learning data engineering fundamentals, from SQL and Git basics to advanced topics like streaming, data quality, and DevOps.RetryClaude can make mistakes. Please double-check responses. | Reading time: 15 min r

motherduck.com

 

 

 

2025년 데이터 엔지니어링 로드맵

서론데이터 엔지니어링의 전략적 중요성현대 기업 환경에서 데이터 엔지니어링은 더 이상 백오피스 지원 기능이 아닙니다. 이는 비즈니스 인텔리전스(BI), 고급 분석, 그리고 인공지능(AI)에 이

brownbears.tistory.com