← 기술 목록으로

ETL 데이터 수집 플로우 재정립

수집 → 마스터 → 배포로 이어지는 데이터 파이프라인 전체를 표준화하고, 확장 가능한 오브젝트 스토리지 기반으로 재설계

기간2026 (3월~ 진행)
소속래브라도랩스(LabradorLabs) · 데이터파트
역할데이터파트 파트리더 · 파이프라인 재정립 주도
ETLData PipelineObject StorageSeaweedFSDB / Infra

1배경

제품 데이터는 수집(Gathering) → 마스터(Master) → 배포(Distribution)로 이어지는 파이프라인을 통해 운영됩니다. 단계별로 처리 방식과 저장 위치가 제각각이라, 흐름을 한눈에 파악하기 어렵고 데이터 규모가 늘수록 확장에 부담이 있었습니다.

2접근

migration

migrate

Open-source RAW sources

Gathering

Master (clean & integrate)

Distribution

Services

Object Storage (SeaweedFS)

Filesystem storage

파이프라인 전체를 다시 정의하면서, RAW 데이터 저장을 파일시스템에서 오브젝트 스토리지(SeaweedFS)로 옮기는 마이그레이션 전략과 로드맵을 수립했습니다. 단계별 책임과 데이터 흐름을 명확히 해 수집 플로우를 표준화하는 것이 핵심입니다.

3임팩트

수집 플로우 표준화 — 수집→마스터→배포 단계의 흐름과 책임을 명확화
확장 가능한 기반 — 오브젝트 스토리지(SeaweedFS) 기반으로 RAW 데이터 확장성 확보
재사용 가능한 구조 — 신규 데이터 소스 편입·운영 인계가 쉬워지는 표준 구조 마련

4역할

데이터파트 파트리더로서 파이프라인 재정의 → 스토리지 설계 → 마이그레이션 전략 수립을 주도했습니다. 수집부터 배포까지 전체 흐름을 표준화하고, 파일시스템에서 오브젝트 스토리지로 옮기는 로드맵을 세워 확장 가능한 데이터 기반을 마련하고 있습니다.

현재 진행 중인 항목으로, 단계적으로 마이그레이션을 적용하고 있습니다.