← 기술 목록으로
ETL 데이터 수집 플로우 재정립
수집 → 마스터 → 배포로 이어지는 데이터 파이프라인 전체를 표준화하고, 확장 가능한 오브젝트 스토리지 기반으로 재설계
기간2026 (3월~ 진행)
소속래브라도랩스(LabradorLabs) · 데이터파트
역할데이터파트 파트리더 · 파이프라인 재정립 주도
ETLData PipelineObject StorageSeaweedFSDB / Infra
1배경
제품 데이터는 수집(Gathering) → 마스터(Master) → 배포(Distribution)로 이어지는 파이프라인을 통해 운영됩니다. 단계별로 처리 방식과 저장 위치가 제각각이라, 흐름을 한눈에 파악하기 어렵고 데이터 규모가 늘수록 확장에 부담이 있었습니다.
- 오픈소스 RAW 데이터가 늘어나면서, 기존 파일시스템 기반 저장으로는 용량·확장성·관리에 한계
- 수집부터 배포까지의 흐름이 표준화되어 있지 않아, 신규 데이터 소스 편입과 운영 인계가 어려움
2접근
파이프라인 전체를 다시 정의하면서, RAW 데이터 저장을 파일시스템에서 오브젝트 스토리지(SeaweedFS)로 옮기는 마이그레이션 전략과 로드맵을 수립했습니다. 단계별 책임과 데이터 흐름을 명확히 해 수집 플로우를 표준화하는 것이 핵심입니다.
- 오픈소스 RAW 데이터 수집용 오브젝트 스토리지 설계
- 파일시스템 → 오브젝트 스토리지(SeaweedFS) 마이그레이션 전략·로드맵 수립
3임팩트
수집 플로우 표준화 — 수집→마스터→배포 단계의 흐름과 책임을 명확화
확장 가능한 기반 — 오브젝트 스토리지(SeaweedFS) 기반으로 RAW 데이터 확장성 확보
재사용 가능한 구조 — 신규 데이터 소스 편입·운영 인계가 쉬워지는 표준 구조 마련
4역할
데이터파트 파트리더로서 파이프라인 재정의 → 스토리지 설계 → 마이그레이션 전략 수립을 주도했습니다. 수집부터 배포까지 전체 흐름을 표준화하고, 파일시스템에서 오브젝트 스토리지로 옮기는 로드맵을 세워 확장 가능한 데이터 기반을 마련하고 있습니다.
현재 진행 중인 항목으로, 단계적으로 마이그레이션을 적용하고 있습니다.