← 기술 목록으로

파일/함수 취약점 수집 시스템 V4 재설계

단일 프로세스로 얽혀 있던 취약점 수집 파이프라인을, 수집 단계를 분리하고 DB 스키마를 정규화해 안정적·확장 가능한 구조로 재설계

기간2023
소속래브라도랩스(LabradorLabs) · 데이터파트
역할데이터 엔지니어 · 파이프라인 재설계 주도
Data Pipeline보안 취약점 수집RDB Schema정규화상태 기반 처리

1배경

공개된 보안 패치 정보를 기반으로 취약했던 소스코드와 수정 diff를 수집해, 파일/함수 단위 취약점 데이터셋을 구축하는 시스템입니다. 기존 V3는 수집·검증·저장을 하나의 프로세스에서 모두 처리하는 구조였습니다.

2접근 — 수집을 2단계로 분리

모든 작업을 한 프로세스가 담당하던 구조를, 책임이 명확한 두 단계 파이프라인으로 분리하고 단계별 상태를 추적할 수 있게 했습니다.

패치 소스공개 취약점·패치 정보
1단계 수집패치 커밋 URL 수집·검증
2단계 수집커밋 기반 소스·diff 수집
정규화 저장취약점 데이터셋 DB

3임팩트

안정성·확장성 — 단계 분리로 장애 격리가 쉬워지고, 단계별 독립 확장·유지보수가 가능
데이터 누락 최소화 — 상태 플래그로 단계별 처리 현황을 추적하고 실패 건을 재처리
저장·쿼리 효율 — 스키마 정규화로 중복 제거, 저장 효율과 쿼리 성능 개선
파이프라인 신뢰도 — 전체 수집 흐름의 추적 가능성과 신뢰도 향상

4역할

데이터 엔지니어로서 V3의 단일 프로세스 구조가 가진 한계를 진단하고, 수집 단계 분리 설계 → DB 스키마 정규화 → 상태 기반 처리 도입까지 V4 재설계를 주도했습니다. 데이터 중복·비효율을 줄이는 동시에, 실패 추적·재처리가 가능한 운영 친화적 파이프라인으로 전환했습니다.