← 기술 목록으로

체계적 이슈 트래킹 & 장애 추적

Jira·Confluence 기반으로 작업·장애를 표준 체계로 인입·분류·추적하고, 장애는 RCA 보고서로 재발 방지까지 닫는 운영 문화 정착

기간2021–2026 (상시)
소속래브라도랩스(LabradorLabs) · 데이터파트
역할데이터 엔지니어 · 데이터파트 (2026~ 파트리더)
JiraConfluenceRCAEpicKubernetesOn-call

1배경

데이터 수집·처리 파이프라인과 DB 운영은 정상 작업과 긴급 장애가 끊임없이 섞여 들어옵니다. 이슈가 흩어지면 무엇이 진행 중인지, 왜 터졌는지, 어떻게 막았는지가 사람 머릿속에만 남아 추적이 끊깁니다.

2접근

장애

작업

인입: 작업·장애 이슈 등록

분류: 표준 Prefix 체계

추적: 상태 플래그·Epic

장애 여부

RCA 원인 분석 보고서

완료 클로즈

재발 방지 조치

예를 들어 Kubernetes CoreDNS·Airflow 스케줄러의 CrashLoopBackOff, 노드 Inode 고갈로 인한 Pod Eviction 같은 장애를 직접 원인 분석해 RCA로 정리했습니다.

3임팩트

1,000건 이상 — 5년간 Jira 이슈를 직접 관리, 완료율 약 85%
57건 이상 — 긴급(Emergency) 온콜 이슈를 추적·대응
추적성 확보 — Prefix로 이슈와 문서를 1:1 연결, 장애·작업이 끊김 없이 추적
재발 방지 표준화 — 빠른 인지 → 원인 규명 → 재발 방지 사이클을 표준 프로세스로 정착

4역할

데이터 엔지니어(2026~ 파트리더)로서 이슈 인입부터 RCA·재발 방지까지의 사이클을 직접 운영하고 표준화했습니다. 표준 Prefix·RCA 포맷·증거 보존 원칙을 세워, 팀 전체가 추적 가능한 이슈 관리 문화를 정착시켰습니다.

개별 장애 사례(CoreDNS·Airflow CrashLoopBackOff, Inode 고갈 Pod Eviction 등)와 파이프라인 운영은 별도 항목으로 정리.