Jira·Confluence 기반으로 작업·장애를 표준 체계로 인입·분류·추적하고, 장애는 RCA 보고서로 재발 방지까지 닫는 운영 문화 정착
데이터 수집·처리 파이프라인과 DB 운영은 정상 작업과 긴급 장애가 끊임없이 섞여 들어옵니다. 이슈가 흩어지면 무엇이 진행 중인지, 왜 터졌는지, 어떻게 막았는지가 사람 머릿속에만 남아 추적이 끊깁니다.
TRBL=장애)로 Jira 이슈와 Confluence 문서를 1:1로 연결해 장애·작업의 추적성 확보processed)로 단계별 진행을 추적해 누락·재처리를 체계화error.log·syslog 등 증거 보존 원칙 수립 (해결 전 디렉터리 삭제 금지 등) — 정확한 원인 규명을 보장예를 들어 Kubernetes CoreDNS·Airflow 스케줄러의 CrashLoopBackOff, 노드 Inode 고갈로 인한 Pod Eviction 같은 장애를 직접 원인 분석해 RCA로 정리했습니다.
데이터 엔지니어(2026~ 파트리더)로서 이슈 인입부터 RCA·재발 방지까지의 사이클을 직접 운영하고 표준화했습니다. 표준 Prefix·RCA 포맷·증거 보존 원칙을 세워, 팀 전체가 추적 가능한 이슈 관리 문화를 정착시켰습니다.
개별 장애 사례(CoreDNS·Airflow CrashLoopBackOff, Inode 고갈 Pod Eviction 등)와 파이프라인 운영은 별도 항목으로 정리.