복잡한 다중 테이블 조인과 외부 서비스 의존을 걷어내고, 라이선스 원문을 AI로 분석해 정제된 단일 데이터셋을 생성하는 파이프라인으로 재설계
기간2025
소속래브라도랩스(LabradorLabs) · 데이터파트
역할데이터 엔지니어 · 파이프라인 재설계 주도
Data PipelineLLM APIPrompt EngineeringETLData Modeling
1배경
오픈소스 라이선스 데이터를 제공하기 위한 기존 수집 체계는 여러 테이블을 복잡하게 조인해야 결과를 얻을 수 있었고, 분석의 상당 부분을 외부 서비스에 의존하고 있었습니다.
조회 한 건마다 다수 테이블을 조합해야 해 구조가 복잡하고 유지보수가 어려움
핵심 분석을 외부 서비스에 맡기다 보니 의존성·운영 리스크가 컸음
2접근
다양한 소스의 라이선스 원문(full_text)을 하나의 원문 통합 저장소에 모으고, 이를 AI(LLM)가 분석해 정제된 최종 데이터를 단일 테이블로 만들어내는 파이프라인으로 재설계했습니다.
외부 서비스 의존을 없애기 위해 LLM API(ChatGPT)를 도입해 라이선스 원문을 직접 분석
AI가 라이선스를 permissive / protectivetype과 주요 권한으로 분류
프롬프트 엔지니어링으로 protective를 다시 Weak / Strong로 세분화
3임팩트
구조 단순화 — 복잡한 다중 테이블 조인을 걷어내고 정제 데이터를 단일 테이블로 통합
의존성 제거 — 외부 서비스 의존을 완전히 제거해 운영 리스크 감소
분석 고도화 — AI 자동화로 더 깊고 정확한 라이선스 분석 제공
4역할
데이터 엔지니어로서 원문 통합 모델 설계 → 파이프라인 구현 → LLM 분석 도입 → 프롬프트 설계를 주도했습니다. 복잡한 조회 구조와 외부 의존을 동시에 해소하면서, AI가 라이선스 type과 권한을 분류하고 protective를 Weak/Strong로 세분화하도록 프롬프트를 설계해 분석 정확도를 끌어올렸습니다.