← 기술 목록으로

AI 기반 라이선스 수집·분석 시스템 (V3)

복잡한 다중 테이블 조인과 외부 서비스 의존을 걷어내고, 라이선스 원문을 AI로 분석해 정제된 단일 데이터셋을 생성하는 파이프라인으로 재설계

기간2025
소속래브라도랩스(LabradorLabs) · 데이터파트
역할데이터 엔지니어 · 파이프라인 재설계 주도
Data PipelineLLM APIPrompt EngineeringETLData Modeling

1배경

오픈소스 라이선스 데이터를 제공하기 위한 기존 수집 체계는 여러 테이블을 복잡하게 조인해야 결과를 얻을 수 있었고, 분석의 상당 부분을 외부 서비스에 의존하고 있었습니다.

2접근

다양한 소스의 라이선스 원문(full_text)을 하나의 원문 통합 저장소에 모으고, 이를 AI(LLM)가 분석해 정제된 최종 데이터를 단일 테이블로 만들어내는 파이프라인으로 재설계했습니다.

Collect: license full text from multiple sources

Unify: load full_text into single store

AI analysis: LLM classifies type and permissions

Refine: emit final single table

Prompt engineering: protective -> Weak / Strong

3임팩트

구조 단순화 — 복잡한 다중 테이블 조인을 걷어내고 정제 데이터를 단일 테이블로 통합
의존성 제거 — 외부 서비스 의존을 완전히 제거해 운영 리스크 감소
분석 고도화 — AI 자동화로 더 깊고 정확한 라이선스 분석 제공

4역할

데이터 엔지니어로서 원문 통합 모델 설계 → 파이프라인 구현 → LLM 분석 도입 → 프롬프트 설계를 주도했습니다. 복잡한 조회 구조와 외부 의존을 동시에 해소하면서, AI가 라이선스 type과 권한을 분류하고 protective를 Weak/Strong로 세분화하도록 프롬프트를 설계해 분석 정확도를 끌어올렸습니다.