AI 기반 라이선스 수집·분석 파이프라인

복잡한 다중 테이블 조인과 외부 서비스 의존을 걷어내고 라이선스 원문을 AI로 분석해 정제된 단일 데이터셋을 생성하는 파이프라인으로 재설계

기간2025

소속래브라도랩스(LabradorLabs)

역할데이터 엔지니어 · 파이프라인 재설계 주도

Data PipelineLLM APIPrompt EngineeringETLData Modeling

0작업자의 메모

이 작업에서 AI는 결과를 예쁘게 요약하는 장식이 아니라, 복잡한 조인과 외부 서비스 의존을 줄이기 위한 처리 단계로 들어갔습니다. 운영 파이프라인에서는 모델보다도 실패했을 때 어디서 다시 시작할 수 있는지가 더 중요했습니다.

SPDX 라이선스 원문을 다룰 때도 판단 근거가 데이터셋 안에 남도록 정리했습니다. 나중에 다른 사람이 라이선스 결과를 의심해도, 다시 추적할 수 있는 구조를 목표로 잡았습니다.

1배경

오픈소스 라이선스 데이터를 제공하기 위한 기존 수집 체계는 여러 테이블을 복잡하게 조인해야 결과를 얻을 수 있었고 분석의 상당 부분을 외부 서비스에 의존했습니다.

조회 한 건마다 다수 테이블을 조합해야 해 구조가 복잡하고 유지보수가 어려움(재설계로 조인 테이블 3개를 걷어냄)
핵심 분석을 외부 서비스에 맡기다 보니 의존성·운영 리스크가 컸음

2접근

다양한 소스의 라이선스 원문(full_text)을 하나의 원문 통합 저장소에 모으고 이를 AI(LLM)가 분석해 정제된 최종 데이터를 단일 테이블로 만들어내는 파이프라인으로 재설계했습니다.

외부 서비스 의존을 없애기 위해 LLM API(ChatGPT)를 도입해 SPDX 라이선스 650건 이상의 원문을 직접 분석
AI가 라이선스를 permissive / protective type과 주요 권한으로 분류
프롬프트 엔지니어링으로 protective를 다시 Weak / Strong로 세분화

3임팩트

구조 단순화 — 복잡한 다중 테이블 조인을 걷어내고 정제 데이터를 단일 테이블로 통합

의존성 제거 — 외부 서비스 의존을 완전히 제거해 운영 리스크 감소

분석 고도화 — AI 자동화로 더 깊고 정확한 라이선스 분석 제공

4역할

데이터 엔지니어로서 원문 통합 모델 설계 → 파이프라인 구현 → LLM 분석 도입 → 프롬프트 설계를 단독으로 설계·구현·운영했습니다. 복잡한 조회 구조와 외부 의존을 동시에 해소하면서 AI가 라이선스 type과 권한을 분류하고 protective를 Weak/Strong로 세분화하도록 프롬프트를 설계해 분석 정확도를 끌어올렸습니다.

📜 라이선스 데이터 시리즈 ③ — ① 라이선스 DB화 · ② 양립성 DB