18 KiB
config 스키마 재편 (v2 → v3): 미디어별 [ingest] 통합 + per-option 주석
- 상태: 설계 확정 (brainstorming 완료)
- 작성일: 2026-06-04
- 선행:
docs/superpowers/specs/2026-05-31-config-migration-design.md(마이그레이션 엔진),#197(엔진),#198(kebab config migratesurface) - 영향 crate:
kebab-config(스키마+마이그레이션),kebab-app(call-site sweep + signature),kebab-eval(config_snapshot),kebab-cli(config migrate/init출력) - contract_sections: design §6 (Config schema / XDG), §9 (versioning cascade — signature 불변 보장)
1. 동기
옵션이 누적되며 config.toml(13 섹션 / ~60 필드)이 다음 군더더기를 갖게 됨:
- OCR 중복·비대칭 —
[image.ocr]와[pdf.ocr]가enabled/engine/model/endpoint/languages/max_pixels/request_timeout_secs를 거의 그대로 중복. 게다가 paddle-onnx 모델 경로(det_model/rec_model/dict/score_thresh/unclip_ratio/max_boxes)는[image.ocr]에만 존재하고 PDF paddle 경로가 거기를 참조(kebab-app/src/lib.rs:3102ocr_engine_version_for_sig가config.image.ocr를 읽음) — "pdf 설정인데 image 밑을 봐야 하는" 숨은 비대칭. - 미디어별 설정 산재 — 이미지
[image], PDF[pdf], 코드[ingest.code], 청킹[chunking]. "형식 X 설정이 어디 있나"의 규칙이 없음. endpoint4중복 —models.llm/models.embedding/image.ocr/pdf.ocr. "비우면models.llm.endpointfallback" 규칙이 코드에만 있고 파일엔 안 보임. (단, 컴포넌트별 endpoint 는 실사용 중 — embedding 로컬 + llm 원격 — 이므로 통합 금지.)request_timeout_secs3중복 + 각각 "0은 비활성화 아님" 함정.kebab init이 60+ 필드 일괄 방출 — 실제 사용자가 만지는 건workspace.root/endpoint/모델명 정도.- 사용자 실파일에서 추가 관찰:
score_gate = 0.30000001192092896(f32→f64 직렬화 찌꺼기),engine="paddle-onnx"인데model="gemma4:e4b"가 남는 죽은 필드.
2. 목표 / 비목표
목표
- 미디어 형식 설정을
[ingest.*]한 우산 아래로 일관 배치 (향후 새 형식 =[ingest.<형식>]한 곳 추가). - OCR 비대칭 제거: image·pdf 가 각자 OCR 전체(paddle 경로 포함)를 독립 보유(완전 대칭).
- 무손실 변환: 기존 v2 파일의 모든 값·주석·순서·사용자 대안 주석 줄을 보존.
- per-option 주석: 각 키 옆 한 줄 설명을
kebab init출력과 신규 추가 키에 부착. - 업그레이드 시 불필요한 재색인 0 (parser_version signature 불변).
- env override 이름 무파손.
비목표 (YAGNI)
- config 값 의미 검증(범위 체크 등) — 별개.
- 다운그레이드(v3→v2).
- 노브 숨기기/축소 — 명시적으로 제외(사용자가 "온전한 변환" 선택). 전 옵션을 잘 문서화한 완전체 유지.
- endpoint 통합 — 컴포넌트별 override 유지(실사용).
- load 시 파일 자동 쓰기 — 여전히 비목표(2026-05-31 spec 계승). 단 §5.3 의 메모리 내 변환은 쓰기가 아니므로 별개로 허용.
3. 새 스키마 (v3)
per-option 주석을 부착한 kebab init 출력 형태(값은 기본값):
# kebab config — `~/.config/kebab/config.toml`.
# (헤더: workspace.root 경로 규칙 / 지원 형식 / KEBAB_* override — 기존 헤더 계승)
schema_version = 3
# 색인 대상 워크스페이스.
[workspace]
root = "~/KnowledgeBase" # 색인 루트. 절대/~/${VAR}/상대(=이 파일 기준).
exclude = [".git/**", "node_modules/**", ".obsidian/**"] # denylist glob.
# XDG 저장 경로(데이터/sqlite/벡터/에셋/모델).
[storage]
data_dir = "${XDG_DATA_HOME:-~/.local/share}/kebab" # 모든 산출물 루트.
sqlite = "{data_dir}/kebab.sqlite" # 메타·FTS5 DB.
vector_dir = "{data_dir}/lancedb" # 임베딩 벡터 스토어.
asset_dir = "{data_dir}/assets" # 원본 사본(_external 등).
artifact_dir = "{data_dir}/artifacts"
model_dir = "{data_dir}/models" # fastembed/candle/nli 모델 캐시.
runs_dir = "{data_dir}/runs" # eval run 산출.
copy_threshold_mb = 100 # 이 크기 초과 파일은 사본 대신 참조.
# 다국어 sentence embedding. dim 불일치 시 검색 0건.
[models.embedding]
provider = "fastembed" # fastembed | candle | ollama | none.
model = "multilingual-e5-large"
version = "v1" # 모델 정체성 일부(캐시 키). 모델 바꾸면 함께 갱신.
dimensions = 1024 # 모델 출력 차원. 틀리면 검색 0건.
batch_size = 64
num_threads = 0 # candle 전용 CPU 스레드 cap(0=auto). NUMA 회피 레버.
# endpoint = "..." # ollama provider 시 HTTP. 비우면 models.llm.endpoint fallback.
# Ollama host:port + 모델.
[models.llm]
provider = "ollama"
model = "gemma4:e4b"
context_tokens = 32768
endpoint = "http://127.0.0.1:11434"
temperature = 0.0
seed = 0
request_timeout_secs = 300 # 단일 HTTP 상한. 0=즉시실패(비활성화 아님). 대형모델 CPU면 ↑.
# NLI(groundedness) 모델.
[models.nli]
model = "Xenova/mDeBERTa-v3-base-xnli-multilingual-nli-2mil7"
provider = "onnx"
# 색인 공통(병렬도 + 파일시스템 watch). ← 기존 [indexing]
[ingest]
max_parallel_extractors = 2
max_parallel_embeddings = 1
watch_filesystem = false
# 청크 크기·오버랩·heading 존중 (markdown/pdf/code/image 모든 형식 공통). ← 기존 [chunking]
[ingest.chunking]
target_tokens = 500
overlap_tokens = 80
respect_markdown_headings = true
chunker_version = "md-heading-v1"
# code ingest skip 정책(.gitignore 자동 honor).
[ingest.code]
skip_generated_header = true
max_file_bytes = 262144
max_file_lines = 5000
extra_skip_globs = []
ast_chunk_max_lines = 200
fallback_lines_per_chunk = 80
fallback_lines_overlap = 20
# 이미지 OCR(기본 off, asset 당 비용). ← 기존 [image.ocr]
[ingest.image.ocr]
enabled = false
engine = "ollama-vision" # ollama-vision | paddle-onnx.
model = "gemma4:e4b" # ollama-vision 전용. paddle-onnx 는 번들 모델 사용(이 값 무시).
languages = ["eng", "kor"]
max_pixels = 1600
request_timeout_secs = 300 # 0=즉시실패(비활성화 아님).
# --- paddle-onnx 전용(engine=paddle-onnx 일 때만) ---
# det_model = "..." # 비우면 번들 ppocrv5_mobile_det.onnx.
# rec_model = "..." # 비우면 번들 korean rec.
# dict = "..." # 비우면 번들 korean_dict.txt.
score_thresh = 0.3 # DBNet box 점수 하한.
unclip_ratio = 1.5 # box 패딩 비율.
max_boxes = 1000 # 이미지당 box cap(runaway guard).
# 이미지 캡션(기본 off). ← 기존 [image.caption]
[ingest.image.caption]
enabled = false
max_pixels = 768
prompt_template_version = "caption-v1"
# scanned PDF page-단위 OCR(기본 off, page 당 비용). ← 기존 [pdf.ocr]
[ingest.pdf.ocr]
enabled = false
always_on = false # true=모든 page vision 호출(vector PDF dual-text).
engine = "ollama-vision" # ollama-vision | paddle-onnx.
model = "qwen2.5vl:3b" # ollama-vision 전용. paddle-onnx 는 번들 모델 사용.
languages = ["eng", "kor"]
max_pixels = 2048
request_timeout_secs = 180 # 0=즉시실패(비활성화 아님).
valid_ratio_threshold = 0.5 # 유효문자 비율 < 이면 scanned 로 판정→OCR fallback.
min_char_count = 20 # page 문자수 < 이면 auto-scanned.
lang_hint = "kor" # 단일 page lang hint(비우면 없음).
# --- paddle-onnx 전용(대칭 신규) ---
# det_model / rec_model / dict = "..." # 비우면 번들.
score_thresh = 0.3
unclip_ratio = 1.5
max_boxes = 1000
# 검색 기본 k·stale 기준·fusion.
[search]
default_k = 10
hybrid_fusion = "rrf"
rrf_k = 60
snippet_chars = 220
cache_capacity = 256
stale_threshold_days = 30
# 답변 생성: prompt 템플릿·score gate·multi-hop·NLI.
[rag]
prompt_template_version = "rag-v3"
score_gate = 0.3 # serialize_with 헬퍼로 직렬화 깔끔(기존 f32 찌꺼기 제거).
explain_default = false
max_context_tokens = 8000
multi_hop_max_depth = 3
multi_hop_max_sub_queries_per_iter = 5
multi_hop_max_pool_chunks = 15
nli_threshold = 0.0 # 0=NLI 게이트 off.
# TUI 팔레트.
[ui]
theme = "dark"
# ingest 로그(기본 on).
[logging]
ingest_log_enabled = true
ingest_log_dir = "{state_dir}/logs"
keep_recent_runs = 100
retention_days = 30
4. 필드 매핑 (v2 → v3)
| v2 위치 | v3 위치 | 비고 |
|---|---|---|
[workspace] [storage] [search] [rag] [ui] [logging] [models.*] |
동일 | 변경 없음 |
[indexing].* (3키) |
[ingest].* (bare 키) |
IndexingCfg 해체 → IngestCfg 스칼라 |
[chunking] |
[ingest.chunking] |
이름 의도적으로 markdown 아님(전 형식 공통) |
[ingest.code] |
[ingest.code] |
이미 nested — 무이동 |
[image.ocr] |
[ingest.image.ocr] |
키 동일 |
[image.caption] |
[ingest.image.caption] |
키 동일 |
[pdf.ocr] |
[ingest.pdf.ocr] |
키 동일 + paddle 6키 대칭 신규 (det_model/rec_model/dict/score_thresh/unclip_ratio/max_boxes) |
신규 키(pdf paddle 대칭)는 모두 #[serde(default)] + Option/기본값 → v2 파일에 없어도 무해.
5. Rust 구조 변경 (kebab-config/src/lib.rs)
5.1 구조체
pub struct Config {
pub schema_version: u32,
pub workspace: WorkspaceCfg,
pub storage: StorageCfg,
pub models: ModelsCfg,
pub ingest: IngestCfg, // ← indexing/chunking/image/pdf 흡수
pub search: SearchCfg,
pub rag: RagCfg,
pub ui: UiCfg,
pub logging: LoggingCfg,
#[serde(skip)] source_dir: Option<PathBuf>,
}
pub struct IngestCfg {
// ← 기존 IndexingCfg (스칼라 먼저: toml 직렬화는 스칼라가 테이블보다 앞)
pub max_parallel_extractors: u32,
pub max_parallel_embeddings: u32,
pub watch_filesystem: bool,
// 하위 테이블
pub chunking: ChunkingCfg,
pub code: IngestCodeCfg,
pub image: ImageCfg, // { ocr: OcrCfg, caption: CaptionCfg }
pub pdf: PdfCfg, // { ocr: PdfOcrCfg }
}
IndexingCfg구조체 삭제(스칼라로 흡수).ChunkingCfg/ImageCfg/OcrCfg/CaptionCfg/PdfCfg/IngestCodeCfg내부 필드 불변(부모 경로만 이동).PdfOcrCfg에 paddle 6키 대칭 추가.- 제거된 top-level 필드:
indexing/chunking/image/pdf. - 스칼라-우선 필드 순서로
defaults_are_serde_roundtrip_stable유지.
5.2 call-site sweep (~65곳, 7 src 파일)
기계적 치환: config.chunking.X→config.ingest.chunking.X, config.image.ocr→config.ingest.image.ocr, config.pdf.ocr→config.ingest.pdf.ocr, config.indexing.X→config.ingest.X. 대상: kebab-app/src/{lib.rs,app.rs,schema.rs}, kebab-eval/src/runner.rs. kebab-parse-image 는 leaf 구조체(&OcrCfg 등) 직접 수령 → 무영향(확인됨).
5.3 load 시 메모리 내 자동 변환 (정합성 필수)
v3 는 최초의 non-additive rename 이라, 미변환 v2 파일을 v3 struct 로 deserialize 하면 [chunking]/[image]/[pdf]/[indexing] 을 못 찾아 사용자 설정이 조용히 기본값으로 유실. (이전 마이그레이션은 전부 additive 라 serde default 로 load 호환됐음 — 이 가정이 v3 에서 처음 깨짐.)
→ Config::from_file 변경: 텍스트의 schema_version < CURRENT (또는 legacy 테이블 탐지) 시 migrate::migrate_document(text) 를 메모리에서 적용한 new_text 를 deserialize. 디스크 쓰기 없음(파일 갱신은 여전히 kebab config migrate 전용 — 2026-05-31 spec 의 "자동 쓰기 비목표" 계승; 메모리 변환은 쓰기가 아니므로 무충돌). 1회성 tracing::warn!: "config 가 schema vN 입니다 — 이번 실행은 메모리에서 v3 로 변환됨. 파일 갱신은 kebab config migrate."
- parse 실패 시
migrate_document는 입력 그대로 반환 → 기존ConfigInvalid경로 유지. source_dirstamp 는 변환 후 동일하게path.parent().
6. 마이그레이션 step_2_to_3 (kebab-config/src/migrate.rs)
run_steps 에 if from < 3 { step_2_to_3(doc, changes) } 추가. step_2_to_3 는 테이블 relocation(toml_edit, 값·키주석·순서 보존):
[indexing]의 3키 →[ingest]bare 키로 이동. 원[indexing]제거.[chunking]테이블 →[ingest.chunking]로 이동(통째). 원 제거.[image.ocr]→[ingest.image.ocr],[image.caption]→[ingest.image.caption]. 원[image]제거.[pdf.ocr]→[ingest.pdf.ocr]. 원[pdf]제거.- pdf paddle 동작 보존(중요) — v2 는 pdf 가 paddle 일 때
image.ocr의 paddle 값(det_model/rec_model/dict/score_thresh/unclip_ratio/max_boxes)을 빌려 썼다(§1 비대칭). 따라서 이동 직후[image.ocr]의 이 6키 실제 값을[ingest.pdf.ocr]의 대칭 키로 복사한다(사용자가 image paddle 을 튜닝한 경우까지 동작 동일 보장). 사용자가 둘 다 기본이면 복사값=기본값이라 무차. 복사는 사용자가[pdf.ocr]에 해당 키를 이미 명시한 경우엔 덮어쓰지 않음. - 기존
[ingest.code]는 그대로(이미 올바른 위치). 단[ingest]가 새로 bare 키를 받으므로 직렬화 순서 정합 확인.
이동은 user item 의 decor(값 뒤 인라인 주석 + 사용자 대안 주석 줄)를 동반해야 함 — toml_edit 에서 Table::remove 로 떼어낸 Item 을 새 부모에 insert. 멱등(이미 v3 형태면 no-op).
이동 후 기존 reconcile(annotated_default, doc) 가:
- 빠진 키(특히 pdf paddle 대칭 6키) 를 주석과 함께 추가.
schema_versionstamp → 3.
CURRENT_SCHEMA_VERSION: u32 = 3 으로 bump.
7. per-option 주석 인프라
key_comment(path: &str) -> Option<&'static str>신설 (section_comment자매). dotted leaf 경로(ingest.chunking.target_tokens등) → 한 줄.annotate_table확장: 스칼라 leaf 에도key_comment가 있으면 인라인/prefix 주석 부착.- 부착 범위:
annotated_default_document(=kebab init+ reconcile 참조원) 의 모든 키. reconcile 가 새로 추가하는 키만 주석 동반(기존 사용자 키는 값 불가침 → 주석 미주입, 사용자 대안 주석 보존). - §3 의 모든 키 주석 텍스트를
key_comment에 등재(구현 시 일괄).
8. 불변식 / 회귀 가드
- signature 불변 —
ingest_config_signature(lib.rs:3129) 출력 문자열이 v2 바이너리와 바이트 동일. 값 기반이라 struct 경로 변경과 무관해야 함.ocr_engine_version_for_sig가 읽는 paddle 경로 소스를 image signature 는config.ingest.image.ocr로, pdf signature 는config.ingest.pdf.ocr의 신규 대칭 키로 갱신. 동작 보존은 §6.5 의 값 복사(image paddle 값 → pdf 대칭 키)로 성립 — 마이그레이션된 파일에서 pdf 대칭 키 = v2 시절 image 값이므로 signature 동일. 골든 문자열 회귀 테스트 필수. - env 이름 보존 —
apply_envwhitelist 의 LHS(키 문자열) 전부 그대로, RHS(대입 대상)만 새 struct 경로. 신규 pdf paddle 키만KEBAB_PDF_OCR_{DET_MODEL,REC_MODEL,DICT,SCORE_THRESH,UNCLIP_RATIO,MAX_BOXES}추가. 기존 env 테스트 전부 green 유지. - 무손실 골든 — 사용자 실제 v2 config(첨부본;
score_gate찌꺼기·주석 대안 줄 포함)를 fixture 로:migrate_document→ (a) 모든 사용자 값 보존, (b) 사용자 주석/대안 줄 보존, (c)[ingest.image.ocr]등 신 위치 존재, (d) 결과가 v3Config로 parse 되고 값이 원 의미와 동일, (e) 재실행 멱등. - load 자동변환 — v2 텍스트를
Config::from_file로 읽으면(디스크 미변경)config.ingest.chunking.target_tokens등이 사용자 값으로 채워짐(기본값 유실 없음) 테스트. - float 직렬화 정리 —
Config::defaults()직렬화에0.30000001192092896부재,score_gate = 0.3. 구현: f32 필드에#[serde(serialize_with = "ser_f32_clean")](f32 Display 의 shortest round-trip 을 f64 로 재파싱해 직렬화) — struct 타입·호출부 무변경, kebab-config 국소. 사용자 기존 파일의 찌꺼기 값은 toml_edit 보존(값 불가침)이라 그대로 — 재생성 시에만 정리됨(비목표 §2 정합).
9. 버전 / 문서 cascade
- minor bump (인터페이스 변경: config 섹션 rename + 신규 키).
Cargo.tomlworkspace version. - schema_version 2→3 (위).
- 도그푸딩 필수(CLAUDE.md Dogfood trigger: CLI/config surface) —
kebab config migrate를 실제 v2 파일(첨부본)에 돌려 무손실 + 자동변환 + 재색인 0 확인. evidence → HOTFIXES + release notes. - 문서 동기화(같은 PR): README Configuration 섹션 +
docs/SMOKE.mdconfig 예시 블록(새 레이아웃) + HOTFIXES dated entry +2026-05-31-config-migration-design.md의 Risks/notes 에 v3 rename 교차링크.
10. 리스크
| 리스크 | 완화 |
|---|---|
| 테이블 이동 시 주석 유실 | toml_edit remove→insert 로 Item 통째 이동, 골든 테스트(§8.3) |
| signature 변동→전체 재색인 | 골든 문자열 회귀 테스트(§8.1), 값 포맷 보존 |
| pdf paddle 대칭 추가가 기존 pdf paddle 동작 변경 | §6.5 마이그레이션이 image paddle 6키 실제 값을 pdf 대칭 키로 복사 → 동작·signature 동일(§8.1) |
| call-site 누락 | 컴파일러가 강제(필드 제거→ 미수정 site 컴파일 에러), clippy gate |
| 메모리 자동변환 매 load 비용 | toml_edit parse 1회/실행, 무시 가능 |