feat(config): step_2_to_3 — 미디어 테이블 [ingest.*] relocation + pdf paddle 값 보존

move_table(decor 포함 통째 이동) + move_indexing_keys(병렬도 키) +
copy_image_paddle_to_pdf(v2 비대칭 보존). CURRENT_SCHEMA_VERSION=3.
section_comment 를 ingest.* 경로로 갱신. 멱등.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
This commit is contained in:
2026-06-04 12:47:14 +00:00
parent 7b7330cdf2
commit 25e94feab8

View File

@@ -5,11 +5,11 @@
//! non-additive 변환(deprecated 제거 등). 자세한 계약은 spec
//! `docs/superpowers/specs/2026-05-31-config-migration-design.md`.
use toml_edit::DocumentMut;
use toml_edit::{DocumentMut, Item};
/// 현재 바이너리가 이해하는 config 스키마 버전. 마이그레이션 완료 시
/// 사용자 파일의 `schema_version` 을 이 값으로 stamp 한다.
pub const CURRENT_SCHEMA_VERSION: u32 = 2;
pub const CURRENT_SCHEMA_VERSION: u32 = 3;
/// 한 번의 마이그레이션에서 발생한 개별 변경.
#[derive(Clone, Debug, PartialEq, serde::Serialize)]
@@ -77,14 +77,15 @@ fn section_comment(path: &str) -> Option<&'static str> {
"models.nli" => "# NLI(groundedness) 모델.",
"search" => "# 검색 기본 k·stale 기준·fusion.",
"rag" => "# 답변 생성: prompt 템플릿·score gate·NLI.",
"image" => "# 이미지 OCR + 캡션(기본 off, asset 당 모델 호출 비용).",
"image.ocr" => "# 이미지 OCR(기본 off).",
"image.caption" => "# 이미지 캡션(기본 off).",
"ui" => "# TUI 팔레트·role 스타일.",
"ingest" => "# ingest 정책(code skip 등).",
"ingest" => "# 모든 형식 ingest 우산: 병렬도 + chunking/code/image/pdf.",
"ingest.chunking" => "# 청크 크기·오버랩·heading 존중(전 형식 공통).",
"ingest.code" => "# code ingest skip 정책(.gitignore 자동 honor).",
"pdf" => "# PDF ingest. scanned PDF OCR 은 기본 off(page 당 cost).",
"pdf.ocr" => "# scanned PDF page-단위 OCR(기본 off).",
"ingest.image" => "# 이미지 OCR + 캡션(기본 off, asset 당 모델 호출 비용).",
"ingest.image.ocr" => "# 이미지 OCR(기본 off).",
"ingest.image.caption" => "# 이미지 캡션(기본 off).",
"ingest.pdf" => "# PDF ingest. scanned PDF OCR 은 기본 off(page 당 cost).",
"ingest.pdf.ocr" => "# scanned PDF page-단위 OCR(기본 off).",
"logging" => "# ingest 로그(기본 on, ~/.local/state/kebab/logs).",
_ => return None,
})
@@ -237,12 +238,152 @@ pub fn step_1_to_2(doc: &mut DocumentMut, changes: &mut Vec<MigrationChange>) {
}
}
/// `from_path` 의 마지막 키를 통째(decor 포함) remove 해 `to_path` 의 dotted
/// 경로에 삽입한다(중간 테이블 자동 생성). 대상 키가 이미 있으면 덮어쓰지
/// 않는다(사용자 명시 우선). 원본이 없으면 no-op(멱등).
fn move_table(
doc: &mut DocumentMut,
from_path: &[&str],
to_path: &[&str],
changes: &mut Vec<MigrationChange>,
) {
// from 의 부모까지 내려가 마지막 키를 remove.
let (from_parent, from_key) = from_path.split_at(from_path.len() - 1);
let mut cur = doc.as_table_mut();
for k in from_parent {
match cur.get_mut(k).and_then(Item::as_table_mut) {
Some(t) => cur = t,
None => return, // 원본 없음 → no-op.
}
}
let Some(item) = cur.remove(from_key[0]) else {
return;
};
// to 경로의 부모 테이블 확보(없으면 생성), 마지막 키에 삽입.
let (to_parent, to_key) = to_path.split_at(to_path.len() - 1);
let mut cur = doc.as_table_mut();
for k in to_parent {
if cur.get(k).is_none() {
cur.insert(k, Item::Table(toml_edit::Table::new()));
}
cur = cur
.get_mut(k)
.and_then(Item::as_table_mut)
.expect("just inserted");
}
if cur.get(to_key[0]).is_none() {
cur.insert(to_key[0], item);
changes.push(MigrationChange {
kind: ChangeKind::AddedSection,
path: to_path.join("."),
detail: format!("{} → {}", from_path.join("."), to_path.join(".")),
});
}
}
/// 옛 `[indexing]` 의 bare 스칼라 키들을 `[ingest]` 로 옮긴다(테이블 자체가
/// 아니라 키 단위). 대상에 이미 있는 키는 덮어쓰지 않는다.
fn move_indexing_keys(doc: &mut DocumentMut, changes: &mut Vec<MigrationChange>) {
let Some(idx) = doc.as_table_mut().remove("indexing") else {
return;
};
let Some(idx_tbl) = idx.as_table().cloned() else {
return;
};
if doc.get("ingest").is_none() {
doc["ingest"] = Item::Table(toml_edit::Table::new());
}
let ingest = doc["ingest"].as_table_mut().expect("ingest table");
for (k, v) in idx_tbl.iter() {
if ingest.get(k).is_none() {
ingest.insert(k, v.clone());
}
}
changes.push(MigrationChange {
kind: ChangeKind::AddedKey,
path: "ingest".to_string(),
detail: "indexing → ingest (병렬도 키)".to_string(),
});
}
/// v3: pdf paddle 동작 보존. v2 는 pdf paddle 이 `[image.ocr]` 의 모델 경로를
/// 빌려썼다. relocation 후 image.ocr 의 paddle 6키 실제 값을 pdf.ocr 대칭
/// 키로 복사한다(pdf 가 이미 명시한 키는 덮어쓰지 않음, pdf 가 paddle 일 때만).
fn copy_image_paddle_to_pdf(doc: &mut DocumentMut) {
const PADDLE_KEYS: [&str; 6] = [
"det_model",
"rec_model",
"dict",
"score_thresh",
"unclip_ratio",
"max_boxes",
];
let img = doc
.get("ingest")
.and_then(|i| i.get("image"))
.and_then(|i| i.get("ocr"))
.and_then(Item::as_table)
.cloned();
let Some(img) = img else {
return;
};
let pdf_is_paddle = doc
.get("ingest")
.and_then(|i| i.get("pdf"))
.and_then(|i| i.get("ocr"))
.and_then(|o| o.get("engine"))
.and_then(Item::as_str)
== Some("paddle-onnx");
if !pdf_is_paddle {
return;
}
let Some(pdf) = doc["ingest"]["pdf"]["ocr"].as_table_mut() else {
return;
};
for k in PADDLE_KEYS {
if pdf.get(k).is_none() {
if let Some(v) = img.get(k) {
pdf.insert(k, v.clone());
}
}
}
}
/// v2 → v3: 미디어 테이블을 `[ingest.*]` 로 relocation(값·주석 보존) + pdf
/// paddle 값 보존. 멱등(이미 v3 면 원본 테이블이 없어 전부 no-op).
pub fn step_2_to_3(doc: &mut DocumentMut, changes: &mut Vec<MigrationChange>) {
move_indexing_keys(doc, changes);
move_table(doc, &["chunking"], &["ingest", "chunking"], changes);
move_table(doc, &["image", "ocr"], &["ingest", "image", "ocr"], changes);
move_table(
doc,
&["image", "caption"],
&["ingest", "image", "caption"],
changes,
);
move_table(doc, &["pdf", "ocr"], &["ingest", "pdf", "ocr"], changes);
// 빈 껍데기 [image] / [pdf] 제거.
for empty in ["image", "pdf"] {
if let Some(t) = doc.get(empty).and_then(Item::as_table) {
if t.is_empty() {
doc.as_table_mut().remove(empty);
}
}
}
copy_image_paddle_to_pdf(doc);
}
/// 파일의 schema_version(없으면 1) 부터 CURRENT 까지 step 적용.
fn run_steps(doc: &mut DocumentMut, from: u32, changes: &mut Vec<MigrationChange>) {
if from < 2 {
step_1_to_2(doc, changes);
}
// 미래 step: if from < 3 { step_2_to_3(...) } ...
if from < 3 {
step_2_to_3(doc, changes);
}
}
/// 사용자 config.toml 텍스트를 받아 step 체인 + reconciliation + version
@@ -447,6 +588,66 @@ include = [\"*.md\"]
assert_eq!(again.new_text, outcome.new_text);
}
fn changes_after_second_pass(text: &str) -> Vec<MigrationChange> {
let mut doc: DocumentMut = text.parse().unwrap();
let mut ch = Vec::new();
step_2_to_3(&mut doc, &mut ch);
ch
}
#[test]
fn step_2_to_3_relocates_media_tables() {
let v2 = "\
schema_version = 2
[indexing]
max_parallel_extractors = 4
watch_filesystem = true
[chunking]
target_tokens = 700
[image.ocr]
enabled = true
engine = \"paddle-onnx\"
det_model = \"/custom/det.onnx\"
[image.caption]
enabled = true
[pdf.ocr]
enabled = false
engine = \"paddle-onnx\"
";
let mut doc: DocumentMut = v2.parse().unwrap();
let mut changes = Vec::new();
step_2_to_3(&mut doc, &mut changes);
let out = doc.to_string();
// 새 위치 존재.
assert!(out.contains("[ingest]"), "{out}");
assert!(out.contains("max_parallel_extractors = 4"));
assert!(out.contains("watch_filesystem = true"));
assert!(out.contains("[ingest.chunking]"));
assert!(out.contains("target_tokens = 700"));
assert!(out.contains("[ingest.image.ocr]"));
assert!(out.contains("det_model = \"/custom/det.onnx\""));
assert!(out.contains("[ingest.image.caption]"));
assert!(out.contains("[ingest.pdf.ocr]"));
// 옛 위치 제거.
assert!(!out.contains("[indexing]"));
assert!(!out.contains("\n[chunking]"));
assert!(!out.contains("\n[image.ocr]"));
assert!(!out.contains("\n[image.caption]"));
assert!(!out.contains("\n[pdf.ocr]"));
// pdf paddle 동작 보존: image paddle det_model 이 pdf 대칭 키로 복사.
let reparsed: DocumentMut = out.parse().unwrap();
let pdf_det = reparsed["ingest"]["pdf"]["ocr"].get("det_model");
assert_eq!(pdf_det.and_then(|v| v.as_str()), Some("/custom/det.onnx"));
// 멱등.
let again = changes_after_second_pass(&out);
assert!(again.is_empty(), "not idempotent: {again:?}");
}
#[test]
fn migrate_document_missing_schema_version_treated_as_v1() {
let old = "[workspace]\nroot = \"/n\"\n";