• altair823 released this 2026-06-03 14:35:20 +00:00 | 22 commits to main since this release

    v0.26.2 — ingest 설정 변경 시 영향 자산 자동 재색인

    지금까지 증분 ingest 의 "변경 안 됨(skip)" 판정은 파일 내용 + parser/chunker/embedding 버전만 봤습니다. 그래서 config.toml 에서 색인 결과를 바꾸는 설정(이미지 OCR/caption, 청킹 파라미터, PDF OCR, 코드 ingest 옵션)을 바꾼 뒤 다시 kebab ingest 해도, 파일 자체는 그대로니 자산이 그냥 건너뛰어졌습니다 — 바뀐 설정이 반영되지 않았죠. 이번 patch 가 그 갭을 일반화해 고칩니다.

    무엇이 바뀌나. 자산 타입별로 "그 자산의 색인 결과에 영향을 주는 설정"의 결정적 서명을 계산해 skip 판정에 포함시킵니다. 이제 해당 설정을 바꾸면 --force-reingest 없이도 영향 받는 자산만 자동으로 다시 색인됩니다:

    • [chunking] (target_tokens/overlap_tokens/respect_markdown_headings/chunker_version) → 모든 자산 재색인
    • [image.ocr] · [image.caption]이미지
    • [pdf.ocr]PDF
    • [ingest.code]코드 파일

    무엇은 안 바뀌나(중요). 색인 산출물과 무관한 설정 — [search] / [rag] / [models.nli] / [ui] / [logging] / 저장 경로, 그리고 max_pixels / languages / *_timeout_secs 같은 런타임 파라미터 — 는 바꿔도 재색인을 유발하지 않습니다(불필요한 전체 재색인 회피). 동일한 설정으로 다시 ingest 하면 종전처럼 전부 skip 됩니다.

    업그레이드 시 1회 재색인. 이 버전으로 올린 뒤 첫 kebab ingest 에서는 기존 자산이 현재 설정대로 한 번 재색인됩니다(저장돼 있던 옛 parser_version 이 새 서명과 달라서). 임베딩은 내용 해시 기반 파생물 캐시(V012)가 그대로라 캐시 히트로 저렴하고, 그 1회 이후로는 설정을 바꾸지 않는 한 다시 skip 됩니다. --force-reingest 는 전체 강제 재색인용으로 그대로 유지됩니다.

    호환성. CLI·config 키·wire schema·검색 결과 포맷에는 변화가 없습니다(내부 skip 판정만 정정) — 그래서 patch 릴리스입니다. 검증: clippy 0, 관련 크레이트 테스트 67 그룹 0 실패(토글/skip/제외 e2e 포함). 상세: tasks/HOTFIXES.md 2026-06-03 entry.

    Downloads