kebab

Author	SHA1	Message	Date
altair823	ca0567c72b	feat(kebab-app): P6-4 image ingest wiring — kebab ingest 가 PNG/JPEG 자산도 처리 P6-1/P6-2/P6-3 의 라이브러리 (`ImageExtractor`, `OllamaVisionOcr`, `apply_caption`) 가 그동안 CLI 에서 보이지 않던 미완 구간을 완성. 이제 `kebab ingest` 가 markdown 외에 이미지 자산을 end-to-end 로 색인하고, `kebab search` / `kebab ask` 가 OCR 텍스트 + caption 으로 이미지를 매칭/인용한다. ## kebab-app - `[dependencies]` 에 `kebab-parse-image` 추가. - `ingest_with_config` 진입 시 `image.ocr.enabled` / `image.caption.enabled` 플래그에 따라 `OllamaVisionOcr` / `OllamaLanguageModel` 을 ingest 세션당 1회 빌드. 자산 루프에서 trait object 로 공유. reqwest::blocking::Client 의 내부 Arc 덕분에 알로케이션 비용은 자산 수와 무관. - 두 어댑터 + ImageExtractor 를 한 묶음으로 `ImagePipeline` 구조체에 담아 `ingest_one_asset` 매개변수 폭증 차단 (clippy::too_many_arguments 대응). - `ingest_one_asset` 의 markdown-only 가드를 `match media_type` 으로 교체 — Markdown 은 기존 경로, Image(_) 는 새 `ingest_one_image_asset` 로 분기, PDF/Audio/Other 는 종전대로 skipped. - 신규 `ingest_one_image_asset`: - bytes 읽기 → `ImageExtractor::extract` (실패 시 caller 가 errors+=1) - `apply_ocr` (Lenient — 실패 시 ProvenanceKind::Warning 이벤트 + `IngestItem.warnings` 에 \"ocr_failed: ...\", `block.ocr` 는 None 유지) - `apply_caption` (동일 Lenient 정책) - 기존 `MdHeadingV1Chunker` 호출 — 청커는 이미 `Block::ImageRef` 를 단일 청크로 emit - 기존 persist + embed 시퀀스 그대로 (markdown 과 byte-identical) - `lang_hint_from_doc` — `Lang(\"und\")` 또는 빈 문자열을 None 으로 매핑 (image-pipeline 어댑터의 build_prompt 가 \"und\" 를 silent drop 하지 않도록 caller 측에서 미리). ## kebab-chunk - `render_block_text` 의 `Block::ImageRef` 분기를 P6-4 (β) plain concat 정책으로 교체 — `[alt, ocr.joined, caption.text]` 를 `\\n\\n` 로 join, 빈 부분은 drop. alt 가 비면 `src` 의 basename 으로 fallback (P6-1 contract 의 defensive guard). - 신규 unit 테스트 `image_ref_p6_4_plain_concat_drops_empty_parts` — alt-only / alt+ocr / alt+caption / alt+ocr+caption / 빈 alt → src fallback 다섯 케이스 모두 검증. - 기존 `image_ref_emits_own_chunk_zero_tokens` 그대로 통과 — 청커의 per-block dispatch 는 변경 없음, text 렌더링만 갱신. ## 통합 테스트 (kebab-app/tests/image_pipeline.rs) wiremock 으로 Ollama 를 stub. 5건: 1. OCR-only happy path — 1 PNG + ocr.enabled → 1 doc + 1 chunk emit, `block.ocr.joined` 가 mock 의 \"Hello World 2026\". 2. OCR + caption 동시 활성 — 두 필드 모두 채워지고 chunk text 에 alt + ocr + caption 세 부분 모두 포함. 3. Lenient 실패 검증 — OCR 503 시 자산은 indexed (kind=New), `errors=0`, ProvenanceKind::Warning attributed to \"kb-app\", `IngestItem.warnings` 에 \"ocr_failed:\" 노트. 4. 양쪽 비활성 — `image.ocr.enabled=false && image.caption.enabled=false` 여도 자산은 chunk 1개로 indexed (chunk text=filename), EXIF + dimensions 그대로 채워짐. 5. 결정성 (re-ingest) — 동일 PNG 두 번 ingest 시 두 번째는 `Updated` + 동일 `doc_id`. ## SMOKE.md `kebab search --mode lexical \"Hello World\"` 단계를 명령 시퀀스에 추가. `[image.ocr]` / `[image.caption]` config 절 예시 + ingest 시간 추정 (자산당 ~5-10초) 추가. \"책은 P7 PDF 라인으로\" 가이드를 검증 체크리스트 와 \"알려진 동작\" 양쪽에 박음. ## 실 Ollama 통합 검증 192.168.0.47 + gemma4:e4b 기준: ``` $ kebab --config /tmp/kebab-smoke/config.toml ingest scanned 2 new 2 updated 0 skipped 0 errors 0 (18395 ms) $ kebab inspect doc <image_doc_id> parser_version: image-meta-v1 blocks: [{ alt: \"hello.png\", ocr: \"Hello World 2026\", caption: \"The image displays the text \\\"Hello World 2026\\\" in a large, black, sans-serif font.\" }] $ kebab --json ask \"Hello World 텍스트가 어디에 있나?\" --mode hybrid grounded: true citations: [{marker: \"[1]\", doc_path: \"hello.png\"}] ``` ## 검증 - `cargo test --workspace --no-fail-fast -j 1` — 전부 pass - `cargo clippy --workspace --all-targets -- -D warnings` — pass - `cargo test -p kebab-chunk image_ref` — 2 pass (P1-5 회귀 + P6-4 신규 unit) - `cargo test -p kebab-app --test image_pipeline` — 5 pass ## 의존성 경계 - `kebab-app` 이 `kebab-parse-image` 추가 — spec Allowed dep 그대로. - 새 forbidden 침범 없음 (기존 `kebab-tui` / `kebab-desktop` / `kebab-eval` 미참조 유지). - 본 task 가 신설하는 image-specific 비즈니스 로직 0줄 — 모두 `kebab-parse-image` 에 위임. `tasks/p6/p6-4-image-ingest-wiring.md` status: planned → completed. contract: docs/superpowers/specs/2026-04-27-kebab-final-form-design.md sections: §3.4 ImageRefBlock, §6.1 ingest pipeline, §7.2 Extractor/Chunker traits, §9.1 image extraction policy.	2026-05-02 07:37:56 +00:00
altair823	f98f9a27ab	review(p6-4-spec): 회차 1 지적 반영 - Allowed dependencies 를 kebab-app 의 현재 Cargo.toml 과 정합되도록 보강 (kebab-search / kebab-llm / kebab-rag / kebab-embed 누락 추가). 본 task 가 새로 추가하는 deps 인 `kebab-parse-image` 만 \"NEW\" 라벨로 강조. - Forbidden dependencies 를 추상적 한 줄에서 명시 리스트로 교체: `kebab-tui` / `kebab-desktop` (UI layering), `kebab-eval` (cycle), 본 crate 안 image-specific 비즈니스 로직 (kebab-parse-image 가 이미 처리). P6-1/2/3 spec 의 컨벤션과 통일. - Public surface 의 `Chunk` 사실 오류 정정: • `chunk.section_label = None` 줄 삭제 (필드 없음) • `chunk.source_span = ...` → `chunk.source_spans = vec![...]` (실제 필드명 + Vec 타입 반영) • `token_estimate` / `policy_hash` 채움 정책 추가. - LM construction 절을 \"LM / OCR engine construction\" 으로 일반화 + OCR 어댑터도 ingest session 당 1회 빌드 정책 명시. - Behavior contract 에 \"Parallelism\" 새 절 추가 — 현재 markdown branch 가 sequential 임 + 본 task 도 동일 + 5000장 OCR 시간 추정치까지 명시. 책 P7 이관 신호와 일관. - Definition of Done 을 spec PR (이 PR — 모두 완료된 항목) 과 implementation PR (후속) 으로 분할. spec PR 의 머지 가능 시점 명확. - `is_image_only_document` 의 doc-comment 추가 — P6-1 contract 가 이미 단일 ImageRef block 보장하지만 chunker 측 가드의 defensive 의도 명시. 본 PR 은 spec only — implementation 은 후속 PR.	2026-05-02 07:07:19 +00:00
altair823	d643f9fd1a	docs(tasks): P6-4 image ingest wiring task spec P6-1 / P6-2 / P6-3 의 라이브러리 파이프라인 (`ImageExtractor`, `OllamaVisionOcr`, `apply_caption`) 이 모두 머지되어 있지만 `kebab-app::ingest_with_config` 의 dispatch 가 markdown 만 처리하므로 CLI 에서 이미지 자산이 색인되지 않는 미완 구간 존재. 본 spec 은 그 wiring 을 별도 component task 로 잡아 P6-1/2/3 의 frozen contract 는 보존하고 통합만 본 task 의 contract 로 진행되게 한다. 핵심 결정 (사용자 brainstorming 반영): - 청킹 옵션 A — `kebab-chunk::md_heading_v1` 에 image-only document 분기 추가, 단일 합성 청크 emit. - 청크 텍스트 포맷 (β) — `<alt>\n\n<ocr.joined>\n\n<caption.text>` plain concatenation. 라벨 없음. 빈 부분 drop. - 실패 정책 (b) Lenient — extract 성공이면 doc 저장, OCR/caption 부분 실패는 Provenance Warning + `errors` 카운터 미증가. - LM 인스턴스 — ingest 세션당 1회 빌드, `&dyn LanguageModel` 공유. - 책 / 스캔 PDF — P6-4 scope 외, P7 PDF 라인이 책임. - P6-5 (image-scale-hardening) 미시작 — 사용자 시나리오가 \"다이어그램 / 스크린샷 / 카메라 사진\" 으로 좁아져 불필요. INDEX.md: P6 \"3 components\" → \"4 components\". contract: docs/superpowers/specs/2026-04-27-kebab-final-form-design.md sections: §3.4 ImageRefBlock, §6.1 ingest pipeline, §7.2 Extractor/Chunker traits, §9.1 image extraction policy.	2026-05-02 07:01:56 +00:00
altair823	cd2213e48d	feat(kebab-parse-image): P6-3 caption adapter — vision LM via trait - 신규 모듈 `crates/kebab-parse-image/src/caption.rs` 추가: • `caption_image(llm, bytes, lang_hint, cfg)` — `&dyn LanguageModel` 위에서 동작. 비전 LM (예: gemma4:e4b) 이 한 문장 객관 설명 출력. temperature=0 / seed=0 결정성. • `apply_caption(llm, bytes, block, lang_hint, cfg, events)` — `block.caption = Some(...)` 으로 채우고 ProvenanceKind::CaptionApplied 이벤트 1건 추가. `image.caption.enabled = false` 면 클린 no-op (Ok(())). LM 실패 시 block.caption None 그대로 + events 미기록. • 다운스케일 long-edge `[128, 1536]` 클램프. PNG passthrough hot path 보존, 그 외는 단일 디코드 + PNG 재인코딩. • 한국어 / 영어 프롬프트 분기 (lang_hint=\"ko\"/\"kor\" → 한국어). • `ModelCaption.model_version = \"<provider>/<prompt_template_version>\"` (예: \"ollama/caption-v1\") — prompt 또는 모델 회귀 감사 가능. ## kebab-core / kebab-llm-local 변경 - `kebab_core::GenerateRequest` 에 `images: Vec<String>` 필드 추가. `#[serde(default)]` 으로 기존 wire 페이로드 / snapshot 호환. - `kebab-llm-local::OllamaLanguageModel` 가 req.images 를 Ollama `images: [base64, ...]` 와이어 필드로 라우팅. `#[serde(skip_serializing_if = is_empty)]` 로 비어 있을 때 wire shape 가 pre-P6-3 와 byte-identical. ## kebab-config - 신규 `ImageCfg.caption: CaptionCfg`: - `enabled: bool` (default false) - `max_pixels: u32` (default 768, 클램프 [128, 1536]) - `prompt_template_version: String` (default \"caption-v1\") - `KEBAB_IMAGE_CAPTION_{ENABLED,MAX_PIXELS,PROMPT_TEMPLATE_VERSION}` 3종 환경변수 추가. ## Spec deviations `tasks/HOTFIXES.md` 2026-05-02 항목 추가: - Symptom 1: spec p6-3 시그니처가 `&dyn LanguageModel` 인데 frozen trait + GenerateRequest 가 vision 미지원. → trait 확장. - Symptom 2: spec 의 cargo feature `caption` (default OFF at compile time) → runtime gate 1개로 통합. base64/image/kebab-llm 외 추가 deps 없어 cargo feature 의 binary 절감 가치 미미. p4-1 / p4-2 / p6-3 spec 의 amends 명시. ## 테스트 `cargo test -p kebab-parse-image --test caption` — 9건 + 1 ignored: - feature gate (disabled → no-op / Err on direct call) - happy path (block.caption Some + Provenance CaptionApplied) - 빈 토큰 stream → empty text + caption.is_some() - CapturingMock 으로 req.images 라우팅 검증 (base64 1개, decode 가능) - 한국어 / 영어 프롬프트 분기 (CapturingMock 의 system 캡처) - LM Err → block.caption None 유지 + events 미기록 - 결정성 (동일 mock 입력 → 동일 caption) - max_pixels 클램프 (99999 → 1536, 4000×3000 PNG 다운스케일 검증) - opt-in 통합 (실 192.168.0.47 Ollama / gemma4:e4b → \"The image is a solid red color.\" 검증 완료, 4.3초) `cargo test --workspace --no-fail-fast -j 1` 전체 pass. `cargo clippy --workspace --all-targets -- -D warnings` pass. ## 의존성 경계 - 추가 deps: `kebab-llm` (trait 만), `base64` (이미 P6-2 에서 추가). - dev-deps: `kebab-llm/mock` 으로 `MockLanguageModel`, `kebab-llm-local` (통합 테스트 전용 — 런타임 deps 에는 없음). - forbidden 침범 없음: `kebab-source-fs / parse-md / normalize / chunk / store-* / embed* / search / rag / UI` 미참조. contract: docs/superpowers/specs/2026-04-27-kebab-final-form-design.md sections: §3.4 ImageRefBlock.caption, §3.7a ModelCaption, §9.1 caption (model-generated, low trust).	2026-05-02 06:05:39 +00:00
altair823	4ed5536c92	feat(kebab-parse-image): P6-2 OCR adapter — Ollama-vision default - 새 모듈 `crates/kebab-parse-image/src/ocr.rs` 추가. spec 의 `OcrEngine` trait 그대로 + `OllamaVisionOcr` default 구현 + `apply_ocr` 헬퍼. - `OllamaVisionOcr`: `<endpoint>/api/generate` 비스트리밍 호출, `images: [base64]` 필드로 이미지 전달, 프롬프트는 언어 힌트 + 화이트리스트 언어 목록 포함. 응답 prose 를 `OcrText.joined` 로, prepared image 전체 영역 단일 region (confidence 1.0) 으로 wrap. 기본 모델 `gemma4:e4b`. endpoint 비어 있으면 `models.llm.endpoint` 로 fallback. - 이미지 전처리: long-edge `config.image.ocr.max_pixels` (기본 1600, 256~4096 클램프) 초과 시 PNG 로 재인코딩 (image::imageops::resize, Triangle filter). PNG 입력이 max 이내면 zero-copy passthrough. - `apply_ocr` 는 OCR 성공 시 block.ocr 를 Some 으로 채우고 ProvenanceKind::OcrApplied 이벤트 추가. 실패 시 block.ocr 는 None 그대로 + provenance 미기록 (부분 상태 누출 금지). - `kebab-config`: 새 `ImageCfg.ocr: OcrCfg` 블록 (enabled/engine/model /endpoint/languages/max_pixels). `#[serde(default)]` 로 pre-P6 TOML 호환. `KEBAB_IMAGE_OCR_*` 환경변수 5종 추가. ## Spec deviation 원래 P6-2 spec 은 Tesseract 를 default OCR 엔진으로 지정했으나, dev / CI 호스트에서 `libtesseract-dev` 시스템 패키지 설치를 피하려고 Ollama-vision 으로 default 를 교체. `OcrEngine` trait 추상화는 spec 그대로 보존 — Tesseract / Apple Vision / PaddleOCR 어댑터는 같은 trait 으로 추후 feature-gate 추가 가능. 자세한 내역은 `tasks/HOTFIXES.md` 2026-05-02 항목 참조. Trust 측면: vision LM 은 hallucinate 가능. `OcrText.engine = "ollama-vision"` 필드로 consumer 가 엔진 별 신뢰 분기 가능. ## 테스트 - 신규 (`tests/ocr.rs`, 8 + 1 ignored): - 200 happy → OcrText 디코딩 (joined / engine / engine_version / region count / bbox / confidence) - 빈 응답 → 빈 regions - 5xx → Err with status + body 포함 - 200 error envelope → Err - apply_ocr → block.ocr Some + Provenance OcrApplied 1건 - apply_ocr error → block.ocr None 유지 + events 미기록 - 4000×3000 PNG → max_pixels=1024 까지 다운스케일, aspect ratio 보존 - from_parts max_pixels 클램프 - opt-in `KEBAB_OCR_INTEGRATION=1` 통합 (실제 192.168.0.47 Ollama `gemma4:e4b` 로 \"Hello World 2026\" 전사 검증 완료) - 신규 (`src/ocr.rs` unit): truncate, build_prompt 언어/힌트 처리 - `kebab-config` 테스트 +3: defaults, env override, pre-P6 TOML 호환 전체: `cargo test -p kebab-parse-image` 28 pass + 1 ignored, `cargo test -p kebab-config` 20 pass, `cargo clippy --workspace --all-targets -- -D warnings` pass. contract: docs/superpowers/specs/2026-04-27-kebab-final-form-design.md sections: §3.4 ImageRefBlock.ocr, §3.7a OcrText / OcrRegion, §9.1 OCR vs caption provenance.	2026-05-02 05:38:24 +00:00
altair823	d11a810119	feat(kebab-parse-image): P6-1 image extractor + EXIF whitelist - 새 crate kebab-parse-image 추가 (workspace 19개째). MediaType::Image(_) 자산을 단일-블록 CanonicalDocument 로 변환하는 ImageExtractor 구현. - parser_version "image-meta-v1" (§9 versioning). - 본문은 Block::ImageRef 1건만 포함 — OCR / caption 필드는 None 으로 남겨 두고 P6-2 / P6-3 에서 채운다. - EXIF 화이트리스트 (§9.1, PII 표면 최소화): Make / Model / Software / DateTimeOriginal / Orientation / GPSLatitude(+Ref) / GPSLongitude(+Ref). MakerNote / Thumbnail / 기타 태그는 폐기. DateTime 은 EXIF "YYYY:MM:DD HH:MM:SS" → ISO-8601 변환. GPS DMS triple + N/S/E/W ref → signed decimal degree. - 차원: image::ImageReader 헤더만 읽어 (w, h, format) 획득. 16k×16k cap 초과 또는 디코드 실패 → metadata.user.dimensions = null + Provenance Warning 이벤트 (Err 아님). 포맷 자체 인식 실패 → anyhow::Error (caller skip). - SourceSpan::Region { 0, 0, w, h } 으로 전체 이미지 영역 표기. 결정성: 동일 bytes + 동일 parser_version → 동일 doc_id + block_id (§4.2 ID recipe 그대로 사용). - metadata.source_type = Reference, trust_level = Primary, lang = "und". title = 확장자 제외 파일명, alt = 파일명. - 의존성 경계 (§8): kebab-core 만 + image 0.25 (default features off, png/jpeg/webp/gif/tiff 만), kamadak-exif 0.6, anyhow / serde / serde_json / time / tracing / thiserror. kebab-source-fs · parse-md · store-* · embed* · llm* · rag · UI crate 미참조. - 테스트 14개 (4 unit + 10 integration): • PNG 차원 추출, JPEG EXIF GPS 추출 (DMS → decimal 변환 정확도 1e-6), EXIF 없는 PNG → 빈 map, 손상 PNG → warning + null dims (panic 없음), 인식 불가 bytes → Err, 결정성, 스냅샷, supports() 매칭, media_type 불일치 거부. • 픽스처는 in-memory 생성 (PNG 는 image crate, EXIF JPEG 는 kamadak Writer 로 EXIF blob 만든 뒤 SOI 직후 APP1 splice) — 바이너리 fixture 커밋 없음. - HEIC / RAW 는 spec 상 v1 out of scope (image crate 미지원, Apple Vision sidecar 가 추후 P+ 에서 채움). - tasks/p6/p6-1-image-extractor-exif.md status: planned → completed. contract: docs/superpowers/specs/2026-04-27-kebab-final-form-design.md sections: §3.4 Block::ImageRef + ImageRefBlock, §3.7a OcrText / ModelCaption stubs, §9.1 image extraction policy, §9 versioning.	2026-05-02 05:05:47 +00:00
altair823	f9714aa5cb	docs(rename): kb → kebab — README, tasks/, docs/, design doc, report 마지막 commit. 모든 .md 안의 `kb` 단어 일괄 갱신. - 19 개 crate 이름 (`kb-core`, `kb-app`, …) → `kebab-` (Rust 모듈 path 표기 `kb_` → `kebab_` 포함). - 미래 component (`kb-tui`, `kb-desktop`, `kb-asr-whisper`, `kb-ocr`, `kb-mcp`, `kb-vlm`, `kb-rerank`, `kb-vision-ocr`, `kb-index`, `kb-smoke`, `kb-architecture`) → `kebab-` (P6+ 가 시작될 때 같은 prefix 사용). - CLI 명령 예제: `kb ingest` / `kb search` / `kb ask` / `kb init` / `kb doctor` / `kb inspect` / `kb list` / `kb eval` → `kebab <verb>`. fenced code block + 인라인 backtick 모두. - XDG paths + env vars + binary 경로 (`target/release/kb` → `target/release/kebab`) 동기화. - design doc / 최초 보고서 / SMOKE / HOTFIXES / phase epic / task spec 모든 reference 통일. - task-decomposition.md 의 `git -c user.name=kb` 는 과거 git history 기록용 author 정보라 그대로 유지 (실제 git history 의 author 는 변경 불가). - `tasks/phase-5-evaluation.md` 의 `status: planned` → `completed` 도 같이 (P5-1 + P5-2 PR 머지 후 미반영분). ## 검증 - `grep -rEn "\bkb-[a-z]\|\bkb_[a-z]\|\.config/kb\b\|kb\.sqlite\|\bKB_[A-Z]" --include="*.md"` 0 hits (task-decomposition.md 의 git author 제외). - 모든 file path reference 살아있음 (renamed file 들 모두 새 path 로 update). 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-02 04:01:55 +00:00
kb	bc1b3147cd	refactor(spec): cleanup pass over component specs Address 8 issues found in spec audit (post PR #2): 1. §refs label: distinguish design vs report sections in p3-1 / p3-2 / p4-2 / p9-1 / p9-5 contract_sections (e.g., "report §11.2 Ollama" not "§11.2"). 2. mock feature gate: gate MockEmbedder (p3-1) and MockLanguageModel (p4-1) behind `mock` cargo feature, default OFF; add CI symbol-scan as DoD item. 3. Warning type unification: p1-2 frontmatter now emits `kb_parse_types::Warning` (matches p1-3 / p1-4); drops crate-internal type. 4. p4-3 streaming thread: explicitly single-threaded inside RagPipeline::ask; collection + sink.send share the calling thread, no race. UI concurrency is callers responsibility (TUI worker thread pattern in p9-3). 5. p6-2 tesseract version: noted that `tesseract` 0.13 has no stable Rust `version()` accessor; use TessVersion FFI or shell-out + cache approach. 6. p9-* App struct extensions: introduce `kb_tui::{Library,Search,Ask,Inspect}State` slots in p9-1 forward-decl form; p9-2/3/4 fill bodies in their own crate without editing `App`. Parallel-safety contract added. 7. p3-3 cosine score: shift `(sim+1)/2` instead of clamp; preserve ranking signal between unrelated and opposite vectors. Clamp reserved for NaN. 8. fixtures/ root: p0-1 DoD now creates all fixture subdirs with .gitkeep so downstream tasks have a stable target path.	2026-04-27 23:38:13 +00:00
kb	c84ab03404	tasks: add P6 component specs (image-exif, ocr, caption)	2026-04-27 12:06:20 +00:00

9 Commits