Files
kebab/docs/components/normalize-chunk
th-kim0823 af8c162e09 docs(components): per-group contributor reference (12 그룹)
docs/components/<group>/README.md 12 페이지 + 인덱스 작성. 각 그룹
페이지가 구성 crate 표 + 구조 mermaid + data flow mermaid + 주요
type/trait/함수 시그니처 + 외부 의존 + 핵심 결정 (HOTFIXES + spec
의 "왜" 통합) + 관련 spec/HOTFIXES 링크. 인덱스가 그룹 wiring
다이어그램 + 진입 가이드 보유.

ARCHITECTURE.md 의 ASCII crate 의존 그래프를 mermaid flowchart 로
교체 (등가 정보, Gitea/GitHub 자동 렌더). docs/components/ 진입
링크 추가.

이 layer 는 contributor 향 — 사용자 향 grand picture 는 README.md
의 logical-architecture diagram 그대로 유지. 진척도는 HANDOFF.md,
per-task spec 은 tasks/INDEX.md 가 기존대로 source of truth.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-04 15:05:32 +09:00
..

Normalize + Chunk

Markdown 의 ParsedBlock 을 도메인 CanonicalDocument 로 lift 하고, 모든 미디어의 CanonicalDocument 를 검색 단위 Chunk 로 자른다.

구성 crate

Crate 역할
kebab-normalize ParsedBlock (markdown only) → CanonicalDocument lift. NFC + heading-path ordinal + provenance 합성 + title fallback chain (p9-fb-07).
kebab-chunk CanonicalDocumentVec<Chunk>. v1 두 변종: md-heading-v1 (markdown + image), pdf-page-v1 (PDF).

구조

classDiagram
    class Normalize {
        <<kebab-normalize>>
        build_canonical_document(asset, metadata, blocks, parser_version, warnings) CanonicalDocument
        derive_title(frontmatter, blocks, file_stem) String
        nfc(s) String
    }
    class Chunker {
        <<trait kebab-core>>
        chunker_version() ChunkerVersion
        policy_hash(policy) String
        chunk(doc, policy) Vec~Chunk~
    }
    class MdHeadingV1Chunker {
        VERSION = "md-heading-v1"
        BYTES_PER_TOKEN = 3
        POLICY_HASH_HEX_LEN = 16
    }
    class PdfPageV1Chunker {
        VERSION = "pdf-page-v1"
        BYTES_PER_TOKEN = 3
        POLICY_HASH_HEX_LEN = 16
    }
    class ChunkPolicy {
        target_tokens
        overlap_tokens
        respect_markdown_headings
        chunker_version
    }
    Chunker <|.. MdHeadingV1Chunker
    Chunker <|.. PdfPageV1Chunker
    MdHeadingV1Chunker ..> ChunkPolicy
    PdfPageV1Chunker ..> ChunkPolicy

Data flow

flowchart TD
    Pblock["Vec~ParsedBlock~<br/>(kebab-parse-md)"]
    Asset["RawAsset<br/>(kebab-source-fs)"]
    Meta["Metadata<br/>(frontmatter)"]
    Pv["ParserVersion"]
    Norm["build_canonical_document<br/>NFC heading_path<br/>+ ordinal per (path, kind)<br/>+ derive_title fallback chain<br/>+ Provenance accumulator"]
    CDoc["CanonicalDocument<br/>(blocks + metadata + provenance)"]
    DirectCDoc["CanonicalDocument<br/>(kebab-parse-pdf / kebab-parse-image)"]
    MdC["MdHeadingV1Chunker<br/>(markdown + image)"]
    PdfC["PdfPageV1Chunker<br/>(PDF)"]
    Chunks["Vec~Chunk~"]
    Asset --> Norm
    Pblock --> Norm
    Meta --> Norm
    Pv --> Norm
    Norm --> CDoc
    CDoc --> MdC
    DirectCDoc --> MdC
    DirectCDoc --> PdfC
    MdC --> Chunks
    PdfC --> Chunks
    Chunks --> Store["kebab-store-* (다음 그룹)"]

주요 type / trait / 함수

Normalize (kebab-normalize):

  • build_canonical_document(asset: &RawAsset, metadata: Metadata, blocks: Vec<ParsedBlock>, parser_version: &ParserVersion, warnings: Vec<Warning>) -> Result<CanonicalDocument>.
    • doc_id = id_for_doc(workspace_path, asset_id, parser_version).
    • 모든 heading_path 에 NFC 정규화 적용 (NFD \u{1100}\u{1161} 와 NFC \u{AC00} = "가" 가 같은 block_id 로 hash 되도록).
    • ordinal = (heading_path, block_kind) 별 0-based, document order (§4.3).
    • title 은 metadata.user["title"] lift 후, 비어 있으면 derive_title(frontmatter_title, blocks, file_stem) chain.
    • langmetadata.user["lang"] lift; non-string 이면 빈 Lang.
    • Provenance::events = Discovered (asset.discovered_at) + Parsed + Normalized + 각 warning 1개 + lift-stage warning (e.g. AudioRef pre-P8 drop).
  • derive_title(frontmatter, &[Block], file_stem) -> String — fallback chain (p9-fb-07): frontmatter title → 첫 H1 → 첫 H2 → 첫 paragraph 80 chars → file stem → "untitled" sentinel.
  • nfc(s: &str) -> String, to_posix(p: &Path) -> Result<WorkspacePath> — 재export from kebab-core.

Chunker trait (kebab-core):

  • Chunker::chunker_version() -> ChunkerVersion.
  • Chunker::policy_hash(&ChunkPolicy) -> Stringblake3(canonical_json(policy))[..16]. v1 두 chunker 가 같은 recipe.
  • Chunker::chunk(&CanonicalDocument, &ChunkPolicy) -> Result<Vec<Chunk>>.

MdHeadingV1Chunker (kebab-chunk):

  • 우선순위 (§0/§14): heading 경계 → code/table 한 chunk → paragraph greedy + overlap → heading_path propagation.
  • BYTES_PER_TOKEN = 3 (한국어 ≈ 3 b/tok 커버, 영어 ≈ 4 b/tok 는 over-estimate). 실제 tokenizer 도입 (P+) 까지 proxy.
  • ImageRef / AudioRef 는 자체 chunk (text = alt/caption preview, token_estimate = 0).

PdfPageV1Chunker (kebab-chunk):

  • 모든 chunk 가 single SourceSpan::Page { page, char_start, char_end } — 페이지 cross 금지 (citation locality).
  • 페이지가 budget 초과 시 paragraph break (\n\n) → sentence end (./?/! + ws) → 강제 over-size 순서로 split.
  • chunk_id 충돌 회피: §4.2 가 한 block_id 페어 → 한 chunk_id 가정인데 PDF 의 한 페이지 (= 한 block) 가 여러 chunk 로 split 됨. policy_hash slot 에 format!("{base}#c{char_start}") 변형 주입, Chunk.policy_hash 자체는 unmodified base 보존.

외부 의존

  • crate dep:
    • kebab-normalizekebab-core, kebab-parse-types (ParsedBlock/ParsedPayload/Warning), unicode-normalization, time.
    • kebab-chunkkebab-core, serde_json_canonicalizer, blake3. parser/store/embed 의존 금지.
  • 외부 lib: unicode-normalization (NFC), blake3 (policy_hash), serde_json_canonicalizer (JCS), time (provenance timestamps).
  • 외부 서비스: 없음.

핵심 결정

  • Markdown 만 normalize 거침; PDF / Image 는 우회. : Markdown 의 frontmatter / heading path 추적 + ordinal 부여가 normalize 의 본업. PDF 는 "페이지 = block", Image 는 "single block" 이라 IR 거치는 가치 없음. 결과: 두 path 가 chunker 단계에서 합류.

  • heading_path NFC 정규화 (parsedBlock → canonical 시점). : pulldown-cmark 가 NFC 안 함, serde_json_canonicalizer 도 NFC 안 함. 한국어 자모 분리/조합 두 표현이 다른 block_id hash 로 가면 idempotent re-ingest 가 깨짐. lift 시 NFC → on-disk CommonBlock.heading_path + ID input 동일 보장.

  • ordinal rule = (heading_path, block_kind) 별 0-based, document order. : 한 heading 아래 같은 종류의 블록 (paragraph 0/1/2, code 0/1) 만 ordinal 공유. 다른 heading 으로 가면 ordinal 리셋. 같은 heading 내 paragraph 추가/삭제가 다른 종류 ordinal 안 망가뜨림.

  • derive_title fallback chain (5단계 + sentinel). : spec literal 의 frontmatter-only title 정책이 실제 사용자 노트 (frontmatter 없이 H1 으로 시작) 와 충돌. 5단계: frontmatter → H1 → H2 → 첫 paragraph 80자 → file stem → "untitled". 각 단계 NFC, 빈 문자열 절대 반환 안 함. parser_versionpulldown-cmark-0.xmd-frontmatter-v2 bump 해서 기존 doc 자동 재처리.

  • BYTES_PER_TOKEN = 3 (spec literal 의 4 거부). : 한국어가 E5/M-BERT 에서 ≈ 3 bytes/token. 영어는 4 b/tok 라 3 으로 잡으면 over-estimate → 실제 tokenizer 가 봤을 때 budget 초과 안 함. 두 chunker (md/pdf) 가 같은 상수 써서 cross-chunker comparable. (HOTFIXES P7-2.)

  • PDF chunk_id 충돌 회피 = policy_hash slot 에 #c{char_start} 변형. : 한 페이지 (= 한 block) 가 여러 chunk 로 split 되면 §4.2 의 (doc_id, chunker_version, block_ids, policy_hash) tuple 가 동일 → 같은 chunk_id 충돌. chunker policy_hash 슬롯에만 변형 주입, Chunk.policy_hash 필드는 base 보존 ("어떤 policy 가 active 였는지" 답변 정확). §4.2 recipe 자체는 안 바꿈. (HOTFIXES P7-2.)

  • chunker 가 store/embed 의존 금지. : 순수 변환 함수. test 에서 CanonicalDocument 만 만들어서 chunker 호출 가능. Storage / embedding 부재가 chunker 단위 테스트 막지 않음.

관련 spec / HOTFIXES