chore(eval): PR #166 회차 1 리뷰 반영

- `mh-s-004` 의 `must_contain: ["i"]` 한 글자 → `["INSERT", "i 입력모드"]`
  보강. trigram 0-hit + noise 매칭 위험 해소.
- 3 question 영어 변경 (`mh-c-005` / `mh-i-001` / `mh-s-002`) — fixture
  의 lang 다양성 mix (12 ko + 3 en). 영어 dogfood 시 measurement gap
  회피.
- plan 의 PR-1 단락이 outdated (kebab-eval crate 미survey 단계 작성 →
  실제 PR 와 deviation). actual 변경 명시 + 초안 대비 deviation 명시.

회차 1 의 다른 2 suggestion (mh-c-002 의 `v0.17.2` hard-coded, 15
question / 5-per-bucket 회귀 핀의 frozen size) 은 baseline anchor 의도
적 freeze — 회차 2 reply 에 명시.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-05-25 06:26:15 +00:00
parent caf690dc72
commit 624b44c46b
2 changed files with 23 additions and 25 deletions

View File

@@ -52,16 +52,16 @@
difficulty: multi-hop
- id: mh-c-005
query: "kebab 의 wire schema v1 에 정의된 모든 schema id 의 목록과, 그 중 fb-32 가 추가한 staleness 필드 (`indexed_at`, `stale`) 가 어떤 schema 들에 etched 됐는지?"
lang: ko
query: "Which wire schemas in kebab's v1 contract carry the `indexed_at` / `stale` staleness fields added by fb-32? List every schema id under wire schema v1."
lang: en
must_contain: ["schema_version", "indexed_at", "stale", "search_hit", "citation"]
difficulty: multi-hop
# ── Intra-doc multi-hop ──────────────────────────────────────────────
- id: mh-i-001
query: "design doc §3 chunking 의 boundary 규칙과 §5 storage 의 chunk_id recipe — 두 절이 어떻게 cascade 로 연결되는가?"
lang: ko
query: "How do the boundary rules in design §3 chunking and the chunk_id recipe in §5 storage cascade together? What pieces of the chunk_id come from each section?"
lang: en
must_contain: ["chunker_version", "policy_hash", "chunk_id"]
difficulty: multi-hop
@@ -98,8 +98,8 @@
difficulty: easy
- id: mh-s-002
query: "kebab 의 license ?"
lang: ko
query: "What license does kebab ship under?"
lang: en
must_contain: ["MIT", "Apache"]
difficulty: easy
@@ -112,7 +112,7 @@
- id: mh-s-004
query: "kebab tui 의 mode machine 에서 NORMAL → INSERT 토글 키는?"
lang: ko
must_contain: ["i"]
must_contain: ["INSERT", "i 입력모드"]
difficulty: easy
- id: mh-s-005