From 5ad1f982271200a025c318335124d12f607b5d8a Mon Sep 17 00:00:00 2001 From: altair823 Date: Sat, 30 May 2026 00:46:14 +0000 Subject: [PATCH] =?UTF-8?q?docs(handoff):=20doc-side=20expansion=20?= =?UTF-8?q?=EB=94=A5=EB=A6=AC=EC=84=9C=EC=B9=98=20+=20PoC=20=EA=B2=B0?= =?UTF-8?q?=EA=B3=BC=20(Phase=202=20=EB=B0=A9=ED=96=A5=20=ED=99=95?= =?UTF-8?q?=EC=A0=95)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 딥리서치(104 agent): 어휘격차 pool-miss 최선책 = 색인시 doc-side expansion. PoC(dogfood KB): recall@50=0 이던 3쿼리가 별칭 추가로 rank1~2 부활(hybrid+vector, 골든 verbatim 아님=일반화). 핵심 미검증 고리 실 corpus 정량 확인. Phase 2 = 색인시 doc-side expansion(KO↔EN 번역 별칭) → 별도 FTS5 필드 → RRF, flag off. Co-Authored-By: Claude Opus 4.8 (1M context) --- ...query-paraphrase-robustness-phase1-handoff.md | 16 ++++++++++++++++ 1 file changed, 16 insertions(+) diff --git a/docs/superpowers/handoffs/2026-05-29-query-paraphrase-robustness-phase1-handoff.md b/docs/superpowers/handoffs/2026-05-29-query-paraphrase-robustness-phase1-handoff.md index 0217b45..85fc749 100644 --- a/docs/superpowers/handoffs/2026-05-29-query-paraphrase-robustness-phase1-handoff.md +++ b/docs/superpowers/handoffs/2026-05-29-query-paraphrase-robustness-phase1-handoff.md @@ -89,6 +89,22 @@ raw search 독립 검증: `kebab search "역전파 알고리즘" --k 50` → bac - 미결: 확장/번역의 형태(쿼리→영어 번역 후 retrieve, 양쪽 retrieve 합집합, HyDE 류 등), latency·품질 trade-off, default on/off. → Phase 2 brainstorm/spec 에서. +## Phase 2 방향 — 딥리서치 + PoC (2026-05-30) + +- **딥리서치** (`docs/superpowers/research/2026-05-30-vocabulary-gap-recall-fix-research.md`, 104 agent, + 22 confirmed/3 killed): 어휘격차 pool-miss 최선책 = **색인시 doc-side expansion(doc2query)**. + pool 자체를 키우고(rerank 아님), per-query 지연 ~0(색인시 1회 → 사용자가 거부한 per-query LLM 아님), + 정확매칭 보존(별도 필드 append). 단 vanilla mt5 doc2query 는 같은언어라 한/영 갭은 색인시 KO↔EN + 대체 query 생성 필요. query-side(HyDE=거부된 per-query LLM, Vector-PRF=recall 주장 0-3 기각) 부적합. + learned-sparse(SPLADE/MILCO)는 CPU/Rust 경로 없거나 교차언어 약함. +- **PoC 확인** (`/build/dogfood/logs/2026-05-30-docexpansion-poc-result.md`): dogfood KB(3940 doc)에 + backprop/raft 별칭추가판 ingest → recall@50=0 이던 3쿼리 전부 **rank 1~2 로 부활**(hybrid+vector), + 별칭은 골든쿼리 verbatim 아님(일반화 확인). **딥리서치의 핵심 미검증 고리를 실 corpus 로 정량 확인.** + - ⚠️ dogfood KB 현재 3942 doc (PoC 2개 잔존, corpus/_poc 는 삭제). variant 골든은 원본 doc_id + 타겟이라 baseline eval 무영향. pristine 필요 시 `kebab reset` + reingest. +- **Phase 2 권고**: 색인시 doc-side expansion(같은언어 + KO↔EN 번역 별칭, 로컬 gemma 색인시 1회) → + 별도 FTS5 필드 → RRF. flag off 기본. 효과는 `kebab eval variants` 로 재측정. brainstorm→spec→plan. + ## 다음 세션 첫 작업 1. 사용자와 Phase 2 방향 확정 (쿼리 확장/번역 설계 brainstorm).