목표 재정의: 한/영 overlap → 같은 의미의 다양한 표현(동의어·다른 어휘·풀어쓴 문장·한영)에서 일관된 답변 품질. 지난 reranker 실험이 overlap 프록시 최적화로 헛돈 교훈 반영 — 처방 전 진짜 지표(변형 일관성)를 직접 재는 평가부터. Phase 1(본 spec 구현): kebab-eval golden suite에 변형 그룹(intent group) + 변형 일관성 메트릭(recall_spread, answer_consistency) + recall@pool vs recall@k로 (A)순위출렁/(B)어휘격차 자동 판별. Phase 2(처방)는 측정 결과 게이트 뒤 조건부. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>