altair823-org/kebab

feat(eval): 변형 일관성(query-paraphrase robustness) 평가 프레임워크 #193

Merged

altair823 merged 12 commits from feat/paraphrase-robustness-eval into main

2026-05-30 01:12:29 +00:00

Author	SHA1	Message	Date
altair823	b6ad947378	docs: README 명령 표 슬림 + ARCHITECTURE 상세 이전·동기화 README 의 괴물 셀(ingest 2891→544, search 2952→687, ask 1244→415, tui 2300→453자)을 "무엇 + 핵심 flag + 포인터"로 축소. 빠진 구조 detail 은 ARCHITECTURE 로 이전: - symbol path 형식에 Go/Java/Kotlin/C/C++ 추가 + code chunk provenance(citation.kind/code_lang/repo) - Markdown title 자동 채움 순서(md-frontmatter-v2) - RAG groundedness 검증(mDeBERTa-v3 XNLI, nli_threshold gate) 결정 행 신설 - TUI 행을 P9-1~4 완료 + F1 cheatsheet 로 최신화 (stale "진행 예정" 제거) flag 망라는 --help, TUI 키는 in-app F1 cheatsheet(권위 런타임 소스)로 위임 — stale 방지. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-05-30 01:10:39 +00:00
altair823	1529e6d991	docs(readme): PR #193 회차 1 리뷰 반영 — eval 명령 표에 aggregate/variants 추가 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-05-30 01:00:32 +00:00
altair823	5ad1f98227	docs(handoff): doc-side expansion 딥리서치 + PoC 결과 (Phase 2 방향 확정) 딥리서치(104 agent): 어휘격차 pool-miss 최선책 = 색인시 doc-side expansion. PoC(dogfood KB): recall@50=0 이던 3쿼리가 별칭 추가로 rank1~2 부활(hybrid+vector, 골든 verbatim 아님=일반화). 핵심 미검증 고리 실 corpus 정량 확인. Phase 2 = 색인시 doc-side expansion(KO↔EN 번역 별칭) → 별도 FTS5 필드 → RRF, flag off. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00
altair823	a58cae2ff3	docs(research): 어휘격차 pool-miss 해결 딥리서치 레퍼런스 deep-research 워크플로(104 agent, 5각도, 22소스, 25 claim 3-vote 검증, 22 confirmed/3 killed). 결론: 색인시 doc-side expansion(doc2query)이 pool-miss 최선책 — pool 자체를 키우고 per-query 지연 ~0(색인시 1회), 정확매칭 보존(별도 필드 append). 단 vanilla mt5는 같은언어라 한/영 갭은 색인시 KO↔EN 대체 query 생성 필요. query-side(HyDE=거부된 per-query LLM, Vector-PRF=recall 주장 기각)는 부적합. 검증은 기존 variant eval 로 가능. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00
altair823	7a1dff1684	docs(handoff): query-paraphrase robustness Phase 1 완료 + (A)/(B) 진단 8그룹×4변형(dogfood) 측정: groups=8 A_dominant=2 B_dominant=4 spread@10=0.750. 진단 — 문제는 한/영이 아니라 어휘 거리(영어 풀어쓴 문장도 miss, 일부 한국어는 OK). B(어휘격차, recall@50=0, rerank 불가) 우세 → 쿼리 확장/번역 처방 신호. A(순위출렁)는 cap_theorem/vector_database 2그룹뿐. "측정 먼저" 논제 정량 검증(rerank 단독은 부분해법). Phase 2 처방 결정 대기. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00
altair823	0988f66331	feat(cli): kebab eval variants <run_id> — 변형 일관성 진단 리포트 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00
altair823	82e02aa4fe	fix(eval): 변형 일관성 리뷰 H1/M1 — pool truncation 방어 + answer 판정 정렬 Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00
altair823	db4af0cc72	feat(eval): 변형 일관성 메트릭 + A/B(순위출렁/어휘격차) 분류 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00
altair823	ab20202241	test(eval): Task1 리뷰 nit — 3+멤버 그룹/group=None 테스트 + 에러 메시지에 divergent query id Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00
altair823	a51e6395c0	feat(eval): GoldenQuery.group + 그룹 정합성 검증 (변형 일관성 기반)	2026-05-30 00:53:24 +00:00
altair823	fe4c854673	docs(plan): query-paraphrase robustness Phase 1 구현 계획 5개 task: (1) GoldenQuery.group + 그룹 정합성 검증, (2) 변형 일관성 메트릭 모듈 + A/B(순위출렁/어휘격차) 분류, (3) kebab eval variants CLI, (4) dogfood golden 변형 그룹 큐레이션, (5) 측정 + 진단 리포트. TDD bite-sized, 완성 코드. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00
altair823	1de3f4ffca	docs(spec): query-paraphrase robustness 평가 프레임워크 설계 (측정 먼저) 목표 재정의: 한/영 overlap → 같은 의미의 다양한 표현(동의어·다른 어휘·풀어쓴 문장·한영)에서 일관된 답변 품질. 지난 reranker 실험이 overlap 프록시 최적화로 헛돈 교훈 반영 — 처방 전 진짜 지표(변형 일관성)를 직접 재는 평가부터. Phase 1(본 spec 구현): kebab-eval golden suite에 변형 그룹(intent group) + 변형 일관성 메트릭(recall_spread, answer_consistency) + recall@pool vs recall@k로 (A)순위출렁/(B)어휘격차 자동 판별. Phase 2(처방)는 측정 결과 게이트 뒤 조건부. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>	2026-05-30 00:53:24 +00:00