chore(rag): PR-9d SUMMARY 의 latency 표 정정

PR-8 baseline 의 S1/S10 latency 추정값 (~150s, ~80s) 이 부정확. `results/s1-multihop.json` + `results/s10-multihop.json` 가 실제로 614s / 589s (`jq '.usage.latency_ms'` 측정) — *PR-8 시점 baseline 이 아닌 더 이전 timeline*. S7 만 `results/post-pr8/` 에 retest 보존되어 비교 의미 있음 (158s baseline → PR-9 241s with NLI first-run download).

SUMMARY.md 의 latency 표를 정정 — S1/S10 의 *동일 시점 baseline 부재* 명시 + S7 의 단일 비교만 의미 있음 caveat.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-05-26 01:47:38 +00:00
parent 505b3889fb
commit a8fd6994d2

View File

@@ -35,12 +35,14 @@ S3 만 `nli_model_unavailable` 로 fail (S1/S7/S10 의 entailment 측정은 정
| metric | PR-8 baseline | PR-9 retest |
|---|---|---|
| S7 latency | ~158s | ~241s (NLI inference 추가 + first-run model download) |
| S1 latency | ~150s | ~224s |
| S10 latency | ~80s (refuse 빠름) | ~79s |
| S7 latency | 158s | 241s (NLI inference 추가 + first-run model download — 첫 호출만) |
| S1 latency | (post-pr8 시점 비교 baseline 부재 — `results/s1-multihop.json` 는 더 이전 시점, 같은 quality 단순 비교 불가) | 224s |
| S10 latency | (동상) | 79s |
| RAM peak | ~5-6 GB (gemma3:4b) | ~7-8 GB (gemma3:4b + ONNX session ~600 MB) |
| Disk (NLI model) | 0 | 1.1 GB (model 280 MB + tokenizer 16 MB + blobs/locks/snapshots overhead) |
S1/S10 의 *동일 시점 baseline*`results/` 하나에만 있어 timeline 비교가 부정확. S7 만 `results/post-pr8/` 에 retest 보존되어 latency 비교 의미 있음 (158s baseline → 241s with NLI first-run; 두번째 호출은 240s - 30s download = ~210s 추정).
NLI inference latency 자체는 ~10-50 ms per call (spec §2.1 명세 일치). 첫 호출 시 model load (~30-60s) + multi-hop synthesize latency 가 dominant.
## Sample wire outputs