chore(rag): PR-9d SUMMARY 의 latency 표 정정
PR-8 baseline 의 S1/S10 latency 추정값 (~150s, ~80s) 이 부정확. `results/s1-multihop.json` + `results/s10-multihop.json` 가 실제로 614s / 589s (`jq '.usage.latency_ms'` 측정) — *PR-8 시점 baseline 이 아닌 더 이전 timeline*. S7 만 `results/post-pr8/` 에 retest 보존되어 비교 의미 있음 (158s baseline → PR-9 241s with NLI first-run download). SUMMARY.md 의 latency 표를 정정 — S1/S10 의 *동일 시점 baseline 부재* 명시 + S7 의 단일 비교만 의미 있음 caveat. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -35,12 +35,14 @@ S3 만 `nli_model_unavailable` 로 fail (S1/S7/S10 의 entailment 측정은 정
|
||||
|
||||
| metric | PR-8 baseline | PR-9 retest |
|
||||
|---|---|---|
|
||||
| S7 latency | ~158s | ~241s (NLI inference 추가 + first-run model download) |
|
||||
| S1 latency | ~150s | ~224s |
|
||||
| S10 latency | ~80s (refuse 빠름) | ~79s |
|
||||
| S7 latency | 158s | 241s (NLI inference 추가 + first-run model download — 첫 호출만) |
|
||||
| S1 latency | (post-pr8 시점 비교 baseline 부재 — `results/s1-multihop.json` 는 더 이전 시점, 같은 quality 단순 비교 불가) | 224s |
|
||||
| S10 latency | (동상) | 79s |
|
||||
| RAM peak | ~5-6 GB (gemma3:4b) | ~7-8 GB (gemma3:4b + ONNX session ~600 MB) |
|
||||
| Disk (NLI model) | 0 | 1.1 GB (model 280 MB + tokenizer 16 MB + blobs/locks/snapshots overhead) |
|
||||
|
||||
S1/S10 의 *동일 시점 baseline* 가 `results/` 하나에만 있어 timeline 비교가 부정확. S7 만 `results/post-pr8/` 에 retest 보존되어 latency 비교 의미 있음 (158s baseline → 241s with NLI first-run; 두번째 호출은 240s - 30s download = ~210s 추정).
|
||||
|
||||
NLI inference latency 자체는 ~10-50 ms per call (spec §2.1 명세 일치). 첫 호출 시 model load (~30-60s) + multi-hop synthesize latency 가 dominant.
|
||||
|
||||
## Sample wire outputs
|
||||
|
||||
Reference in New Issue
Block a user