diff --git a/docs/dogfood/v0.18.0/SUMMARY.md b/docs/dogfood/v0.18.0/SUMMARY.md index b2e4c01..84d25ab 100644 --- a/docs/dogfood/v0.18.0/SUMMARY.md +++ b/docs/dogfood/v0.18.0/SUMMARY.md @@ -35,12 +35,14 @@ S3 만 `nli_model_unavailable` 로 fail (S1/S7/S10 의 entailment 측정은 정 | metric | PR-8 baseline | PR-9 retest | |---|---|---| -| S7 latency | ~158s | ~241s (NLI inference 추가 + first-run model download) | -| S1 latency | ~150s | ~224s | -| S10 latency | ~80s (refuse 빠름) | ~79s | +| S7 latency | 158s | 241s (NLI inference 추가 + first-run model download — 첫 호출만) | +| S1 latency | (post-pr8 시점 비교 baseline 부재 — `results/s1-multihop.json` 는 더 이전 시점, 같은 quality 단순 비교 불가) | 224s | +| S10 latency | (동상) | 79s | | RAM peak | ~5-6 GB (gemma3:4b) | ~7-8 GB (gemma3:4b + ONNX session ~600 MB) | | Disk (NLI model) | 0 | 1.1 GB (model 280 MB + tokenizer 16 MB + blobs/locks/snapshots overhead) | +S1/S10 의 *동일 시점 baseline* 가 `results/` 하나에만 있어 timeline 비교가 부정확. S7 만 `results/post-pr8/` 에 retest 보존되어 latency 비교 의미 있음 (158s baseline → 241s with NLI first-run; 두번째 호출은 240s - 30s download = ~210s 추정). + NLI inference latency 자체는 ~10-50 ms per call (spec §2.1 명세 일치). 첫 호출 시 model load (~30-60s) + multi-hop synthesize latency 가 dominant. ## Sample wire outputs