diff --git a/docs/dogfood/v0.18.0/SUMMARY.md b/docs/dogfood/v0.18.0/SUMMARY.md
index b2e4c01..84d25ab 100644
--- a/docs/dogfood/v0.18.0/SUMMARY.md
+++ b/docs/dogfood/v0.18.0/SUMMARY.md
@@ -35,12 +35,14 @@ S3 만 `nli_model_unavailable` 로 fail (S1/S7/S10 의 entailment 측정은 정
 
 | metric | PR-8 baseline | PR-9 retest |
 |---|---|---|
-| S7 latency | ~158s | ~241s (NLI inference 추가 + first-run model download) |
-| S1 latency | ~150s | ~224s |
-| S10 latency | ~80s (refuse 빠름) | ~79s |
+| S7 latency | 158s | 241s (NLI inference 추가 + first-run model download — 첫 호출만) |
+| S1 latency | (post-pr8 시점 비교 baseline 부재 — `results/s1-multihop.json` 는 더 이전 시점, 같은 quality 단순 비교 불가) | 224s |
+| S10 latency | (동상) | 79s |
 | RAM peak | ~5-6 GB (gemma3:4b) | ~7-8 GB (gemma3:4b + ONNX session ~600 MB) |
 | Disk (NLI model) | 0 | 1.1 GB (model 280 MB + tokenizer 16 MB + blobs/locks/snapshots overhead) |
 
+S1/S10 의 *동일 시점 baseline* 가 `results/` 하나에만 있어 timeline 비교가 부정확. S7 만 `results/post-pr8/` 에 retest 보존되어 latency 비교 의미 있음 (158s baseline → 241s with NLI first-run; 두번째 호출은 240s - 30s download = ~210s 추정).
+
 NLI inference latency 자체는 ~10-50 ms per call (spec §2.1 명세 일치). 첫 호출 시 model load (~30-60s) + multi-hop synthesize latency 가 dominant.
 
 ## Sample wire outputs