From a8fd6994d28c36cf9255060d01dc88b244618966 Mon Sep 17 00:00:00 2001 From: altair823 Date: Tue, 26 May 2026 01:47:38 +0000 Subject: [PATCH] =?UTF-8?q?chore(rag):=20PR-9d=20SUMMARY=20=EC=9D=98=20lat?= =?UTF-8?q?ency=20=ED=91=9C=20=EC=A0=95=EC=A0=95?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit PR-8 baseline 의 S1/S10 latency 추정값 (~150s, ~80s) 이 부정확. `results/s1-multihop.json` + `results/s10-multihop.json` 가 실제로 614s / 589s (`jq '.usage.latency_ms'` 측정) — *PR-8 시점 baseline 이 아닌 더 이전 timeline*. S7 만 `results/post-pr8/` 에 retest 보존되어 비교 의미 있음 (158s baseline → PR-9 241s with NLI first-run download). SUMMARY.md 의 latency 표를 정정 — S1/S10 의 *동일 시점 baseline 부재* 명시 + S7 의 단일 비교만 의미 있음 caveat. Co-Authored-By: Claude Opus 4.7 (1M context) --- docs/dogfood/v0.18.0/SUMMARY.md | 8 +++++--- 1 file changed, 5 insertions(+), 3 deletions(-) diff --git a/docs/dogfood/v0.18.0/SUMMARY.md b/docs/dogfood/v0.18.0/SUMMARY.md index b2e4c01..84d25ab 100644 --- a/docs/dogfood/v0.18.0/SUMMARY.md +++ b/docs/dogfood/v0.18.0/SUMMARY.md @@ -35,12 +35,14 @@ S3 만 `nli_model_unavailable` 로 fail (S1/S7/S10 의 entailment 측정은 정 | metric | PR-8 baseline | PR-9 retest | |---|---|---| -| S7 latency | ~158s | ~241s (NLI inference 추가 + first-run model download) | -| S1 latency | ~150s | ~224s | -| S10 latency | ~80s (refuse 빠름) | ~79s | +| S7 latency | 158s | 241s (NLI inference 추가 + first-run model download — 첫 호출만) | +| S1 latency | (post-pr8 시점 비교 baseline 부재 — `results/s1-multihop.json` 는 더 이전 시점, 같은 quality 단순 비교 불가) | 224s | +| S10 latency | (동상) | 79s | | RAM peak | ~5-6 GB (gemma3:4b) | ~7-8 GB (gemma3:4b + ONNX session ~600 MB) | | Disk (NLI model) | 0 | 1.1 GB (model 280 MB + tokenizer 16 MB + blobs/locks/snapshots overhead) | +S1/S10 의 *동일 시점 baseline* 가 `results/` 하나에만 있어 timeline 비교가 부정확. S7 만 `results/post-pr8/` 에 retest 보존되어 latency 비교 의미 있음 (158s baseline → 241s with NLI first-run; 두번째 호출은 240s - 30s download = ~210s 추정). + NLI inference latency 자체는 ~10-50 ms per call (spec §2.1 명세 일치). 첫 호출 시 model load (~30-60s) + multi-hop synthesize latency 가 dominant. ## Sample wire outputs