From 8dee610a97ecaf822eab8ddfcedfd0be273f8c61 Mon Sep 17 00:00:00 2001 From: altair823 Date: Wed, 3 Jun 2026 07:19:19 +0000 Subject: [PATCH] =?UTF-8?q?docs(hotfixes):=20arctic=20=EC=A2=85=EB=8B=A8?= =?UTF-8?q?=20=EB=8F=84=EA=B7=B8=ED=91=B8=EB=94=A9=20evidence=20(recall@10?= =?UTF-8?q?=20130/132)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit kebab v0.26.0 실제 파이프라인(ollama arctic)으로 namu 재색인 → 확장 골든 eval recall@10 130/132·recall@50 132/132·fully_consistent 22/24 종단 재현. 측정→구현 →실파이프라인 삼중 확인. 릴리스 전 도그푸딩 trigger(embedder 모델 변경) 충족. Co-Authored-By: Claude Opus 4.8 (1M context) --- tasks/HOTFIXES.md | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/tasks/HOTFIXES.md b/tasks/HOTFIXES.md index c594f27..f0046ae 100644 --- a/tasks/HOTFIXES.md +++ b/tasks/HOTFIXES.md @@ -57,6 +57,20 @@ candle arctic vs 우리 Ollama 어댑터로 같은 문장(설명형/약어/영 어댑터의 L2 정규화는 idempotent no-op. 로그: `/build/dogfood/logs/arctic-parity.log`, 요약: `/tmp/arctic-result.md`. +**종단 도그푸딩** (2026-06-03, kebab **v0.26.0** 바이너리, provider=ollama +`snowflake-arctic-embed2` @192.168.0.47). Python 하니스가 아닌 **실제 kebab +ingest→store→search 파이프라인**으로 검증: namu 코퍼스 997 docs / 23151 chunks +fresh 색인(`config-arctic.toml`, kb-arctic, errors=0) → 확장 골든 +(`namu_golden_expanded.yaml`, 24그룹/132변형) hybrid k=50 eval +(run_019e8c5788a374e098d85d84eb900e23). 결과: **recall@10 130/132 (0.985)**, +**recall@50 132/132 (완벽)**, fully_consistent **22/24**(baseline e5 19/24 대비 +3), +MisRanked 2 / Missing 0, mean_spread@10 0.083(e5 0.208 대비 대폭 개선). 종류별 +recall@10: abbr 7/7 · en 24/24 · ko 24/24 · syn 17/17 · para 23/24 · para2 18/18 · +para3 17/18 = **용어 무손실 + 설명형 거의 완벽**. e5 baseline(123/132) + 측정 하니스 +arctic(130) 와 종단 일치 — 측정→구현→실파이프라인 재현 삼중 확인. 잔존 MisRanked +2개는 D(query-side) 후속 보강 대상. 결과 `/tmp/arctic_e2e_variants.json`, +baseline 비교 `/build/dogfood/logs/2026-06-03-new-baseline-v025.md`. + **호환성.** 기본 provider=fastembed e5 동작/벡터 불변(arctic 은 opt-in). dim 1024 동일이나 LanceDB 테이블명에 모델명 포함(`chunk_embeddings_{model}_{dim}`)이라 충돌 없음. e5 → arctic 전환 = `embedding_version` cascade(모델별 벡터 상이) → **재색인 필요**