"Vrata" is a correct translation for TCP/network ports, but wrong for software quality gates. Changes: quality-gates.md — rewritten: "kakovostno preverjanje" not "kakovostna vrata" vrata → preverjanje (gate → verification) krajevna → lokalno (local) kljuka → kavelj (door handle → git hook) padejo → spodleti (falls → fails) Scattered fixes in 5 other files: cost-model.md, index.md, mother-hive.md, naming-decisions.md, store-schema.md — vrata → preverjanje/dovoljenja external-mcp.md — vrata → dovoljenja (permissions) Kept: "vrata" for TCP ports (correct), "vhodna vrata" for front-door metaphor (works in Slovenian), "vrata za poslušanje" for listening port. Also fixed: frontmatter quoting for YAML (nested quotes, colons).
4.9 KiB
| title | description |
|---|---|
| Model stroškov | Kako Colibri sledi vsakemu žetonu, meri zadetke predpomnilnika in samodejno stopnjuje med cenovnimi načini. |
← kazalo
Kaj je to
Colibri sledi vsakemu žetonu, ki gre skozi agentsko sejo, in meri stroške glede na nastavljiv proračun. Ključni vpogled: žetoni zadetka predpomnilnika stanejo 10× manj kot sveži žetoni pri DeepSeek — zato je predpona poziva načrtovana tako, da je bajtno stabilna med zahtevami, kar maksimira zadetke predpomnilnika. Trije cenovni načini (fast, smart, max) predstavljajo različne točke na kompromisu hitrost/strošek, model pa samodejno stopnjuje, ko cenejši način ne zmore več.
Odločitve
Bajtno stabilna predpona poziva → merjenje zadetkov predpomnilnika
Sistemski poziv in zgodnji bloki konteksta so bajt-za-bajtom enaki med
zaporednimi zahtevami na isto končno točko DeepSeek. Cene zadetkov
predpomnilnika DeepSeek jih znižajo za ~90%. Colibrijeva sonda
colibri-deepseek določi natančno razdelitev števila žetonov med predpomnjenimi
in svežimi žetoni na zahtevo, sledilec stroškov pa zabeleži oboje, tako da
proračun seje odraža dejanske znižane stroške, ne nominalnega števila
žetonov.
Zakaj ne preprosto šteti žetonov: štetje žetonov z offline tokenizatorjem da zgornjo mejo, ne pa resničnih stroškov. API DeepSeek včasih ponovno predpomni in včasih ne — sonda izmeri, kaj se je dejansko zgodilo. Popust je prevelik (10×), da bi ostal neizmerjen.
→ headroom-sidecar,
COLIBRI-TOKENOMICS-TRIFECTA.md,
crates/colibri-deepseek/src/lib.rs
Trije cenovni načini (fast → smart → max)
| Način | Proračun (žetoni) | Obnašanje |
|---|---|---|
| Fast | 16K | Največ zadetkov predpomnilnika, najmanj svežih žetonov. Zgodaj zavrne velike razširitve. |
| Smart | 64K | Privzeto. Uravnoteži ponovno uporabo predpomnilnika s prostorom za nadaljnje korake. |
| Max | 256K | Skoraj nikoli ne doseže proračuna. Za enkratne globoke naloge, kjer je strošek drugoten. |
Demon samodejno stopnjuje, ko seja izčrpa svoj proračun v nižjem načinu: fast → smart → max. Stopnjevanje je enosmerno (nikoli ne zniža sredi seje).
Zakaj trije načini, ne zvezni drsnik: tukaj zmaga preprostost. Tri dobro razumljene točke pokrijejo prostor — operaterji izbirajo po apetitu tveganja, ne po finem uglaševanju številke. Veriga stopnjevanja pomeni "začni poceni, plačaj več samo, če deluje".
→ COLIBRI-TOKENOMICS-TRIFECTA.md,
crates/colibri-daemon/src/cost.rs
Stiskanje T14 (obrezovanje proračuna, ne krajšanje)
Ko seja skoraj preseže svoj proračun, Colibri stisne rezultate orodij v nestanovitnem območju — pošlje jih skozi stranski vagon headroom v povzetek, nato obreže najstarejše nestanovitne bloke, dokler poziv ne sodi v proračun. Predpona (sistemski poziv, statični kontekst) ni nikoli obrezana — samo nestanovitna pripona.
Če stiskanje ne zadostuje in je samodejno stopnjevanje omogočeno, način prestopi navzgor, preden pride do krajšanja.
Zakaj ne preprosto krajšati: krajšanje sredi pogovora izgubi kontekst, ki ga agent potrebuje za nadaljevanje. Stiskanje ohrani pomensko vsebino ob nižjih stroških žetonov. Stranski vagon headroom je neobvezen (privzeto izklopljen); brez njega je zasilni izhod preprosto krajšanje.
→ headroom-sidecar,
crates/colibri-daemon/src/session.rs
Sonda zadetka predpomnilnika (specifična za DeepSeek)
Zaboj colibri-deepseek pošlje predpoletno zahtevo z znanim pozivom na API
DeepSeek in razčleni glave odgovora, da določi razdelitev zadetkov
predpomnilnika (prompt_cache_hit_tokens / prompt_cache_miss_tokens). To je
specifično za ponudnika — DeepSeek je edini ponudnik, ki izpostavlja to
natančnost. Sonda teče enkrat na spremembo konfiguracije seje, ne na vsako
zahtevo.
Zakaj sonda in ne kljuka: vmesna programska oprema, ki prestreza vsak odgovor API, bi povezala sledenje stroškov s plastjo HTTP. Sonda to loči — sledilec stroškov vpraša "kakšno je bilo razmerje predpomnilnika?" in sonda odgovori, neodvisno od tega, kako je bila zahteva izvedena.
→ crates/colibri-deepseek/src/lib.rs
Glej tudi
- task-board — razporejevalnik, ki razpošilja opravila znotraj proračunov sej
- mother-hive — arhitektura MCP (druga stroškovna domena)
- quality-gates — preverjanje, ki preverja razčlenjevanje cenovnih načinov