← Natrag na listu

weekly-2026-05-10.md

🔬 Weekly 🔴 1 🟡 6 🟢 2

Weekly Deep Audit — 2026-05-10 — Skills + Cron

Scope

Tjedan 2: Skill/Tool Effectiveness + Cron Health

Findings

🟢 Cron jezgra je trenutno zdrava — openclaw cron list --json pokazuje 21 aktivan job; snapshot zadnjeg runa je 20 ok i 1 error (~95.2% success). Median trajanje je ~122.5 s, prosjek ~250.2 s, što znači da većina rutine prolazi bez zastoja, ali nekoliko heavy jobova diže prosjek.
🔴 Jutarnji i večernji briefing i dalje nose stale skill path — oba Alex cron payloada još referenciraju /home/tropic_bot/.openclaw/workspace-alex/skills/tavily-search-pro/..., a taj path ne postoji; stvarni radni skill je skills/_archive/tavily-search-pro/... ili fallback preko drugih alata. To je trajni prompt drift koji se već tjednima kompenzira workaroundom umjesto čistim fixom.
🟡 Skill sloj je stabilan, ali gotovo bez aktivnog održavanja — u zadnjih 7 dana pronađena je samo 1 izmjena SKILL.md datoteke (workspace-alex/skills/last30days/SKILL.md), dok su aktivni i arhivirani skillovi pomiješani kroz promptove, learnings i tmp artefakte. To smanjuje incident rate danas, ali povećava rizik daljnjeg driftanja dokumentacije i ruta.
🟡 Heartbeat observability je i dalje slab — iz lokalnih artefakata nije moguće pouzdano izvući koliko je heartbeatova bilo ni omjer ACTIONABLE vs HEARTBEAT_OK; vide se samo reference na next-heartbeat wake mode i literalni stringovi u promptovima. Bez strukturiranog heartbeat outcome loga ova domena ostaje djelomično neauditabilna.
🟢 Sub-agent runtime radi bolje nego prošli put — tasks/runs.sqlite za zadnjih 7 dana pokazuje 37 subagent runova: 35 succeeded, 2 timed_out (~94.6% success), prosječno trajanje ~241 s. To je osjetno bolje od prošlog audita i pokazuje da spawn mehanika više nije glavni problem.
🟡 Sub-agent telemetry je fragmentiran — isti sustav ima korisne podatke u tasks/runs.sqlite, ali subagents/runs.json je potpuno prazan (0 runova). To znači da KPI skripta iz workspacea trenutno gleda lane koji ne nosi stvarno stanje, pa je ručni SQL fallback potreban za audit.
🟡 Jedini aktualni cron incident izgleda operativno, ne strukturno — Weekly Regression Suite je zadnji put pao s cron: job interrupted by gateway restart, uz trajanje ~1442.6 s i consecutiveErrors: 1. Ovo ne izgleda kao logička greška joba, ali je upozorenje da dugi weekly runovi ostaju osjetljivi na restart prozor.
🟡 Delivery konfiguracija je uglavnom čista, ali 3 joba rade bez announce dostave — 18/21 aktivnih jobova su announce, dok 3 joba svjesno rade s delivery.mode: none (PRJ017 jutarnji/midday i WF_Agent_R1-XML monitor). To nije bug samo po sebi, ali treba ostati eksplicitno dokumentirano jer inače izgleda kao tihi delivery gap.
🟡 Token/cost praćenje za cronove i dalje nedostaje — iz dostupnih lokalnih izvora mogu se izvući status, trajanje, delivery outcome i task status, ali ne i agregirani token cost po jobu za zadnjih 7 dana. Za T2 domenu to ostaje otvoreni reporting gap.

Trend vs Prethodni Audit

Poboljšanje — cron snapshot je sada jači nego 12.04.: 21 aktivan job s 20/21 ok, a sub-agent runtime se popeo na ~94.6% uspjeha.
Poboljšanje — raniji disabled/error maintenance sloj više nije dominantna tema; većina core automatizacija sada završava uredno.
Pogoršanje — stale Tavily path nije riješen nego je postao normalizirani workaround kroz archive lane i tmp skripte.
Bez promjene — heartbeat i token-cost observability i dalje su nedovoljni za clean audit bez ručnih fallbackova.

Top 3 Preporuke

Očistiti Alex briefing cron payloadove i sve povezane promptove/tmp helpere tako da više ne referenciraju nepostojeći skills/tavily-search-pro path.
Ujediniti telemetry za heartbeat i subagent runove u jedan kanonski izvor (ili popraviti subagents/runs.json, ili prebaciti KPI skripte na tasks/runs.sqlite).
Za duge weekly jobove (Weekly Regression Suite i slične) dodati restart-aware guard ili checkpointing kako gateway restart ne bi prekidao run nakon 20+ minuta rada.