weekly-2026-05-10.md
🔬 Weekly
🔴 1
🟡 6
🟢 2
Weekly Deep Audit — 2026-05-10 — Skills + Cron
Scope
Tjedan 2: Skill/Tool Effectiveness + Cron Health
Findings
- 🟢 Cron jezgra je trenutno zdrava —
openclaw cron list --jsonpokazuje 21 aktivan job; snapshot zadnjeg runa je 20oki 1error(~95.2% success). Median trajanje je ~122.5 s, prosjek ~250.2 s, što znači da većina rutine prolazi bez zastoja, ali nekoliko heavy jobova diže prosjek. - 🔴 Jutarnji i večernji briefing i dalje nose stale skill path — oba Alex cron payloada još referenciraju
/home/tropic_bot/.openclaw/workspace-alex/skills/tavily-search-pro/..., a taj path ne postoji; stvarni radni skill jeskills/_archive/tavily-search-pro/...ili fallback preko drugih alata. To je trajni prompt drift koji se već tjednima kompenzira workaroundom umjesto čistim fixom. - 🟡 Skill sloj je stabilan, ali gotovo bez aktivnog održavanja — u zadnjih 7 dana pronađena je samo 1 izmjena
SKILL.mddatoteke (workspace-alex/skills/last30days/SKILL.md), dok su aktivni i arhivirani skillovi pomiješani kroz promptove, learnings i tmp artefakte. To smanjuje incident rate danas, ali povećava rizik daljnjeg driftanja dokumentacije i ruta. - 🟡 Heartbeat observability je i dalje slab — iz lokalnih artefakata nije moguće pouzdano izvući koliko je heartbeatova bilo ni omjer
ACTIONABLEvsHEARTBEAT_OK; vide se samo reference nanext-heartbeatwake mode i literalni stringovi u promptovima. Bez strukturiranog heartbeat outcome loga ova domena ostaje djelomično neauditabilna. - 🟢 Sub-agent runtime radi bolje nego prošli put —
tasks/runs.sqliteza zadnjih 7 dana pokazuje 37subagentrunova: 35succeeded, 2timed_out(~94.6% success), prosječno trajanje ~241 s. To je osjetno bolje od prošlog audita i pokazuje da spawn mehanika više nije glavni problem. - 🟡 Sub-agent telemetry je fragmentiran — isti sustav ima korisne podatke u
tasks/runs.sqlite, alisubagents/runs.jsonje potpuno prazan (0runova). To znači da KPI skripta iz workspacea trenutno gleda lane koji ne nosi stvarno stanje, pa je ručni SQL fallback potreban za audit. - 🟡 Jedini aktualni cron incident izgleda operativno, ne strukturno —
Weekly Regression Suiteje zadnji put pao scron: job interrupted by gateway restart, uz trajanje ~1442.6 s iconsecutiveErrors: 1. Ovo ne izgleda kao logička greška joba, ali je upozorenje da dugi weekly runovi ostaju osjetljivi na restart prozor. - 🟡 Delivery konfiguracija je uglavnom čista, ali 3 joba rade bez announce dostave — 18/21 aktivnih jobova su
announce, dok 3 joba svjesno rade sdelivery.mode: none(PRJ017jutarnji/midday iWF_Agent_R1-XMLmonitor). To nije bug samo po sebi, ali treba ostati eksplicitno dokumentirano jer inače izgleda kao tihi delivery gap. - 🟡 Token/cost praćenje za cronove i dalje nedostaje — iz dostupnih lokalnih izvora mogu se izvući status, trajanje, delivery outcome i task status, ali ne i agregirani token cost po jobu za zadnjih 7 dana. Za T2 domenu to ostaje otvoreni reporting gap.
Trend vs Prethodni Audit
- Poboljšanje — cron snapshot je sada jači nego 12.04.: 21 aktivan job s 20/21
ok, a sub-agent runtime se popeo na ~94.6% uspjeha. - Poboljšanje — raniji disabled/error maintenance sloj više nije dominantna tema; većina core automatizacija sada završava uredno.
- Pogoršanje — stale Tavily path nije riješen nego je postao normalizirani workaround kroz archive lane i tmp skripte.
- Bez promjene — heartbeat i token-cost observability i dalje su nedovoljni za clean audit bez ručnih fallbackova.
Top 3 Preporuke
- Očistiti Alex briefing cron payloadove i sve povezane promptove/tmp helpere tako da više ne referenciraju nepostojeći
skills/tavily-search-propath. - Ujediniti telemetry za heartbeat i subagent runove u jedan kanonski izvor (ili popraviti
subagents/runs.json, ili prebaciti KPI skripte natasks/runs.sqlite). - Za duge weekly jobove (
Weekly Regression Suitei slične) dodati restart-aware guard ili checkpointing kako gateway restart ne bi prekidao run nakon 20+ minuta rada.