auto-sync: 2026-06-08 23:50:01
This commit is contained in:
@@ -378,3 +378,12 @@
|
||||
- **НО проверка CPU показала: pid 716 ЖИВЁТ и РАБОТАЕТ** (cpu delta=12 тиков/5с, 5 socket, State S). Т.е. это НЕ зависание, а ДОЛГИЙ АНАЛИЗ (тяжёлая root-cause задача: читать merge_gate.py+stage_engine.py+логи 074/081 на opus-4-8). **Вероятно зря убила 405** — он тоже мог просто долго думать.
|
||||
- ⚠️ **ПРАВИЛО НА БУДУЩЕЕ:** прежде чем убивать «зависший» агент — ПРОВЕРИТЬ CPU-активность pid (`/proc/PID/stat` utime+stime delta) и socket-соединения. Живёт+жжёт CPU = думает, НЕ трогать. `--output-format json` пишет результат только В КОНЦЕ → пустой лог при живом процессе = НОРМА. JobReaper max_running_s=3600 — пусть решает он, не я вручную.
|
||||
- ⚠️ РИСК: attempts уже 2/2 (из-за моего kill). Если 716 упадёт — больше retry НЕТ → задача застрянет. Следить. Сейчас 716 работает — жду.
|
||||
- ОБНОВЛЕНИЕ (~20:40): run 406 pid 716 идёт 22+ мин, CPU delta 0/1/1 (слабая активность = медленный стрим от API). Подозрение: claude-cli-proxy (Up 3 weeks) деградировал → медленные ответы. Не трогаю (attempts 2/2), пусть JobReaper решает.
|
||||
|
||||
## 📡 ORCH-83 [ЭПИК] НАБЛЮДАЕМОСТЬ заведён (08.06 ~20:43 UTC) — Слава заказал
|
||||
- **Триггер:** 3 слепые зоны за день — (1) agent-liveness (analyst «завис», лезла в /proc вручную), (2) **диск хоста 93%** (8ГБ/118, никто не алертит!), (3) merge-HOLD молча. Орк автономен но СЛЕП.
|
||||
- **Эпик seq=83** id=746c268e-275b-4fa1-8a1c-039349fac300, Backlog. Замысел: `tasks/orchestrator/ORCH-83_OBSERVABILITY_EPIC.md`.
|
||||
- **4 слоя:** 83a СБОР (метрики: liveness/очередь/стадии/инфра), 83b АЛЕРТИНГ (пороги→Telegram), 83c ДАШБОРД (live веб), 83d АГЕНТ СОПРОВОЖДЕНИЯ (SRE: отслеживает→реагирует→исправляет→развивает).
|
||||
- **Инфра собрана:** 21 контейнер (orch+staging, gitea, plane-app-*×14, claude-cli-proxy, xray, enduro, osrm, gateway). Орк уже имеет /health//status//queue (фундамент) + шлёт в Telegram (notifications.py — переиспользовать для алертов).
|
||||
- ⚠️ **Открытые вопросы к Славе (ДО декомпозиции):** (1) стек дэш — Flask vs Grafana+Prometheus (но диск 93%!); (2) агент сопровождения — новый агент/сервис/роль Стрим; (3) что первым — liveness или диск-алерт.
|
||||
- НАБЛЮДАЕМОСТЬ = 5-й стратегический кирпич автономности.
|
||||
|
||||
Reference in New Issue
Block a user