auto-sync: 2026-06-07 18:00:01
This commit is contained in:
@@ -148,3 +148,42 @@ EXPECTED_REVISION прокидывается (2×), image_freshness import OK, q
|
||||
ИЛИ daemon.json `builder.gc.defaultKeepStorage=20GB`) — частые build-once забивают диск.
|
||||
- Мониторинг диска mva154 (heartbeat-алерт при >85%).
|
||||
- Починить NTP/часы mva154 (ушли +3ч).
|
||||
|
||||
## 🏆 ИТОГ СЕССИИ 07.06 — 4 задачи в прод + пожар + баги
|
||||
Всё автономно (Слава дал карт-бланш). Закрыто в прод:
|
||||
- ✅ ORCH-58 provenance retag-guard (094b5e2)
|
||||
- ✅ ORCH-60 reconciler skip escalated (d4c6cc0)
|
||||
- ✅ ORCH-61 фикс петли deploy-staging / staging_verdict.py (e18947d)
|
||||
- ✅ ORCH-21 post-deploy monitor + auto-rollback, self-hosting=alert-only (f85e449).
|
||||
/queue отдаёт блок post_deploy {enabled, window_s:900, interval_s:30}.
|
||||
|
||||
🎯 **ГЛАВНОЕ:** ORCH-21 ПЕРВОЙ прошла deploy-staging АВТОНОМНО (петля ORCH-60/61
|
||||
закрыта). 1-й заход deploy-staging упал на staging rebuild rc=1 → конвейер САМ
|
||||
прогнал ещё круг → 2-й заход PASS → merge-gate auto-rebase + re-test green. Без меня.
|
||||
|
||||
🔴 **ПОСЛЕДНИЙ БЛОКЕР → ORCH-65 (P0, запущен):** zombie jobs + merge-lease залип.
|
||||
Процесс агента умирает, а jobs.status остаётся running (jobs 236/239/242/254 все зомби).
|
||||
merge-gate берёт .merge-lease-orchestrator.json, rebase+re-test green, но на финальном
|
||||
merge процесс умирает с зажатым lease → merge не финализируется. Это и есть
|
||||
последняя ручная точка (каждый прод-deploy доводила руками). Fix: job-reaper
|
||||
(watchdog метит мёртвые jobs) + stale-lease reclaim (TTL, TC11 уже в тестах) +
|
||||
идемпотентная финализация merge. ORCH-65 IID be2e7467-2e14-4d49-8ac5-398fad08f88d.
|
||||
|
||||
**Ручная доводка прод-deploy (отработанная схема, пока ORCH-65 не в проде):**
|
||||
1. cancel zombie job (UPDATE jobs SET status='cancelled' WHERE id=X)
|
||||
2. park task In Progress
|
||||
3. merge PR (Gitea pulls/{n}/merge Do=merge), проверить CI success
|
||||
4. пересборка staging: GIT_SHA=<main HEAD> ... bash hook --build-staging → label проставится
|
||||
5. rollback-снимок: docker tag orchestrator-orchestrator:latest :rollback-pre-NNN
|
||||
6. прод --deploy: setsid bash -c 'SOURCE_IMAGE=...-staging TARGET_PORT=8500 ... EXPECTED_REVISION=<sha> hook --deploy'
|
||||
→ guard сверит revision → retag → health 200
|
||||
7. закрыть: Plane Done + UPDATE tasks SET stage='done'
|
||||
- Прод-env для --deploy: SOURCE_IMAGE=orchestrator-orchestrator-staging, TARGET_SERVICE=orchestrator,
|
||||
TARGET_PORT=8500, TARGET_IMAGE=orchestrator-orchestrator, PREV_IMAGE_FILE=.deploy-prev-image-prod
|
||||
|
||||
**Следующие в очереди (веду автономно):** ORCH-65 (идёт) → ORCH-22 (security-гейт) →
|
||||
ORCH-59 (Confirm Deploy статус) → ORCH-23 (budget breaker) → P2 ORCH-57/51.
|
||||
Follow-up INFRA заведены: ORCH-62 (prune cache), ORCH-63 (disk monitor), ORCH-64 (NTP).
|
||||
- Рапрув-гейты BRD апрувлю сама (Слава доверяет), но ЧИТАЮ BRD/AC/TRZ внимательно
|
||||
(Слава: «проверяй внимательно сама, учитывай уроки»). Проверять: env-префикс ORCH_,
|
||||
self-hosting safety, never-raise, backward-compat/kill-switch, идемпотентность, схема БД не тронута.
|
||||
|
||||
Reference in New Issue
Block a user