auto-sync: 2026-06-07 18:00:01

This commit is contained in:
Stream
2026-06-07 18:00:01 +03:00
parent 2e8b7e9afe
commit 8d57f4ef4e

View File

@@ -148,3 +148,42 @@ EXPECTED_REVISION прокидывается (2×), image_freshness import OK, q
ИЛИ daemon.json `builder.gc.defaultKeepStorage=20GB`) — частые build-once забивают диск.
- Мониторинг диска mva154 (heartbeat-алерт при >85%).
- Починить NTP/часы mva154 (ушли +3ч).
## 🏆 ИТОГ СЕССИИ 07.06 — 4 задачи в прод + пожар + баги
Всё автономно (Слава дал карт-бланш). Закрыто в прод:
- ✅ ORCH-58 provenance retag-guard (094b5e2)
- ✅ ORCH-60 reconciler skip escalated (d4c6cc0)
- ✅ ORCH-61 фикс петли deploy-staging / staging_verdict.py (e18947d)
- ✅ ORCH-21 post-deploy monitor + auto-rollback, self-hosting=alert-only (f85e449).
/queue отдаёт блок post_deploy {enabled, window_s:900, interval_s:30}.
🎯 **ГЛАВНОЕ:** ORCH-21 ПЕРВОЙ прошла deploy-staging АВТОНОМНО (петля ORCH-60/61
закрыта). 1-й заход deploy-staging упал на staging rebuild rc=1 → конвейер САМ
прогнал ещё круг → 2-й заход PASS → merge-gate auto-rebase + re-test green. Без меня.
🔴 **ПОСЛЕДНИЙ БЛОКЕР → ORCH-65 (P0, запущен):** zombie jobs + merge-lease залип.
Процесс агента умирает, а jobs.status остаётся running (jobs 236/239/242/254 все зомби).
merge-gate берёт .merge-lease-orchestrator.json, rebase+re-test green, но на финальном
merge процесс умирает с зажатым lease → merge не финализируется. Это и есть
последняя ручная точка (каждый прод-deploy доводила руками). Fix: job-reaper
(watchdog метит мёртвые jobs) + stale-lease reclaim (TTL, TC11 уже в тестах) +
идемпотентная финализация merge. ORCH-65 IID be2e7467-2e14-4d49-8ac5-398fad08f88d.
**Ручная доводка прод-deploy (отработанная схема, пока ORCH-65 не в проде):**
1. cancel zombie job (UPDATE jobs SET status='cancelled' WHERE id=X)
2. park task In Progress
3. merge PR (Gitea pulls/{n}/merge Do=merge), проверить CI success
4. пересборка staging: GIT_SHA=<main HEAD> ... bash hook --build-staging → label проставится
5. rollback-снимок: docker tag orchestrator-orchestrator:latest :rollback-pre-NNN
6. прод --deploy: setsid bash -c 'SOURCE_IMAGE=...-staging TARGET_PORT=8500 ... EXPECTED_REVISION=<sha> hook --deploy'
→ guard сверит revision → retag → health 200
7. закрыть: Plane Done + UPDATE tasks SET stage='done'
- Прод-env для --deploy: SOURCE_IMAGE=orchestrator-orchestrator-staging, TARGET_SERVICE=orchestrator,
TARGET_PORT=8500, TARGET_IMAGE=orchestrator-orchestrator, PREV_IMAGE_FILE=.deploy-prev-image-prod
**Следующие в очереди (веду автономно):** ORCH-65 (идёт) → ORCH-22 (security-гейт) →
ORCH-59 (Confirm Deploy статус) → ORCH-23 (budget breaker) → P2 ORCH-57/51.
Follow-up INFRA заведены: ORCH-62 (prune cache), ORCH-63 (disk monitor), ORCH-64 (NTP).
- Рапрув-гейты BRD апрувлю сама (Слава доверяет), но ЧИТАЮ BRD/AC/TRZ внимательно
(Слава: «проверяй внимательно сама, учитывай уроки»). Проверять: env-префикс ORCH_,
self-hosting safety, never-raise, backward-compat/kill-switch, идемпотентность, схема БД не тронута.