architect(ET): auto-commit from architect run_id=306

2026-06-07 14:01:19 +00:00
parent db83b89467
commit 2bdba532d5
7 changed files with 453 additions and 3 deletions
--- a/docs/work-items/ORCH-021/06-adr/ADR-001-post-deploy-monitor.md
+++ b/docs/work-items/ORCH-021/06-adr/ADR-001-post-deploy-monitor.md
@@ -0,0 +1,212 @@
+# ADR-001 (ORCH-021): Post-deploy мониторинг прода + реакция на деградацию
+
+## Статус
+Proposed (design) — реализация в ветке `feature/ORCH-021-post-deploy-rollback`.
+Сквозной индексный ADR: `docs/architecture/adr/adr-0010-post-deploy-monitor.md`.
+Помечено `arch:major-change` (новая под-компонента + новый reserved-agent job-kind).
+
+## Контекст
+Конвейер заканчивается на `deploy → done` (`check_deploy_status` видит
+`deploy_status: SUCCESS` → terminal-sync, Plane → Done, release merge-lease). После
+этого оркестратор **забывает про прод**. «Успех» сегодня = прохождение health-check
+в момент рестарта (10×6с в `scripts/orchestrator-deploy-hook.sh`) — узкое окно ~60с.
+
+Класс инцидентов «зелёный деплой, красный прод» (прецедент **ET-8**): деградация
+проявляется через минуты под боевым трафиком (прогрев кэшей, фоновые миграции,
+утечки, рост 5xx), health отвечает `200 ok`, но фича сломана. Для self-hosting это
+критично: сломанный прод-орк (8500) обслуживает ВСЕ проекты из общего инстанса.
+
+BRD/ТЗ задают требования (BR-1…BR-11, AC-1…AC-18) и оставляют архитектору **три
+открытых вопроса** (BRD §7): (1) где живёт наблюдение — стадия / watchdog-daemon /
+reserved-agent job; (2) механизм self-rollback; (3) пороги/веса сигналов.
+
+Существующие переиспользуемые механики:
+- **deploy-finalizer** (ORCH-36, `stage_engine.run_deploy_finalizer` + перехват в
+  `launcher.launch_job` ДО `_spawn`) — детерминированный no-LLM reserved-agent job,
+  само-перепостановка через `enqueue_job(available_at_delay_s=...)`, defer-budget,
+  restart-safe (jobs-очередь + sentinel-файлы `.deploy-state-<repo>/<wi>/`).
+- **self_deploy.py** — sentinel-state хелперы (`write_marker`/`has_marker`/
+  `read_result`/`clear_state`), detached host-процесс (`build_deploy_command`/
+  `initiate_deploy`: ssh + setsid), `map_exit_code_to_status`, `self_deploy_applies`.
+- **reconciler.py** — daemon-поток + `status()` в `GET /queue`.
+- **хук `--rollback`** (`do_rollback`): retag `PREV_IMAGE_FILE` → `TARGET_IMAGE` +
+  рестарт + health, коды 0 / 1 (нет prev-образа) / 2 (rollback тоже упал).
+- **Условность** ORCH-35/36/43/58: `is_self_hosting_repo`, флаг + CSV-репо.
+
+## Решение
+
+### 1. Механизм наблюдения — reserved-agent job `post-deploy-monitor` (Вариант B)
+Наблюдение реализуется как **детерминированный no-LLM reserved-agent job**, точная
+калька **deploy-finalizer**. Один «тик» наблюдения = один job: он делает ОДИН опрос
+сигналов, обновляет персистентные счётчики в sentinel-файлах, классифицирует и либо
+**перепостанавливает себя** с задержкой `post_deploy_interval_s` (окно не истекло и
+ещё не DEGRADED), либо завершает наблюдение (DEGRADED → реакция; либо окно истекло →
+HEALTHY). Это «watchdog поверх очереди»: между тиками job не выполняется (он
+запланирован в будущем через `available_at_delay_s`), worker свободен для других
+проектов — ровно как defer у finalizer.
+
+**Почему НЕ daemon-watchdog (Вариант A, как reconciler):** daemon тикает глобально, а
+не per-task; серию опросов (последовательные провалы health, доля 5xx на окне) пришлось
+бы держать в памяти → теряется/двоится при рестарте (а сам деплой орка = рестарт). Чтобы
+сделать daemon restart-safe, всё равно нужны персистентные per-task счётчики в sentinel —
+тогда reserved-agent проще и уже имеет проверенную restart-safe машинерию (jobs-очередь
+ `requeue_running_jobs` + sentinels). Per-task жизненный цикл естественно ложится на
+job-цепочку, а не на глобальный sweep.
+
+**Почему НЕ отдельная пост-deploy стадия (Вариант C):** меняет `STAGE_TRANSITIONS` +
+реестр `QG_CHECKS` (нарушает AC-12, ТЗ §2.8 — явно непредпочтительно); ломает семантику
+`deploy → done` как терминального перехода (Plane уже Done). Наблюдение происходит
+**ПОСЛЕ** `done` — «продление ответственности ЗА done», а не новая стадия конвейера.
+
+### 2. Арм наблюдения — хук в terminal-блоке `advance_stage`
+В `stage_engine.advance_stage`, в существующем блоке `next_stage == "done"` (после
+`set_issue_done` и `release_merge_lease`), добавляется арм:
+```
+if next_stage == "done" and post_deploy.post_deploy_applies(repo):
+    post_deploy.arm_monitor(repo, work_item_id, branch, task_id)
+```
+`arm_monitor` (never-raise): если sentinel `armed` отсутствует → создаёт state-dir,
+пишет `armed` (идемпотентность, по образцу `INITIATED`), инициализирует `series`-файл,
+ставит первый `post-deploy-monitor` job через `enqueue_job(available_at_delay_s=
+post_deploy_interval_s)`. Если `armed` уже есть → no-op (двойной webhook / reconciler
+F-1 / finalizer Phase C могут довести `done` повторно — AC-15). Выключенный
+kill-switch / неприменимый репо → `post_deploy_applies` False → арма нет (AC-2/AC-10).
+
+### 3. Чистая логика — новый leaf-модуль `src/post_deploy.py` (never-raise)
+По образцу `self_deploy.py` / `staging_verdict.py`. Импортирует только config (+lazy
+`qg.checks.is_self_hosting_repo`), НЕ импортирует `stage_engine`/`launcher`. Функции:
+- **`post_deploy_applies(repo) -> bool`** — флаг `post_deploy_monitor_enabled` +
+  CSV `post_deploy_repos` (пусто → только self-hosting). Калька `self_deploy_applies`.
+- **`probe_signals(base_url) -> ProbeResult`** — один опрос: `GET /health` (HTTP 200 +
+  `{"status":"ok"}`) и ключевые эндпоинты `/status`, `/queue` (учёт доли 5xx).
+  Сеть/таймаут → консервативный «провал»-результат, не исключение.
+- **`classify(series, fail_threshold, 5xx_threshold) -> "HEALTHY"|"DEGRADED"`** —
+  чистая, без сети, **главный предмет юнит-тестов** (детерминированная, как
+  `compute_staging_verdict`): `DEGRADED` если `≥ fail_threshold` ПОСЛЕДОВАТЕЛЬНЫХ
+  провалов health (AC-4) ИЛИ доля 5xx на окне `> 5xx_threshold` (AC-5). Иначе
+  `HEALTHY` (одиночный провал < порога с восстановлением → HEALTHY, AC-3/AC-6).
+- **`decide_action(repo, verdict) -> "NONE"|"ROLLBACK"|"ALERT_ONLY"`** — чистая:
+  `HEALTHY → NONE`; `DEGRADED` + self-hosting → `ALERT_ONLY` (BR-5/AC-8, ВСЕГДА);
+  `DEGRADED` + не-self + `post_deploy_auto_rollback=True` → `ROLLBACK`; иначе →
+  `ALERT_ONLY`.
+- **Sentinel-state хелперы** (state-dir `.post-deploy-state-<repo>/<wi>/`, по образцу
+  `self_deploy._state_dir`): `armed`, `series` (JSON-список результатов опросов,
+  append каждый тик — restart-safe счётчики), `done`. `read_series`/`append_probe`/
+  `mark_done`/`has_marker` — never-raise.
+- **`write_post_deploy_log(...)`** — артефакт `16-post-deploy-log.md`, best-effort
+  (по образцу `self_deploy.write_deploy_log`).
+- **`build_rollback_command(repo)`** — argv хука `--rollback` с прод-env (как
+  `build_deploy_command`, но action=`--rollback`; переиспользует `deploy_prod_*`).
+
+### 4. Исполнение тика — `stage_engine.run_post_deploy_monitor(job)` + перехват в launcher
+По образцу `run_deploy_finalizer` / `_run_deploy_finalizer_job`:
+`launcher.launch_job` перехватывает `agent == "post-deploy-monitor"` ДО `_spawn` →
+`stage_engine.run_post_deploy_monitor(job)`. Алгоритм тика (never-raise):
+1. `mark_done` уже стоит → no-op (AC-15, защита от дубля).
+2. `probe = post_deploy.probe_signals(base_url)`; `append_probe(series, probe)`.
+3. `verdict = classify(series, ...)`.
+4. **Если `HEALTHY` и окно не истекло** (число тиков < `window_s/interval_s`) →
+   перепостановка `post-deploy-monitor` через `available_at_delay_s=interval_s`
+   (как finalizer defer; счётчик тиков — из jobs-очереди/`series`, restart-safe).
+5. **Если `HEALTHY` и окно истекло** → исход `NONE`, `write_post_deploy_log(HEALTHY,
+   NONE)`, `mark_done`, нотификация «окно завершилось чисто» (BR-6/AC-17).
+6. **Если `DEGRADED`** → `action = decide_action(...)`; исполнить реакцию (§5),
+   `write_post_deploy_log`, `mark_done`, нотификации.
+
+`mark_done` + sentinel `armed` дают идемпотентность; jobs-очередь +
+`requeue_running_jobs` + `series` дают restart-safe (AC-15). Бюджет тиков bounded
+(`window_s/interval_s`) — анти-livelock, как `deploy_finalize_max_attempts`.
+
+### 5. Реакция на деградацию
+- **Self-hosting (`orchestrator`), всегда (BR-5/AC-8):** `ALERT_ONLY`. НЕ откатывать
+  и НЕ рестартить прод-контейнер в тике. Громкий Telegram + Plane-коммент с запросом
+  ручного approve отката (по образцу deploy Phase A CTA). `action_taken: ALERT_ONLY`.
+  Откат самого прод-орка (если оператор решит) — ТОЛЬКО через detached host-процесс
+  (контейнер не откатит себя, умирая); переиспользуется механика
+  `self_deploy.initiate_deploy`, но в MVP она вне тика наблюдения (ручной approve →
+  отдельный путь, как ORCH-54 для авто-deploy). Тик self НИКОГДА не запускает хук
+  `--rollback` (структурный инвариант).
+- **Не-self + `post_deploy_auto_rollback=True` (AC-7):** вызвать хук `--rollback` с
+  прод-env (`build_rollback_command`). Маппинг exit-code по смыслу
+  `map_exit_code_to_status`: `0 → ROLLBACK_OK`; `1/2 → ROLLBACK_FAILED` + громкий
+  Telegram о необходимости ручного вмешательства (AC-9). Целевой контейнер не есть
+  orchestrator → его рестарт безопасен для конвейера.
+- **Не-self + auto_rollback=False (дефолт):** `ALERT_ONLY`.
+
+### 6. Артефакт `16-post-deploy-log.md` (новый, машиночитаемый)
+YAML-frontmatter (канон гейтов; для петли уроков ORCH-8, BR-10):
+```
+---
+post_deploy_status: HEALTHY | DEGRADED
+action_taken: NONE | ROLLBACK_OK | ROLLBACK_FAILED | ALERT_ONLY
+work_item: <plane-id>
+window_s: <int>
+checks_total: <int>
+checks_failed: <int>
+---
+```
+Тело — человекочитаемая сводка опросов. Best-effort (отсутствие файла ничего не роняет,
+AC-13). **Не** читается ни одним гейтом — наблюдение происходит после `done`.
+
+### 7. Конфигурация — `src/config.py` (env-префикс `ORCH_`)
+- `post_deploy_monitor_enabled: bool = True` — глобальный kill-switch (BR-8/AC-10).
+- `post_deploy_repos: str = ""` — CSV применимых репо; пусто → только self-hosting.
+- `post_deploy_window_s: int = 900` — окно наблюдения (~15 мин, BR-1).
+- `post_deploy_interval_s: int = 30` — интервал опросов.
+- `post_deploy_fail_threshold: int = 3` — N послед. провалов health → DEGRADED.
+- `post_deploy_5xx_threshold: float = 0.5` — порог доли 5xx → DEGRADED.
+- `post_deploy_auto_rollback: bool = False` — глоб. разрешение авто-отката (для self
+  всегда требует approve, BR-5).
+- `post_deploy_base_url: str = "http://localhost:8500"` — наблюдаемый прод.
+- Параметры отката — переиспользовать существующие `deploy_prod_*` (новых дублей нет).
+
+### 8. Наблюдаемость — блок `post_deploy` в `GET /queue` (BR-9/AC-14)
+По образцу блока `reconcile` (метод `status()`): `enabled`, `window_s`, `interval_s`,
+активные наблюдения (по sentinel `armed` без `done`), последний исход
+(`post_deploy_status`/`action_taken`). Best-effort, never-raise.
+
+### Инварианты (НЕ меняются)
+`STAGE_TRANSITIONS`, реестр `QG_CHECKS`, `check_deploy_status`/`_parse_deploy_status`,
+момент вердикта `deploy_status`, БАГ-8 откат, terminal-sync `deploy → done`, merge-gate,
+exit-code-контракт хука (0/1/2), схема БД. Условность как ORCH-35/36/43/58. Never-raise
+во всём наблюдении (AC-16). Тик self НИКОГДА не рестартит прод-контейнер (AC-8).
+
+## Альтернативы
+- **Daemon-watchdog (как reconciler)** — отклонён: per-task серия в памяти не
+  restart-safe; restart-safe-вариант требует тех же sentinel-счётчиков → reserved-agent
+  проще и уже проверен.
+- **Отдельная пост-deploy стадия + QG** — отклонён: меняет реестры (AC-12), ломает
+  семантику терминального `done`; наблюдение принципиально ПОСЛЕ `done`.
+- **Авто-rollback прод-орка из тика** — отклонён (BR-5): контейнер не откатит себя
+  надёжно; групповой риск для всех проектов. Self → только ALERT + ручной approve.
+- **Новая колонка в `tasks` для отметки наблюдения** — отклонён: миграция на проде
+  (риск, как в adr-0007); sentinel-файлы достаточны и restart-safe (как ORCH-36/53/58).
+- **Прометей/APM** — вне рамок (BR out-of-scope): опираемся на существующие
+  HTTP-эндпоинты, не вводим сбор метрик.
+
+## Последствия
+- Класс «зелёный деплой, красный прод» закрыт измеримыми порогами; деградация —
+  машиночитаемый сигнал для петли уроков (ORCH-8).
+- Плюс: максимальное переиспользование проверенной finalizer/sentinel/hook-машинерии;
+  нулевая миграция БД; реестры не тронуты; дефолты безопасны (auto-rollback off, self
+  только alert).
+- Минус/ограничение: монитор self бежит ВНУТРИ наблюдаемого прод-контейнера — если
+  контейнер полностью wedged, worker может не выполнить тик и алерта не будет (gap).
+  Это known limitation MVP; внешний независимый watchdog — follow-up (вне рамок).
+- Минус: каждый тик на короткое время занимает single-worker (`max_concurrency=1`);
+  митигируется коротким опросом (~секунды) и `interval_s` между тиками (defer не держит
+  worker), как finalizer.
+- Доменный smoke результата фичи (BR-11) — follow-up; MVP = health + 5xx.
+
+## Связи
+- **ET-8** — обоснование (deploy SUCCESS, прод не работает).
+- **adr-0007-executable-self-deploy** (ORCH-36) — sentinel-паттерн, detached
+  host-процесс, `map_exit_code_to_status`, deploy-finalizer reserved-agent (образец).
+- **adr-0007-reconciler** (ORCH-53) — daemon/`status()` образец (рассмотрен и отклонён
+  как основной механизм; `status()`-снимок в `/queue` переиспользуется).
+- **adr-0006-merge-gate** / **adr-0003-staging-gate** — образец условности и флагов
+  раската (`*_enabled` + `*_repos`).
+- **adr-0008-staging-image-provenance** — `.deploy-prev-image` / хук-механика отката.
+- **ORCH-8** — петля уроков (потребитель `16-post-deploy-log.md`).
+- **ORCH-54** — будущий полный авто (включая авто-approve отката self), по аналогии
+  с авто-deploy.
--- a/docs/work-items/ORCH-021/07-infra-requirements.md
+++ b/docs/work-items/ORCH-021/07-infra-requirements.md
@@ -0,0 +1,56 @@
+# 07 — Инфраструктурные требования (ORCH-021)
+
+> Топология НЕ меняется. Фича опирается на уже существующие HTTP-эндпоинты прода и
+> существующий деплой-хук. Этот документ фиксирует, какие инфра-предпосылки должны
+> выполняться, чтобы наблюдение и реакция работали.
+
+## 1. Топология — без изменений
+- Прод `orchestrator` (8500), staging `orchestrator-staging` (8501), один сервер
+  mva154 (см. `docs/operations/INFRA.md`). Новых контейнеров/портов/сервисов нет.
+- Наблюдение — внутрипроцессный reserved-agent job в worker'е прод-контейнера.
+  Daemon-потоков не добавляется (в отличие от reconciler).
+
+## 2. Наблюдаемый прод — HTTP-эндпоинты
+- Монитор опрашивает `post_deploy_base_url` (дефолт `http://localhost:8500`):
+  - `GET /health` → ожидается HTTP 200 + тело `{"status":"ok"}` (BR-2);
+  - `GET /status`, `GET /queue` → учёт доли HTTP 5xx (BR-2).
+- Эндпоинты уже существуют (`src/main.py`). Новых эндпоинтов фича НЕ вводит
+  (out-of-scope APM/метрики).
+- Для self-hosting `base_url=localhost:8500` означает: монитор бьёт по собственному
+  контейнеру. Это допустимо для MVP (см. риск R-1 в `10-tech-risks.md`).
+
+## 3. Деплой-хук `--rollback` — предпосылки реакции
+- Реакция ROLLBACK (только не-self + `post_deploy_auto_rollback=True`) вызывает
+  `scripts/orchestrator-deploy-hook.sh --rollback` с прод-env (переиспользуются
+  `deploy_prod_*`: `TARGET_SERVICE`/`TARGET_PORT`/`TARGET_IMAGE`/`COMPOSE_PROFILE`/
+  `PREV_IMAGE_FILE`), по образцу `self_deploy.build_deploy_command`.
+- Предпосылка: при штатном деплое хук сохраняет предыдущий образ в
+  `PREV_IMAGE_FILE` (`.deploy-prev-image-prod`). Без снимка → хук вернёт exit 1
+  («нет prev-образа») → `ROLLBACK_FAILED` + алерт (AC-9). Контракт exit-кодов хука
+  (0/1/2) НЕ меняется.
+- **Self-hosting:** откат прод-орка хуком в тике ЗАПРЕЩЁН (контейнер не откатит себя,
+  умирая). Если оператор по алерту решит откатить — только detached host-процесс
+  (ssh + setsid, механика `self_deploy.initiate_deploy`), как у Phase B самодеплоя.
+  Предпосылки для detached-пути (ssh-доступ host, shared-mount state-dir) уже
+  выполнены для ORCH-36; в MVP detached-откат self вне тика наблюдения.
+
+## 4. Restart-safe состояние — shared mount
+- Состояние наблюдения — sentinel-файлы под `.post-deploy-state-<repo>/<wi>/`
+  (`armed`, `series`, `done`) на том же mount `settings.repos_dir`, что и
+  `.deploy-state-*` (ORCH-36). Миграции БД нет (см. `08-data-requirements.md`).
+- `requeue_running_jobs` (ORCH-1) восстанавливает claimed `post-deploy-monitor` job
+  после рестарта; `series` хранит счётчики опросов → наблюдение продолжается
+  с того же места (BR-7/AC-15).
+
+## 5. Конфигурация окружения (env `ORCH_*`)
+Новые ключи (дефолты безопасны, в `.env`/`.env.staging` по необходимости):
+`post_deploy_monitor_enabled` (kill-switch, дефолт true), `post_deploy_repos` (CSV,
+пусто → self-hosting), `post_deploy_window_s` (900), `post_deploy_interval_s` (30),
+`post_deploy_fail_threshold` (3), `post_deploy_5xx_threshold` (0.5),
+`post_deploy_auto_rollback` (false), `post_deploy_base_url` (localhost:8500).
+Параметры отката — существующие `deploy_prod_*`, новых дублей не вводить.
+
+## 6. Чего НЕ требуется
+- Новых контейнеров, портов, сетевых правил, секретов.
+- Prometheus / Grafana / APM (out-of-scope).
+- Изменений compose-топологии или деплой-пути не-self репо.
--- a/docs/work-items/ORCH-021/08-data-requirements.md
+++ b/docs/work-items/ORCH-021/08-data-requirements.md
@@ -0,0 +1,40 @@
+# 08 — Требования к данным / схеме БД (ORCH-021)
+
+## Вывод: миграция БД НЕ требуется
+Состояние наблюдения хранится в **sentinel-файлах** (restart-safe, без миграции —
+по образцу ORCH-36/53/58), а не в таблицах. Реестры и схема не меняются (AC-12).
+
+## 1. Существующие таблицы — без изменений
+- `events`, `tasks`, `agent_runs`, `jobs` — структура не меняется.
+- В `tasks` НЕ вводится колонка статуса/окна наблюдения (намеренно — миграция на
+  проде = риск, как обосновано в adr-0007; альтернатива отклонена в ADR-001 §Альтернативы).
+
+## 2. Очередь `jobs` — переиспользование, без схемы
+- `post-deploy-monitor` — новый **job-kind** (значение в существующей колонке
+  `agent`/`task_content`), НЕ новая колонка. Ставится через существующий
+  `enqueue_job(..., available_at_delay_s=...)` (ORCH-1).
+- Счётчик тиков/деферов восстанавливается из jobs-очереди (как
+  `_deploy_finalize_defer_count` считает по `task_content LIKE`), restart-safe.
+
+## 3. Sentinel-состояние (файлы, не БД)
+State-dir `.post-deploy-state-<repo>/<work_item_id>/` на `settings.repos_dir`
+(по образцу `.deploy-state-*`):
+| Файл | Назначение |
+|------|------------|
+| `armed` | наблюдение заармлено (идемпотентность арма; калька `INITIATED`) |
+| `series` | JSON-список результатов опросов (счётчики health-fail / 5xx; restart-safe) |
+| `done` | наблюдение завершено (защита от повторной обработки) |
+
+Все обращения — never-raise (по образцу `self_deploy.has_marker`/`write_marker`/
+`read_result`). Отсутствие/битость файла → консервативный фоллбэк, не исключение.
+
+## 4. Артефакт `16-post-deploy-log.md` — файл репозитория, не БД
+Машиночитаемый YAML-frontmatter (`post_deploy_status`, `action_taken`, `window_s`,
+`checks_total`, `checks_failed`) пишется best-effort в `docs/work-items/<id>/`; в БД
+не реплицируется. Источник для петли уроков ORCH-8 (BR-10).
+
+## 5. Очистка состояния
+По завершении окна / реакции `done`-маркер ставится; state-dir можно чистить
+best-effort (по образцу `self_deploy.clear_state`) — необязательно для корректности,
+но желательно для гигиены. Stale-`armed` без `done` после краха → виден в `/queue`
+как «активное наблюдение» и доигрывается восстановленным job'ом.
--- a/docs/work-items/ORCH-021/10-tech-risks.md
+++ b/docs/work-items/ORCH-021/10-tech-risks.md
@@ -0,0 +1,20 @@
+# 10 — Технические риски (ORCH-021)
+
+| # | Риск | Вероятн. | Влияние | Митигация |
+|---|------|----------|---------|-----------|
+| R-1 | **Монитор self бежит внутри наблюдаемого прода.** Полностью wedged прод-контейнер → worker не выполнит тик → деградация не замечена, алерта нет. | Сред. | Высок. | Known MVP limitation (зафиксировано в ADR-001 §Последствия). Health в момент рестарта (хук) + reconciler ловят часть случаев. Внешний независимый watchdog — follow-up (вне рамок). |
+| R-2 | **Ложный авто-rollback** по сетевому глюку. | Низк. | Высок. | Пороги по N ПОСЛЕДОВАТЕЛЬНЫХ провалов + доля 5xx на окне (BR-3/AC-6), а не разовый провал. Self ВСЕГДА `ALERT_ONLY` (BR-5). `auto_rollback=False` по умолчанию. |
+| R-3 | **Авто-rollback прод-орка убивает инструмент всех проектов.** | Низк. | Критич. | Структурный инвариант: тик self НИКОГДА не откатывает/рестартит прод-контейнер (AC-8). Self → только alert + ручной approve. Откат self — только detached host-процесс вне тика. |
+| R-4 | **Нет prev-образа** при ROLLBACK → откат невозможен. | Сред. | Сред. | Хук возвращает exit 1 → `ROLLBACK_FAILED` + громкий алерт (AC-9), деградация не проглатывается тихо. |
+| R-5 | **Дубль/потеря наблюдения** при двойном webhook / рестарте. | Сред. | Сред. | Идемпотентность: sentinel `armed` (арм-гард) + `done` (защита от повторной обработки) + restart-safe jobs-очередь + `series` (AC-15). По образцу finalizer. |
+| R-6 | **Исключение в наблюдении роняет worker / конвейер других проектов.** | Низк. | Высок. | Контракт never-raise во всём `post_deploy.py` и `run_post_deploy_monitor` (AC-16), по образцу `self_deploy`/`staging_verdict`. |
+| R-7 | **Тик занимает single-worker** (`max_concurrency=1`) → задержка других задач. | Низк. | Низк. | Опрос короткий (~секунды), между тиками job не выполняется (defer через `available_at_delay_s`) — worker свободен, как у finalizer. Окно bounded (`window_s/interval_s`). |
+| R-8 | **Скрытое изменение контракта** (реестры/гейты/exit-коды/схема). | Низк. | Высок. | Инвариант: `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_deploy_status`/terminal-sync/merge-gate/exit-коды/схема БД НЕ меняются (AC-12). Существующие тесты deploy/staging/merge-gate должны остаться зелёными. |
+| R-9 | **5xx на `/queue`/`/status` из-за самого монитора** (рекурсивная нагрузка). | Низк. | Низк. | Интервал `post_deploy_interval_s` (30с) — низкая частота; опрос лёгкий GET. |
+| R-10 | **Артефакт `16-post-deploy-log.md` не пишется / невалиден** → петля уроков без данных. | Низк. | Низк. | Best-effort запись с валидным frontmatter (AC-13); отсутствие файла ничего не роняет. Парсинг — defensive. |
+
+## Эскалация
+- Изменение помечено `arch:major-change` (новая под-компонента `src/post_deploy.py`
+  + новый reserved-agent job-kind `post-deploy-monitor`).
+- R-1 (gap наблюдения для wedged self-контейнера) — кандидат на отдельную задачу
+  (внешний watchdog), вне рамок ORCH-021.