architect(ET): auto-commit from architect run_id=317

This commit is contained in:
2026-06-07 15:07:45 +00:00
committed by Dev Agent
parent b760b24a48
commit 9f846b5a50
8 changed files with 507 additions and 4 deletions

View File

@@ -0,0 +1,260 @@
# ADR-001 (ORCH-065): Job-reaper + проактивный реклейм merge-lease + идемпотентная финализация merge
## Статус
Accepted — 2026-06-07
Связь со сквозным ADR: [docs/architecture/adr/adr-0011-job-reaper-lease-reclaim.md](../../../architecture/adr/adr-0011-job-reaper-lease-reclaim.md).
## Контекст
Оркестратор — единый инстанс с **общей БД и общей очередью** (`jobs`,
`max_concurrency=1` для self-hosting). BRD/ТЗ фиксируют три связанных класса
отказов «процесс/поток умер, а состояние осталось захваченным навсегда»:
- **A — zombie jobs.** Статус job (`done`/`queued`/`failed`) выставляется ТОЛЬКО
в `launcher._monitor_agent``_finalize_job` внутри того же процесса. Смерть
monitor-потока/процесса между `proc.wait()` и `_finalize_job` (краш, OOM,
self-restart во время deploy) оставляет строку `jobs` навсегда `running`.
Единственная защита — `requeue_running_jobs()`, срабатывает ТОЛЬКО на старте
процесса. Зомби без рестарта не реанимируется никогда. При `max_concurrency=1`
одна зомби-строка блокирует claim всех job (`count_running_jobs() >=
max_concurrency`) → встаёт конвейер ВСЕХ проектов. Доказано: jobs 236/239/242/254
(07.06).
- **B — залипший merge-lease.** Файловый lease `.merge-lease-<repo>.json`
(ORCH-043) реклеймится **лениво и только по возрасту** (`age >=
merge_lock_timeout_s`) и **только** в момент `acquire_merge_lease` другой
задачей. Liveness держателя по pid не проверяется, хотя pid в lease пишется.
Смерть с зажатым lease блокирует чужие merge до истечения TTL.
- **C — неидемпотентная финализация merge.** Если rebase+re-test зелёные, но
процесс умер до фактического merge PR — повторного докатывания нет; дорогая
работа (rebase+re-test) сделана, а задача висит.
Факты кода, на которых строится решение:
- `_spawn` (launcher.py:401) создаёт `subprocess.Popen(["bash","-c",cmd])`;
`proc.pid` — pid агентского процесса, дочернего к процессу оркестратора в ОДНОМ
pid-namespace контейнера. Сейчас `jobs.pid` НЕ хранится.
- `_monitor_agent` (launcher.py:541) порядок: `proc.wait()` → запись
`agent_runs.finished_at/exit_code` → git commit/push (+PR) → БАГ-8 deployer
rollback → usage-комменты → `_try_advance_stage` (exit0, gate-driven advance)
`_finalize_job` (драйв статуса job по контракту attempts/transient).
- `claim_next_job` (db.py:454) — атомарный claim через `UPDATE ... WHERE id=? AND
status='queued'` + `rowcount` (образец атомарности).
- `reconciler.py` — образец фонового daemon-потока (never-raise, `_stop`-Event,
старт/стоп в `main.lifespan`, снимок в `/queue`, kill-switch).
- `merge_gate.py`: lease пишет `pid=os.getpid()` (pid процесса оркестратора, НЕ
агента), `acquired_at`; `release_merge_lease` уже holder-aware (по `branch`) и
идемпотентен; `acquire_merge_lease` идемпотентен для «held by self» (по branch).
- `is_self_hosting_repo` / `merge_gate_repos` — образец условности (ORCH-35/43).
## Решение
### Р-1. Job-reaper — отдельный daemon-поток `src/job_reaper.py`
Reaper — **новый модуль и отдельный daemon-поток** (НЕ расширение reconciler).
Обоснование: reconciler работает на уровне **stage-transition** (источник истины —
гейт/Plane); reaper работает на уровне **jobs/agent_runs** (источник истины —
liveness процесса). Это разные never-raise-домены и разные kill-switch'и; слияние
в один тик смешало бы ответственности. Reaper копирует проверенный каркас
`Reconciler`: `threading.Thread(daemon=True)` + `threading.Event`, старт/стоп в
`main.lifespan`, снимок в `/queue`, per-job изоляция исключений.
**Liveness — трёхуровневая (defense in depth):**
1. **Tier-1 (liveness, основной): мёртвый pid.** Добавляем колонку `jobs.pid`
(см. Р-4). В `_spawn` рядом с `run_id`/`started_at` пишем `proc.pid`. Reaper:
`pid_alive(pid)` = `os.kill(pid, 0)` с обработкой `ProcessLookupError` (мёртв)
/ `PermissionError` (жив, чужой) — единственный сигнал, ловящий «monitor умер
ДО записи `finished_at`».
2. **Tier-2 (completion race): exit_code записан, job ещё `running`.** Если у
`agent_runs[run_id]` есть `finished_at`/`exit_code`, а `jobs.status='running'`
— monitor умер между записью exit_code и `_finalize_job`. Здесь исход **известен**.
3. **Tier-3 (backstop по потолку):** job висит `running` дольше
`reaper_max_running_s` (заведомо > max `agent_timeout`+grace). Реап даже когда
liveness определить нельзя (pid переиспользован/неизвестен).
**Анти-ложноположительность (FR-1.3, AC-3):** по Tier-1 job реапится только после
`reaper_dead_ticks` (≥2) ПОДРЯД тиков мёртвого pid — in-memory streak-счётчик по
`job_id` (best-effort, сбрасывается на рестарте — но рестарт покрыт стартовым
`requeue_running_jobs`). Tier-3 — одношаговый (порог времени, streak не нужен).
Живой агент в пределах своего `agent_timeout` НЕ реапится никогда (pid жив + не
превышен потолок).
**Действие при подтверждённой смерти (FR-1.2, AC-4) — переиспользование
существующих контрактов, без дублирования:**
- **Атомарный reap-claim.** Перед любым действием с побочными эффектами reaper
атомарно «застолбляет» строку тем же приёмом, что `claim_next_job`: терминальный
flip несёт guard `WHERE id=? AND status='running'` и проверяет `rowcount`. При
гонке (поздно доехавший monitor, стартовый `requeue_running_jobs`) проигравший
видит `rowcount==0` и НЕ обрабатывает строку повторно (AC-5).
- **Исход известен (Tier-2, exit_code в `agent_runs`):** маршрутизируем через
существующий `launcher._finalize_job(job_id, agent, run_id, exit_code,
output_path)`:
- `exit==0`: **gate-driven idempotent advance.** Сначала проверяем, не
продвинулась ли уже стадия (текущая `tasks.stage` ≠ исходная стадия агента
или активного job нет и гейт уже пройден) → если да, просто `mark_job(done)`
(идемпотентная уборка, без дубль-перехода). Если нет — `_try_advance_stage`
(он сам гоняет канонический QG: артефакт/PR есть → зелёный гейт → advance;
нет → красный гейт → НЕ advance), затем `_finalize_job`. **Источник истины —
гейт, не «exit0»** — это исключает ложный `done` без реально выполненной
работы (если monitor умер ДО git-push, артефакта нет → гейт красный →
переходим к ветке «исход неуспешен» ниже).
- `exit!=0`: ровно существующий контракт `_finalize_job` (классификация
transient/permanent, `attempts<max` → `queued`, иначе `failed`+Telegram).
- **Исход неизвестен (Tier-1 мёртвый pid без exit_code, или Tier-3 backstop):**
не выдумываем `exit0`. Если `attempts < max_attempts` → `queued` (как
`requeue_running_jobs`); если бюджет исчерпан → `failed` + Telegram-алерт.
**Restart-safe (FR-1.5, AC-5):** reaper стартует в `lifespan` ПОСЛЕ
`requeue_running_jobs()`, поэтому при рестарте сначала отрабатывает стартовый
requeue, а периодический reaper лишь добивает то, что возникнет позже; атомарный
guard `status='running'` исключает двойную обработку.
### Р-2. Проактивный реклейм stale/dead merge-lease — функции в `merge_gate.py`
Логика lease живёт в одном месте (`merge_gate.py`). Добавляем:
- `pid_alive(pid) -> bool` (never-raise; ошибка/`PermissionError` → считаем
«жив», т.е. консервативно НЕ реклеймим — безопаснее не трогать).
- `reclaim_stale_lease(repo) -> bool` — для репо из области (см. ниже): прочитать
lease; освободить (`release_merge_lease(repo, branch=holder_branch)` —
holder-aware), если держатель **мёртв** (`pid` из lease не жив) ИЛИ **просрочен**
(`age >= merge_lock_timeout_s`). Живой держатель в пределах TTL — НЕ трогать
(AC-8, защита легитимного merge). Каждый реклейм → `logger.warning` +
Telegram.
**Точки вызова (FR-2.1):**
- на старте — в `lifespan` рядом с `requeue_running_jobs()`;
- периодически — из тика reaper (один общий фоновый поток на оба механизма A и B).
**Условность (FR-2.4, AC-9):** реально только для `merge_gate_repos`/self-hosting
(тот же предикат, что merge-gate); прочие репо — no-op. Kill-switch
`lease_reclaim_enabled` (=false → остаётся лишь прежний ленивый TTL-реклейм в
`acquire_merge_lease`). Контракт **never-raise**: ошибка реклейма логируется и не
валит поток.
**pid-семантика lease:** lease пишет pid процесса ОРКЕСТРАТОРА (`os.getpid()`).
После рестарта контейнера старый pid мёртв → детектируется. Риск pid-reuse
(контейнер мог переиспользовать номер pid) закрыт тем, что реклейм срабатывает по
**ИЛИ** (pid мёртв **ИЛИ** TTL истёк): даже при ложном «жив» TTL добьёт lease
(контракт ORCH-043 сохранён). См. 10-tech-risks.
### Р-3. Идемпотентная финализация merge (Проблема C) — re-drive + guard, без новой merge-логики
Per FR-3.3 — НЕ создаём дублирующую merge-логику. Восстановление обеспечивается
**штатными путями**:
- reaper доводит зомби-job до `queued` → стадия `deploy-staging`/`deploy`
переисполняется и снова проходит `check_branch_mergeable` (merge-gate), ЛИБО
reconciler доигрывает переход по зелёному гейту;
- дорогие шаги не повторяются «вхолостую»: `branch_is_behind_main == False` → этап
rebase+re-test пропускается (ветка уже догнана);
- lease при повторе берётся заново — `acquire_merge_lease` уже идемпотентен для
«held by self» по branch (FR-3.4).
**Идемпотентность у самого merge (FR-3.2, AC-11):** добавляем детерминированный
never-raise guard `pr_already_merged(repo, branch) -> bool` (переиспользует
существующий Gitea-клиент; запрос состояния PR). Путь слияния (deployer/merge)
консультируется с этим guard ПЕРЕД повторным merge: PR уже слит → no-op (без
второго merge и без ошибки). Это единственная новая «merge-related» функция — она
не сливает, а лишь читает состояние, поэтому не нарушает «no duplicate merge
logic».
### Р-4. Изменение схемы БД — `jobs.pid INTEGER` (lightweight migration)
Колонка добавляется идемпотентно через существующий `_ensure_column(conn, "jobs",
"pid", "INTEGER")` в `init_db` (паттерн уже применяется к `jobs.transient_attempts`
/ `jobs.available_at` — безопасно на live prod DB). `pid` проставляется в `_spawn`
рядом с `run_id`/`started_at`. **Альтернатива без миграции отвергнута** (см.
Альтернативы): только по `agent_runs.finished_at/exit_code` нельзя поймать
зомби, у которого monitor умер ДО записи exit_code — а это и есть основной класс
инцидента. `STAGE_TRANSITIONS`, `QG_CHECKS`, схема `agent_runs`, файл-схема lease —
без изменений.
### Р-5. Конфигурация (`src/config.py`, env `ORCH_*`)
| Настройка | Назначение | Дефолт |
|-----------|-----------|--------|
| `reaper_enabled` | глобальный kill-switch job-reaper | `True` |
| `reaper_interval_s` | период сканирования | `60` |
| `reaper_dead_ticks` | подряд тиков мёртвого pid перед реапом (Tier-1) | `2` |
| `reaper_max_running_s` | потолок `running` (Tier-3 backstop), > max agent_timeout+grace | `3600` |
| `lease_reclaim_enabled` | kill-switch проактивного реклейма lease | `True` |
| (reuse) `merge_lock_timeout_s` | TTL lease | `300` |
| (reuse) `merge_gate_repos` | область применения lease-reclaim | как есть |
`false` → строго прежнее поведение (AC-14).
### Р-6. Наблюдаемость (`GET /queue`)
Блок `reaper` (образец `reconcile`/`post_deploy`): `enabled`, `interval`,
`last_run_ts`, `reaped_total`, `last_reaped` (`{job_id, agent, outcome}`),
`lease_reclaimed_total`. Каждый reap и lease-reclaim → `logger.warning` с
идентификаторами (`job_id`, `run_id`, `pid`, `repo`, `branch`). reap→`failed` и
lease-reclaim → Telegram (AC-16).
### Р-7. Lifespan (`src/main.py`)
Старт (после существующего `requeue_running_jobs()`):
```
init_db() # + _ensure_column(jobs, pid)
... orphan-recovery (M-1) ...
requeue_running_jobs()
+ startup lease-reclaim # reclaim_stale_lease для merge_gate_repos
worker.start()
reconciler.start()
+ reaper.start() # НОВЫЙ daemon-поток (A + периодический B)
```
Стоп (reverse): `reaper.stop()` → `reconciler.stop()` → `worker.stop()`.
## Альтернативы
- **Reaper как часть reconciler** — отвергнуто: смешивает stage-уровень и
jobs-уровень, два разных kill-switch'а в одном тике, хуже изоляция отказов.
- **Без `jobs.pid`, только эвристика `agent_runs` + потолок** — отвергнуто как
основной механизм: не ловит зомби, чей monitor умер ДО записи `exit_code`
(главный класс инцидента). Эвристика оставлена как Tier-2/Tier-3 поверх pid.
- **БД-lock вместо файлового lease / внешний брокер очередей** — вне объёма
(BRD §4), несоразмерно для single-node SQLite.
- **Реаниматор фабрикует `exit0` и форсит `done`** — отвергнуто: ложный `done`
без реальной работы (если git-push не случился). Выбран gate-driven advance:
источник истины — канонический QG, не предположение об успехе.
- **Новый статус `reaping` в enum `jobs.status`** — отвергнуто: меняет контракт
статусов; атомарного guard `WHERE status='running'` достаточно.
## Последствия
**Плюсы:**
- Зомби-job самовосстанавливается БЕЗ рестарта процесса → очередь не встаёт
(групповой риск снят для всех проектов общего инстанса).
- Залипший lease освобождается проактивно (старт + период), не дожидаясь TTL и
чужого acquire.
- Незавершённый merge докатывается штатным путём, идемпотентно; ручные шаги
оператора устранены → снят технический блокер ORCH-54.
- Контракты неизменны (`STAGE_TRANSITIONS`, `QG_CHECKS`, `check_*`, БАГ-8,
exit-коды хука); один новый столбец через проверенный idempotent-паттерн.
**Минусы / ограничения:**
- pid-liveness валиден в предположении ОДНОГО pid-namespace (агент — дочерний
процесс оркестратора в том же контейнере). Multi-container/namespaced pid →
pid-liveness ненадёжен; закрыто backstop'ом по времени и TTL. См. 10-tech-risks.
- streak-счётчик in-memory best-effort: после рестарта он сбрасывается, но
стартовый `requeue_running_jobs` покрывает рестарт-сценарий.
- Tier-3 backstop консервативен (потолок > max timeout); очень долгий легитимный
агент (близко к потолку) теоретически может быть реапнут — потолок выбран с
большим запасом, чтобы этого не случалось (AC-3).
## Инварианты (НЕ нарушать)
- Reaper/lease-reclaim НЕ рестартят/не роняют прод-контейнер `orchestrator` и НЕ
инициируют git-push в `main` (AC-12). Реклейм lease — только удаление
файла-lease, без git-операций.
- `STAGE_TRANSITIONS`, реестр `QG_CHECKS`, сигнатуры/поведение `check_*` (в т.ч.
`check_branch_mergeable`), БАГ-8 откат, exit-коды deploy-хука — без изменений;
новых QG checks/стадий нет (AC-13).
- never-raise на единицу фоновой работы; идемпотентность (атомарный guard +
gate-driven advance); restart-safe; тишина при отсутствии аномалий.
- Анти-ложноположительность (FR-1.3): живой долгий агент не реапится.
## Связи
- Базируется на: ORCH-1 (очередь, adr-0002), ORCH-043 (merge-gate, adr-0006),
ORCH-053 (reconciler-паттерн, adr-0007), ORCH-36 (self-deploy, adr-0007).
- Сквозной ADR: adr-0011.
- Разблокирует: ORCH-54 (полностью автономный self-deploy).

View File

@@ -0,0 +1,42 @@
# 07 — Требования к инфраструктуре (ORCH-065)
## Топология
**Без изменений.** Новых контейнеров, портов, сетевых сервисов, внешних
зависимостей нет. Job-reaper — ещё один фоновый daemon-поток ВНУТРИ существующего
процесса оркестратора (как `queue_worker` и `reconciler`), стартует/останавливается
в `main.lifespan`. Деплой/рестарт прод-контейнера в рамках задачи НЕ требуется и
ЗАПРЕЩЁН (self-hosting safety) — выкатка через штатный `deploy-staging → deploy`.
## Допущение pid-namespace (важно для liveness-детекции)
- Агент запускается как `subprocess.Popen(["bash","-c",cmd])` — **дочерний
процесс оркестратора в ТОМ ЖЕ pid-namespace** (один контейнер). Значит
`os.kill(jobs.pid, 0)` корректно отражает liveness агента, пока жив сам
оркестратор. Это инвариант текущей упаковки (один контейнер на инстанс).
- Lease пишет `pid = os.getpid()` — pid ПРОЦЕССА ОРКЕСТРАТОРА. После рестарта
контейнера старый pid мёртв → детектируется. Риск переиспользования номера pid
новым процессом закрыт условием «pid мёртв **ИЛИ** TTL истёк»: TTL добивает
lease в любом случае (контракт ORCH-043 сохранён).
- **Если в будущем агенты переедут в отдельные контейнеры/namespace** — Tier-1
pid-liveness станет ненадёжной; тогда полагаемся на Tier-2 (exit_code) и Tier-3
(потолок `reaper_max_running_s`). Зафиксировано в 10-tech-risks.
## Поведение при self-restart (ORCH-36 executable self-deploy)
Self-restart прод-контейнера во время `deploy` — ровно тот сценарий, что плодит
зомби: monitor-поток умирает вместе со старым контейнером. После рестарта:
1. стартовый `requeue_running_jobs()` + стартовый `reclaim_stale_lease` чистят
состояние, оставшееся от убитого процесса;
2. периодический reaper добивает то, что возникнет позже без рестарта.
Reaper/lease-reclaim сами НИКОГДА не рестартят и не роняют прод-контейнер и не
делают git-push в `main` (AC-12).
## Эксплуатационные ручки (env, хост `.env`/`.env.staging`)
`ORCH_REAPER_ENABLED`, `ORCH_REAPER_INTERVAL_S`, `ORCH_REAPER_DEAD_TICKS`,
`ORCH_REAPER_MAX_RUNNING_S`, `ORCH_LEASE_RECLAIM_ENABLED`; переиспользуются
`ORCH_MERGE_LOCK_TIMEOUT_S`, `ORCH_MERGE_GATE_REPOS`. Все флаги документируются в
`.env.example` (developer-стадия). Полное отключение (`false`) → строго прежнее
поведение.
## Документация эксплуатации
`docs/operations/INFRA.md` — добавить (best-effort, developer/PR) короткое
упоминание поведения reaper/lease-reclaim при self-restart. Топологическая карта
INFRA.md не меняется.

View File

@@ -0,0 +1,29 @@
# 08 — Требования к данным (ORCH-065)
## Изменение схемы: `jobs.pid`
| Поле | Значение |
|------|----------|
| Таблица | `jobs` |
| Колонка | `pid` |
| Тип | `INTEGER` (nullable, без DEFAULT) |
| Назначение | pid агентского процесса (`subprocess.Popen.pid` из `launcher._spawn`) для liveness-детекции зомби job-reaper'ом (Tier-1) |
| Механизм миграции | `_ensure_column(conn, "jobs", "pid", "INTEGER")` в `db.init_db` — идемпотентно, no-op если колонка уже есть |
| Безопасность на live prod DB | ДА. Тот же паттерn уже применён к `jobs.transient_attempts`, `jobs.available_at`, `events.delivery_id`, `agent_runs.*`. `ALTER TABLE ADD COLUMN` в SQLite — мгновенная метаданная-операция, не блокирует и не переписывает строки |
| Заполнение | в `_spawn` рядом с существующим `UPDATE jobs SET run_id=?, started_at=datetime('now') WHERE id=?` добавить `pid=?` (`proc.pid`). Старые строки остаются `pid IS NULL` → для них Tier-1 неприменим, работают Tier-2/Tier-3 |
## Что НЕ меняется
- `STAGE_TRANSITIONS`, реестр `QG_CHECKS` — без изменений (это контракты).
- Схема `agent_runs` — без изменений (`finished_at`/`exit_code` уже есть — основа Tier-2).
- Файл-схема merge-lease `.merge-lease-<repo>.json` — без изменений (`pid`,
`acquired_at`, `branch`, `work_item_id`, `task_id` уже пишутся
`acquire_merge_lease`).
- `jobs.status` enum (`queued|running|done|failed`) — без изменений; новый статус
`reaping` НЕ вводится (атомарного guard `WHERE status='running'` достаточно).
## Совместимость / откат
- Откат миграции не требуется: лишняя nullable-колонка безвредна при
`reaper_enabled=false`.
- `pid IS NULL` (строки до миграции, или если запись pid не успела) → reaper не
делает Tier-1, опирается на Tier-2 (exit_code) и Tier-3 (потолок). Поведение
деградирует gracefully, ложноположительных реапов не возникает.

View File

@@ -0,0 +1,22 @@
# 10 — Технические риски (ORCH-065)
| # | Риск | Вероятн. | Влияние | Митигация |
|---|------|----------|---------|-----------|
| R-1 | **Ложноположительный реап живого долгого агента** (AC-3). Reaper помечает зомби работающий агент → потеря работы, дубль-запуск. | Сред. | Высокое | Tier-1 требует `reaper_dead_ticks`(≥2) подряд тиков мёртвого pid; живой pid = `os.kill(pid,0)` без `ProcessLookupError`. Tier-3 потолок `reaper_max_running_s` выбирается заведомо > max `agent_timeout`+grace. Юнит-тест TC-02/TC-03. |
| R-2 | **Ложный `done` без выполненной работы.** Reaper при exit0-зомби помечает job done, хотя git-push/advance не случились (monitor умер до них). | Сред. | Высокое | Реап exit0 НЕ форсит done напрямую — идёт через **gate-driven** `_try_advance_stage`: канонический QG проверяет наличие артефакта/PR; нет артефакта → красный гейт → НЕ advance → ветка «исход неуспешен» (requeue). Источник истины — гейт, не «exit0». |
| R-3 | **pid-reuse / namespace.** Номер pid переиспользован новым процессом → ложное «жив» (lease не реклеймится; зомби-job не реапится по Tier-1). | Низк. | Сред. | Lease: условие «pid мёртв **ИЛИ** TTL истёк» — TTL добивает в любом случае. Job-reaper: Tier-3 backstop по времени ловит то, что Tier-1 пропустил. Допущение «один pid-namespace» зафиксировано в 07-infra. |
| R-4 | **Гонка reaper vs поздно доехавший monitor / стартовый `requeue_running_jobs`** → двойная обработка строки. | Сред. | Сред. | Атомарный reap-claim `UPDATE ... WHERE id=? AND status='running'` + проверка `rowcount` (образец `claim_next_job`). Reaper стартует ПОСЛЕ `requeue_running_jobs` в lifespan. Юнит-тест TC-06. |
| R-5 | **Реклейм живого lease** → параллельный конфликтный merge, риск красного `main` self-hosting. | Низк. | Высокое | `reclaim_stale_lease` освобождает ТОЛЬКО при «держатель мёртв ИЛИ TTL истёк»; живой держатель в пределах TTL не трогается. holder-aware `release_merge_lease(repo, branch)`. Юнит-тест TC-12. |
| R-6 | **Реклейм инициирует git-операцию / трогает прод-контейнер** (нарушение self-hosting safety, AC-12). | Низк. | Высокое | Реклейм = только удаление файла-lease (`os.remove`), без git. Reaper не вызывает деплой-хук/рестарт. Явный инвариант в ADR + тест/ревью. |
| R-7 | **Идемпотентность merge не достигнута**: повторный проход стадии делает второй merge уже слитого PR. | Сред. | Сред. | never-raise guard `pr_already_merged(repo,branch)` (читает состояние PR) консультируется перед merge → уже слит = no-op. `branch_is_behind_main==False` пропускает rebase+re-test. Юнит-тест TC-16, интеграция TC-17. |
| R-8 | **streak-счётчик in-memory теряется при рестарте** → задержка реапа или сброс прогресса. | Низк. | Низкое | Рестарт-сценарий покрыт стартовым `requeue_running_jobs` (мгновенно чистит running). Периодический reaper нужен лишь для зомби БЕЗ рестарта; сброс счётчика лишь переоткладывает реап на `reaper_dead_ticks` тиков. |
| R-9 | **never-raise нарушен** — необработанное исключение валит daemon-поток reaper → защита тихо отключается. | Низк. | Сред. | Per-job изоляция `try/except` (образец `reconciler.reconcile_gate_once`) + внешний `try/except` в `_run`. Юнит-тест TC-08/TC-14. |
| R-10 | **Регресс существующих тестов** merge_gate/queue/reconciler/deploy. | Низк. | Сред. | Контракты неизменны (`STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/exit-коды хука); только новая колонка + новый поток + флаги (дефолт сохраняет поведение). Полный прогон `pytest tests/ -q` (regression в 04-test-plan). |
## Открытые вопросы / follow-up
- **Полная автоматизация merge-финализации.** Если деплой-merge (deployer/ORCH-36
detached host-process) окажется не полностью идемпотентным к повторному проходу,
может понадобиться доп. работа поверх `pr_already_merged`. Здесь закрываем
технический блокер; полный авто-approve деплоя — ORCH-54.
- Допущение «агенты — дочерние процессы в одном pid-namespace» (R-3) должно быть
пересмотрено, если упаковка агентов изменится (отдельные контейнеры).