architect(ET): auto-commit from architect run_id=687
All checks were successful
CI / test (push) Successful in 3m18s

This commit is contained in:
2026-06-15 09:40:46 +03:00
parent c4f3ca6111
commit f8460bd3d1
5 changed files with 579 additions and 1 deletions

View File

@@ -447,13 +447,47 @@ Self-hosting зацикливался на `deploy-staging`: `scripts/staging_ch
Назначение: ветка валидируется относительно того `main`, из которого создана; параллельная задача могла уйти вперёд → семантический конфликт слияния (зелёная ветка ломает обновлённый `main`). Merge-gate гарантирует проверку против **актуального** `origin/main` перед слиянием:
- **Догон:** ветка отстаёт (⇔ `origin/main` не предок HEAD) → `rebase origin/main` в worktree + `push --force-with-lease` (ТОЛЬКО ветка задачи; `main` — никогда). Текстовый конфликт → `rebase --abort` → откат на `development`.
- **Безусловный pre-merge rebase (ORCH-026, A-2):** при `premerge_rebase_always` (дефолт `True`, скоуп `merge_gate_repos`) short-circuit `branch_is_behind_main` пропускается — `auto_rebase_onto_main` вызывается **всегда** под лизом. На актуальной ветке это no-op (`rebase` не меняет HEAD, `push --force-with-lease` → «Everything up-to-date», CI не триггерится); на отстающей — реальный догон. Детерминированный структурный анти-фантом на уровне планировщика (дополняет рубежи ORCH-073, не заменяет). Kill-switch `premerge_rebase_always=False` → прежнее поведение (ребейз только при behind).
- **Re-test:** `python -m pytest` (`merge_retest_target`, дефолт `tests/`) в worktree догнанной ветки, тайм-аут `merge_retest_timeout_s`. Красный/тайм-аут → откат на `development`.
- **Re-test:** `python -m pytest` (`merge_retest_target`, дефолт `tests/`) в worktree догнанной ветки, тайм-аут `merge_retest_timeout_s`. **Красный** → откат на `development`. **ORCH-110 (design):** (1) re-test исполняется лишь когда rebase реально сдвинул HEAD (`main` уехал); доказанный no-op rebase (ветка уже актуальна, HEAD уже прошёл CI+tester+staging) **пропускает** локальный re-test; (2) **таймаут** re-test — инфра-транзиент (ограниченный повтор + отдельный инфра-alert), а НЕ код-фейл (раньше шёл в откат на `development` + расход developer-retry); (3) спавненный pytest бежит в отдельной группе процессов и при таймауте убивается **деревом** (`os.killpg`) — нет осиротевших процессов (см. ниже).
- **Сериализация (merge-lock):** файловый **merge-lease** на репо (`<repos_dir>/.merge-lease-<repo>.json`), живёт от гейта до фактического merge. Acquire **неблокирующий** (anti-deadlock при `max_concurrency=1`): busy → **defer** (повторная постановка deployer'а на `deploy-staging` с задержкой через `available_at`), а не откат. Release — на PR-merged вебхуке / `deploy→done` / откате / по возрасту (crash-реклейм). Restart-safe; без изменения схемы БД. **ORCH-026 (A-1):** это окно = «merge → main-updated» (для self `done` ⇔ SHA-in-main, ORCH-073) — пока A не в `main`, B того же репо получает `merge-lock busy` → defer. Окно сериализации per-repo НЕ переписывается; кросс-репо параллелизм сохранён (лиз — per-repo файл).
- **Условность (как ORCH-35):** реален для `orchestrator`; прочие репо — no-op. Флаги `merge_gate_enabled` / `merge_gate_repos` — поэтапный раскат. Контракт **never-raise**.
Подробнее: [adr-0006](adr/adr-0006-merge-gate.md), детально — `docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md`.
Безусловный pre-merge rebase + связь с зависимостями задач — [adr-0015](adr/adr-0015-task-deps-and-merge-serialization.md) (ORCH-026).
#### Merge-gate re-test: толерантность к инфра-таймауту + tree-kill + контракт re-test (ORCH-110 — design)
Инцидент ORCH-109/PR#129: при зелёном tester `PASS` (1899 passed / 516.7s), зелёном CI и актуальной
ветке локальный re-test merge-gate упал по **таймауту** (600s) из-за CPU-голодания от **осиротевших**
pytest-процессов (жили > 2 суток). Таймаут классифицировался как код-фейл → ложный откат
`deploy-staging → development` + 3 сожжённых developer-retry → manual-gate. ORCH-110 бьёт по двум
корням, одному контракту и бюджету — **аддитивно, под kill-switch, never-raise, скоуп self-hosting**;
исходная защита merge-gate от семантического конфликта сохранена (красный re-test по-прежнему
откатывает). `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict/схема БД — **не тронуты**.
- **Tree-kill (root, D1):** новый leaf `src/proc_group.py::run_in_process_group` спавнит
оркестратор-порождённые pytest-прогоны (`merge_gate.retest_branch` + `coverage_gate.measure_coverage`)
в отдельной группе процессов (`start_new_session`) и при таймауте/прерывании убивает **всё дерево**
(`os.killpg`, каскад SIGTERM→grace→SIGKILL, зеркало `launcher.stop_process`). Контракты возврата 1:1
(меняется лишь побочный эффект — нет сирот); fallback на прежний `subprocess.run` при kill-switch off
/ не-POSIX. Kill-switch `subprocess_tree_kill_enabled`.
- **Классификация + маршрутизация (D2/D3):** чистый `merge_gate.classify_retest_failure(reason) →
timeout|red|lock-busy|other`; инфра-таймаут → `_handle_merge_gate_infra_retry` (ограниченный
повтор/defer по образцу `_handle_merge_gate_defer`, **без** отката на `development`, **без** расхода
developer-retry; исчерпание → отдельный **инфра-alert**, не «developer must fix»); красный re-test →
прежний `_handle_merge_gate_rollback`. Kill-switch `merge_retest_infra_tolerance_enabled`, бюджеты
`merge_retest_infra_max_retries` (2) / `merge_retest_infra_retry_delay_s` (120s).
- **Контракт re-test (D4):** локальный re-test исполняется ⇔ rebase реально сдвинул HEAD; доказанный
no-op rebase пропускает re-test (как уже делает путь `premerge_rebase_always=False` для не-behind
ветки), offline, без сетевого CI-запроса; fail-safe — на неопределённости re-test бежит. Kill-switch
`merge_retest_skip_when_current_enabled`.
- **Бюджет (D5):** `merge_retest_timeout_s` 600 → 900 (запас 74% над 516.7s) + валидация (непозитив →
дефолт + WARNING); сквозной инвариант `reaper_max_running_s (5400) > Σ(deploy-staging gate-work
≈4460)+grace` проверен — `reaper_max_running_s` **не меняется**.
- **Наблюдаемость (D6):** счётчики + блок `merge_gate` в `GET /queue`; координация с ORCH-111
(`proc_blocking`, adr-0041) без дубля: ORCH-110 предотвращает/толерирует у источника, ORCH-111
наблюдает.
Подробнее: [adr-0042](adr/adr-0042-merge-gate-retest-infra-tolerance-and-tree-kill.md), детально —
`docs/work-items/ORCH-110/06-adr/ADR-001-merge-gate-retest-infra-tolerance-and-tree-kill.md`.
### Coverage-гейт: защита от деградации покрытия тестами (ORCH-027 — design)
Существующие тестовые гейты (`check_ci_green`, `check_tests_passed`, merge-gate re-test) судят
только по факту прохождения тестов, не по **полноте** — фича «300 строк, 0 тестов» проходит

View File

@@ -0,0 +1,84 @@
---
work_item: ORCH-110
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-15
model_used: claude-opus-4-8
---
# adr-0042: Merge-gate re-test — толерантность к инфра-таймауту + tree-kill спавненных процессов + контракт re-test
- **Статус:** proposed
- **Дата:** 2026-06-15
- **Задача:** ORCH-110 (bug → escalate full-cycle)
- **Детальный ADR:** `docs/work-items/ORCH-110/06-adr/ADR-001-merge-gate-retest-infra-tolerance-and-tree-kill.md`
- **Парные/смежные ADR:** `adr-0006` (merge-gate ORCH-043), `adr-0040` (timeout-бюджеты ORCH-109),
`adr-0029` (coverage-gate ORCH-027), `adr-0011` (reaper/lease ORCH-065),
`adr-0041` (ORCH-111 `proc_blocking` — комплементарный наблюдатель)
## Контекст
Merge-gate (ORCH-043) на ребре `deploy-staging → deploy` локально пере-прогоняет тест-сюит
(`retest_branch`) для защиты от семантического конфликта слияния. Инцидент ORCH-109/PR#129: при
зелёном tester `PASS` (1899 passed / 516.7s), зелёном CI и актуальной ветке re-test упал по
**таймауту** (600s) из-за CPU-голодания от **осиротевших** pytest-процессов, переживших > 2 суток.
Таймаут классифицировался как код-фейл → откат `deploy-staging → development` + 3 сожжённых
developer-retry → manual-gate. Корни: (1) `subprocess.run(timeout=)` убивает только прямого потомка —
внуки pytest репарентируются на PID 1 и живут (в `merge_gate.retest_branch` и
`coverage_gate.measure_coverage`); (2) нет толерантности к инфра-таймауту; (3) тонкий бюджет (≈16%);
(4) избыточный re-test на уже актуальной ветке (`premerge_rebase_always=True` форсит rebase+retest
даже на no-op rebase).
Решение кросс-каттинговое: затрагивает merge-gate, coverage-gate и сквозной инвариант времени
reaper/lease — поэтому регистрируется глобально.
## Решение (сводка)
Аддитивно, под kill-switch, never-raise, скоуп self-hosting; исходная защита merge-gate от
семантического конфликта сохранена (красный re-test по-прежнему откатывает).
- **D1 — tree-kill.** Новый leaf `src/proc_group.py::run_in_process_group` спавнит
оркестратор-порождённые pytest-прогоны в отдельной группе процессов (`start_new_session`) и при
таймауте убивает **всё дерево** (`os.killpg`, каскад SIGTERM→grace→SIGKILL, зеркало
`launcher.stop_process`). Используют `retest_branch` и `measure_coverage`; контракты возврата 1:1,
меняется лишь побочный эффект (нет сирот). Fallback на прежний `subprocess.run` при kill-switch off
/ не-POSIX. Kill-switch `subprocess_tree_kill_enabled`.
- **D2 — классификация.** Чистый `merge_gate.classify_retest_failure(reason) → timeout|red|lock-busy|
other`; `check_branch_mergeable` не меняет имя/семантику/PASS-FAIL (реестр `QG_CHECKS` цел).
- **D3 — маршрутизация.** Инфра-таймаут → `_handle_merge_gate_infra_retry` (ограниченный повтор/defer
по образцу `_handle_merge_gate_defer`, **без** отката на `development`, **без** расхода
developer-retry); исчерпание → отдельный **инфра-alert** (не «developer must fix»). Красный re-test
→ прежний `_handle_merge_gate_rollback`. Kill-switch `merge_retest_infra_tolerance_enabled`,
бюджеты `merge_retest_infra_max_retries`/`merge_retest_infra_retry_delay_s`.
- **D4 — контракт re-test.** Локальный re-test исполняется ⇔ rebase реально сдвинул HEAD (`main`
уехал); доказанный no-op rebase пропускает re-test (как уже делает путь
`premerge_rebase_always=False` для не-behind ветки), offline, без сетевого CI-запроса. Fail-safe: на
любой неопределённости re-test бежит. Kill-switch `merge_retest_skip_when_current_enabled`.
- **D5 — бюджет.** `merge_retest_timeout_s` 600 → 900 (запас 74%) + валидация (непозитив → дефолт +
WARNING). Сквозной инвариант `reaper_max_running_s (5400) > Σ(deploy-staging gate-work ≈4460)+grace`
проверен — `reaper_max_running_s` **не меняется**.
- **D6 — наблюдаемость.** Счётчики `merge_gate` + блок `merge_gate` в `GET /queue`; координация с
ORCH-111 без дубля (ORCH-110 предотвращает/толерирует у источника, ORCH-111 наблюдает).
## Инварианты (неприкосновенны)
- `STAGE_TRANSITIONS` / реестр `QG_CHECKS` / семантика `check_*` / machine-verdict ключи / схема БД —
**байт-в-байт** (под-гейт — врезка в `advance_stage`, не новая стадия/QG; новых таблиц/колонок нет).
- INV-4: никогда push/force-push `main`, merge только через Gitea PR API; прод-контейнер не
рестартится; detached-деплой не трогается.
- never-raise во всех новых функциях/врезках; исключение не уходит в `advance_stage`/монитор.
- Kill-switch + нулевая регрессия: каждый флаг off → байт-в-байт до-ORCH-110; enduro (non-self) — no-op.
## Последствия
- **+** Устранён ложный откат/manual-gate при инфра-таймауте; устранена утечка CPU от сирот;
re-test не избыточен на актуальной ветке.
- **** До ~34 мин на инфра-ретраи перед alert (вместо мгновенного ложного отката); +5 конфиг-ключей.
- **Откат:** вернуть 4 kill-switch и `merge_retest_timeout_s=600`.
## Ссылки
- Детально: `docs/work-items/ORCH-110/06-adr/ADR-001-merge-gate-retest-infra-tolerance-and-tree-kill.md`
- Код: `src/merge_gate.py`, `src/coverage_gate.py`, `src/qg/checks.py`, `src/stage_engine.py`,
`src/config.py`, `src/agents/launcher.py`, `src/job_reaper.py`, новый `src/proc_group.py`
</content>