Merge pull request 'feat(merge-gate): auto-rebase onto current main + re-test + serialise merges (ORCH-043)' (#54) from feature/ORCH-043-merge-gate-auto-rebase-re-test into main
Some checks failed
CI / test (push) Has been cancelled

This commit was merged in pull request #54.
This commit is contained in:
2026-06-06 21:24:33 +03:00
28 changed files with 2619 additions and 7 deletions

View File

@@ -34,17 +34,29 @@ created → analysis → architecture → development → review → testing →
| deploy | — | `check_deploy_status` | 14-deploy-log.md (`deploy_status:`) |
| done | — | — | — |
**Реестр QG** (`QG_CHECKS`): check_analysis_approved, check_analysis_complete, check_architecture_done, check_ci_green, check_review_approved, check_tests_passed, check_reviewer_verdict, check_tests_local, check_deploy_status, check_staging_status.
**Реестр QG** (`QG_CHECKS`): check_analysis_approved, check_analysis_complete, check_architecture_done, check_ci_green, check_review_approved, check_tests_passed, check_reviewer_verdict, check_tests_local, check_deploy_status, check_staging_status, check_branch_mergeable (ORCH-043).
**Канон гейтов:** машинные вердикты читаются ТОЛЬКО из YAML-frontmatter, никогда из прозы. Лог-файлы мержатся в `origin/main` отдельным PR; гейт читает из `origin/main`.
### Условный staging-гейт (ORCH-35)
`check_staging_status` реален только для self-hosting (`is_self_hosting_repo(repo)``orchestrator`); для остальных проектов → no-op `(True, "Staging gate N/A")`. Для orchestrator парсит `staging_status:` из `15-staging-log.md`; FAILED → откат на `development`. Подробнее: [ADR-0003](adr/adr-0003-staging-gate.md).
### Merge-gate: догон `main` + re-test + сериализация слияний (ORCH-043)
Детерминированный под-гейт (`check_branch_mergeable`, без LLM) на ребре **`deploy-staging → deploy`**: исполняется ПОСЛЕ `check_staging_status` и ДО запуска deployer'а, который вливает PR в `main` (deployer мержит в начале стадии `deploy`). Стадии (`STAGE_TRANSITIONS`) НЕ меняются — это «под-гейт» ребра, а не отдельная стадия (триггер — то же событие «staging-deployer завершился»).
Назначение: ветка валидируется относительно того `main`, из которого создана; параллельная задача могла уйти вперёд → семантический конфликт слияния (зелёная ветка ломает обновлённый `main`). Merge-gate гарантирует проверку против **актуального** `origin/main` перед слиянием:
- **Догон:** ветка отстаёт (⇔ `origin/main` не предок HEAD) → `rebase origin/main` в worktree + `push --force-with-lease` (ТОЛЬКО ветка задачи; `main` — никогда). Текстовый конфликт → `rebase --abort` → откат на `development`.
- **Re-test:** `python -m pytest` (`merge_retest_target`, дефолт `tests/`) в worktree догнанной ветки, тайм-аут `merge_retest_timeout_s`. Красный/тайм-аут → откат на `development`.
- **Сериализация (merge-lock):** файловый **merge-lease** на репо (`<repos_dir>/.merge-lease-<repo>.json`), живёт от гейта до фактического merge. Acquire **неблокирующий** (anti-deadlock при `max_concurrency=1`): busy → **defer** (повторная постановка deployer'а на `deploy-staging` с задержкой через `available_at`), а не откат. Release — на PR-merged вебхуке / `deploy→done` / откате / по возрасту (crash-реклейм). Restart-safe; без изменения схемы БД.
- **Условность (как ORCH-35):** реален для `orchestrator`; прочие репо — no-op. Флаги `merge_gate_enabled` / `merge_gate_repos` — поэтапный раскат. Контракт **never-raise**.
Подробнее: [adr-0006](adr/adr-0006-merge-gate.md), детально — `docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md`.
## Откаты
- Reviewer REQUEST_CHANGES → откат на `development` + retry (`MAX_DEVELOPER_RETRIES = 3`).
- Tester `check_tests_passed` FAIL → откат на `development` + retry.
- Deploy / deploy-staging FAILED → откат на `development`.
- Merge-gate FAIL (конфликт rebase / красный re-test, ORCH-043) → откат на `development` + retry; `merge-lock busy`**defer** (не откат, dev-retry не тратится).
- `get_previous_stage` использует порядок ключей `STAGE_TRANSITIONS`.
### Обогащение `task_desc` при заворотах (ORCH-046)
@@ -97,4 +109,4 @@ created → analysis → architecture → development → review → testing →
Схема БД, потоки данных, resilience-слой, детали Dockerfile — [internals.md](internals.md).
---
*Актуально на 2026-06-05 (main `f1b3146`). Обновлять при изменении src/stages.py, src/qg/checks.py, src/main.py.*
*Актуально на 2026-06-06. Обновлять при изменении src/stages.py, src/qg/checks.py, src/main.py. ORCH-043: merge-gate — design (см. adr-0006), реализация в ветке feature/ORCH-043.*

View File

@@ -10,6 +10,7 @@ Per-work-item решения живут в `docs/work-items/<id>/06-adr/ADR-NNN-
| adr-0003 | Условный staging-гейт перед прод-деплоем | accepted | 2026-06-05 | ORCH-35 |
| adr-0004 | Поллинг с ретраем в check_ci_green (фикс CI-race) | accepted | 2026-06-05 | ORCH-045 |
| adr-0005 | Контейнеры бегут под uid:gid хоста (1000:1000) | accepted | 2026-06-06 | ORCH-040 |
| adr-0006 | Merge-gate (догон main + re-test + сериализация слияний) | proposed | 2026-06-06 | ORCH-043 |
## Формат
**Контекст → Решение → Альтернативы → Последствия → Связи.** Статус: proposed / accepted / superseded.

View File

@@ -0,0 +1,53 @@
# adr-0006: Merge-gate — догон `main` + re-test + сериализация слияний
- **Статус:** proposed
- **Дата:** 2026-06-06
- **Задача:** ORCH-043
- **Детальный ADR:** `docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md`
## Контекст
Ветка валидируется относительно того `main`, из которого создана, а не относительно `main`
на момент слияния. Параллельная задача могла влиться раньше → **семантический конфликт
слияния** (git мержит без текстового конфликта, но `main` сломан). Для self-hosting это
красный `main` инструмента, обслуживающего все проекты. Слияние в `main` делает
deployer-агент в начале стадии `deploy`; замена механизма PR-merge — вне объёма.
## Решение
Детерминированный merge-gate (`check_branch_mergeable`, без LLM) на ребре
`deploy-staging → deploy`, ДО запуска deployer'а, который мержит. `STAGE_TRANSITIONS` не
меняется (минимальный blast-radius); в `QG_CHECKS` добавлен `check_branch_mergeable`.
- **Догон:** ветка отстаёт ⇔ `origin/main` не предок HEAD → `rebase origin/main` в worktree
+ `push --force-with-lease` (ТОЛЬКО ветка задачи; `main` — никогда). Текстовый конфликт →
`rebase --abort` → откат на `development`.
- **Re-test:** `python -m pytest tests/` в worktree догнанной ветки, тайм-аут
`merge_retest_timeout_s`. Красный/тайм-аут → откат на `development`.
- **Сериализация (BR-5):** файловый **merge-lease** на репо
(`<repos_dir>/.merge-lease-<repo>.json`), живёт от гейта до фактического merge.
Acquire **неблокирующий** (anti-deadlock при `max_concurrency=1`): busy → **defer**
(re-enqueue deployer с задержкой через `available_at`), не rollback. Release — на
PR-merged вебхуке / `deploy→done` / откате / по возрасту (crash-реклейм). Restart-safe.
- **Условность (как ORCH-35):** реален для `orchestrator`; прочие репо — no-op. Флаги
`merge_gate_enabled` / `merge_gate_repos` для поэтапного раската.
## Альтернативы
- **Новая стадия `merge-gate`** (кандидат B) — «пустая» стадия без агента не имеет триггера
(`advance_stage` срабатывает только на завершении агента/вебхуке); потребовала бы chaining
в движке (не restart-safe) или синтетический job-тип. Отклонено.
- **Перенос merge в детерминированный шаг оркестратора** (кандидат C) — запрещён объёмом
(замена механизма PR-merge вне scope). Отклонено.
- **Блокирующий lock** — дедлок при одном worker-слоте. Отклонено в пользу defer.
## Последствия
- Сценарий «две зелёные ветки ломают `main`» закрыт: re-test против актуального `main` +
сериализация слияний.
- Плата: merge-gate — «скрытый» под-гейт ребра (нет в `STAGE_TRANSITIONS`); сериализация
опирается на PR-merged вебхук со страховкой реклеймом по возрасту; defer перепрогоняет
staging; длинный re-test держит worker-слот.
- Сквозное изменение конвейера → `arch:major-change`; прод-деплой ORCH-043 строго через
staging-гейт (8501).
## Связи
adr-0001 (`is_self_hosting_repo`), adr-0003 (условный staging-гейт — образец условности),
adr-0002 (очередь / `available_at` для defer), ORCH-2 (worktree-изоляция), ORCH-046
(дословный reason в `task_desc` при откате).

View File

@@ -0,0 +1,7 @@
# Business Request: Безопасная параллель в одном репо: merge-gate + auto-rebase + re-test
Work Item ID: ORCH-043
## Description
TBD

View File

@@ -0,0 +1,114 @@
# 01 — Business Requirements Document (BRD)
**Work Item:** ORCH-043
**Тема:** Безопасная параллель в одном репо: merge-gate + auto-rebase + re-test
**Проект:** orchestrator (self-hosting)
**Автор:** Analyst
**Дата:** 2026-06-06
---
## 1. Контекст и проблема
Оркестратор ведёт несколько work item **параллельно**, каждый в своём изолированном
git worktree / ветке (`feature/ORCH-NNN-slug`, ORCH-2/S-4). Все ветки одного проекта
исходят из общего `origin/main` и в конце конвейера **вливаются обратно в `main`**.
Текущий конвейер валидирует ветку **относительно того состояния `main`, из которого
она была создана**, а не относительно `main` на момент слияния:
- `check_ci_green` (стадия `development`) — CI зелёный **на ветке** (Gitea commit status ветки).
- `check_tests_passed` (стадия `testing`) — вердикт тестировщика по коду **ветки**.
- На стадии `deploy` ветка вливается в `main` (слияние выполняет deployer-агент,
см. `src/webhooks/gitea.py` — комментарий про «deployer merges the PR at the START of its run»).
**Между «ветка проверена» и «ветка влита» `main` мог уйти вперёд** из-за слияния другой
параллельной задачи. Возникает **семантический (логический) конфликт слияния**: git
сливает ветки без текстового конфликта, но объединённый код `main` сломан — тесты,
которые были зелёными на ветке, на обновлённом `main` падают.
### Почему это критично именно здесь (self-hosting)
Проект ORCH правит инструмент, который СЕЙЧАС работает в проде и обслуживает другие
проекты (enduro-trails) из одного инстанса с общей БД и общей очередью (см. `CLAUDE.md`,
`docs/operations/INFRA.md`). Сломанный `main` оркестратора = встал конвейер ВСЕХ проектов.
Две параллельные ORCH-задачи, каждая «зелёная» по отдельности, при последовательном
слиянии способны положить прод.
### Сценарий-иллюстрация
1. Задачи A и B ответвлены от `main@C0`.
2. A проходит конвейер, вливается → `main@C1`.
3. B тестировалась против `C0`; её CI зелёный относительно `C0`. Git-слияние B в `C1`
проходит без текстового конфликта, но `C1` содержит изменения A, ломающие B.
4. `main` становится красным. Конвейер всех проектов деградирует.
---
## 2. Цель
Гарантировать, что ветка вливается в `main` **только если она проверена против
актуального `origin/main`**. Перед слиянием ветка автоматически догоняет `main`
(auto-rebase) и **повторно тестируется** (re-test); зелёный результат на актуальном
`main` — обязательное условие слияния (merge-gate). Слияния в `main` одного репозитория
**сериализуются**, чтобы окно гонки не воспроизводилось между двумя гейтами.
## 3. Заинтересованные стороны
- **Owner / разработчики** — не хотят красный `main` и ручные разборы конфликтов.
- **Все проекты на инстансе** — зависят от живого прод-оркестратора.
- **Агенты конвейера** — получают детерминированный гейт вместо ручной координации.
## 4. Объём (Scope)
### В объёме
1. **Merge-gate** — детерминированный гейт перед слиянием в `main`: пропускает
слияние только если ветка не отстаёт от `origin/main` И повторная проверка зелёная.
2. **Auto-rebase** — если ветка отстаёт от `origin/main`, автоматически догнать `main`
(rebase/merge ветки на актуальный `origin/main`) в worktree и запушить результат.
3. **Re-test** — после auto-rebase повторно прогнать тест-набор на догнанной ветке;
зелёный результат — условие прохода гейта.
4. **Сериализация слияний** — в пределах одного репозитория одновременно «догон+слияние»
выполняет только одна задача (merge-lock), иначе гонка воспроизводится.
5. **Откаты при неуспехе** — текстовый конфликт rebase ИЛИ красный re-test → возврат
задачи на `development` (по образцу существующих откатов) с понятным комментарием.
6. **Конфигурируемость** — пороги/тайм-ауты re-test и поведение гейта вынесены в `settings`.
### Вне объёма
- Изменение логики стадий `analysis` / `architecture` / `review`.
- Замена самого механизма слияния PR в Gitea (UI/настройки репозитория).
- Реальные прод-деплои (остаются за `scripts/orchestrator-deploy-hook.sh`).
- Кросс-репозиторная сериализация (гейт защищает `main` каждого репо отдельно).
## 5. Бизнес-требования (BR)
| ID | Требование |
|----|------------|
| BR-1 | Перед слиянием ветки в `main` оркестратор обязан проверить, что ветка содержит последний `origin/main` (не отстаёт). |
| BR-2 | Если ветка отстаёт — оркестратор автоматически догоняет её до `origin/main` без участия человека (auto-rebase). |
| BR-3 | После догона тест-набор повторно прогоняется; слияние разрешено только при зелёном результате (re-test). |
| BR-4 | Текстовый конфликт при auto-rebase или красный re-test НЕ приводит к слиянию: задача откатывается на `development` для ручного фикса. |
| BR-5 | В пределах одного репозитория «догон+проверка+слияние» сериализуются: две задачи не могут одновременно пройти merge-gate и влиться. |
| BR-6 | Гейт детерминированный (Python/гит-команды + код тестов), а не доверие LLM-агенту. |
| BR-7 | Гейт обязателен минимум для self-hosting репозитория `orchestrator`; применим к любому репо с параллельными задачами. |
| BR-8 | Все события гейта (догон, re-test, проход/откат) логируются и отражаются комментарием в Plane, без рассинхрона стадий. |
## 6. Критерии успеха
- Воспроизводимый ранее сценарий «две зелёные ветки ломают `main`» более не приводит
к красному `main`: вторая ветка либо догоняется и проходит re-test, либо откатывается.
- Прод-контейнер `orchestrator` не перезапускается и не падает в рамках задачи.
- Реестр гейтов и стадий остаётся консистентным (snapshot-тесты обновлены осознанно).
## 7. Риски и ограничения
- **Гонка между двумя гейтами** — снимается merge-lock (BR-5); без него фикс неполон.
- **Долгий re-test** — нужен тайм-аут и понятный откат, а не вис задачи.
- **Force-push догнанной ветки** — допустим только `--force-with-lease` и только по
own-ветке задачи; никогда по `main`.
- **Self-hosting** — любые изменения не должны ронять/рестартить прод-оркестратор;
обязательная страховка стадией `deploy-staging` (порт 8501) сохраняется.
- Окончательное место встройки в конвейер (новая стадия / гейт существующего перехода /
шаг перед слиянием) — **решение архитектора** (ADR), BRD фиксирует требуемое поведение.
## 8. Связанные артефакты
- `02-trz.md` — техническое задание (модули, гейт, конфиг, точки встройки).
- `03-acceptance-criteria.md` — критерии приёмки PASS/FAIL.
- `04-test-plan.yaml` — план тестов.
- Контекст кода: `src/qg/checks.py`, `src/stage_engine.py`, `src/git_worktree.py`,
`src/agents/launcher.py`, `src/webhooks/gitea.py`, `src/stages.py`, `src/config.py`.

View File

@@ -0,0 +1,161 @@
# 02 — Техническое задание (ТЗ)
**Work Item:** ORCH-043
**Тема:** merge-gate + auto-rebase + re-test (безопасная параллель в одном репо)
**Автор:** Analyst
> ТЗ описывает ТРЕБУЕМОЕ поведение и конкретные точки изменения кода. Окончательный
> выбор места встройки в конвейер (новая стадия vs гейт существующего перехода vs шаг
> перед слиянием) и детали reconciliation — **за архитектором** (ADR в `06-adr/`).
> Если ТЗ окажется нереализуемым — вернуть на стадию `analysis`, не комментировать задним числом.
---
## 1. Задействованные модули `src/`
| Модуль | Роль в изменении |
|--------|------------------|
| `src/merge_gate.py` (**новый**) | Ядро фичи: ancestor-check, auto-rebase, re-test, merge-lock. Чистые функции + git-операции в worktree. |
| `src/qg/checks.py` | Новый QG-check `check_branch_mergeable` (merge-gate) + регистрация в `QG_CHECKS`. Переиспользует паттерн `check_tests_local` (pytest в worktree) и `_repo_path`. |
| `src/stages.py` | Встройка merge-gate в `STAGE_TRANSITIONS` (точное место — за архитектором; см. §6). |
| `src/stage_engine.py` | Ветка отката merge-gate → `development` в `_handle_qg_failure_rollbacks` + диспетчеризация нового check в `_run_qg`. |
| `src/git_worktree.py` | Возможные хелперы: проверка «behind origin/main», rebase, push `--force-with-lease`. Не ломать сигнатуры `ensure_worktree` / `get_worktree_path`. |
| `src/config.py` | Новые `settings`: тайм-аут re-test, вкл/выкл гейта, политика отстающей ветки, тайм-аут lock. |
| `src/agents/launcher.py` | Если merge-gate встраивается как шаг перед слиянием на стадии `deploy` — точка, где deployer запускается, может потребовать координации с lock (за архитектором). |
| `tests/` | Новые тесты (см. `04-test-plan.yaml`) + обновление snapshot-тестов реестра/стадий. |
## 2. Функциональные требования к `src/merge_gate.py`
Предлагаемый публичный контракт (имена финализирует архитектор; поведение обязательно):
### 2.1 `branch_is_behind_main(repo, branch) -> bool`
- `git fetch origin main` в main-clone/worktree (best-effort, never-raise → трактуем
как «не удалось определить» и НЕ пропускаем слияние вслепую).
- Ветка считается отстающей, если `origin/main` **не** является предком HEAD ветки
(`git merge-base --is-ancestor origin/main <branch>` → ненулевой код).
### 2.2 `auto_rebase_onto_main(repo, branch) -> (ok: bool, reason: str)`
- Выполняется в изолированном worktree ветки (`ensure_worktree`), НЕ в общем clone.
- Догнать ветку до `origin/main` (rebase либо merge — выбор архитектора; критично:
результат содержит весь `origin/main` и историю/изменения ветки).
- **Текстовый конфликт** → отменить операцию (`git rebase --abort` / `git merge --abort`),
worktree оставить чистым, вернуть `(False, "rebase conflict: <файлы>")`.
- **Чистый догон** → `git push --force-with-lease origin <branch>` (ТОЛЬКО ветка задачи,
НИКОГДА `main`). Вернуть `(True, ...)`.
- Контракт never-raise: любая git/OS-ошибка → `(False, "<reason>")`, не исключение.
### 2.3 `retest_branch(repo, branch) -> (ok: bool, reason: str)`
- Прогнать тест-набор проекта в worktree догнанной ветки. Канон — как в
`check_tests_local`: `python -m pytest` (точная команда/каталог — за архитектором,
согласованно с CI-конфигом `.gitea/workflows/`).
- Тайм-аут `settings.merge_retest_timeout_s`; превышение → `(False, "re-test timeout")`.
- Возврат: `(True, "re-test green")` при коде 0, иначе `(False, "re-test failed: <tail>")`.
### 2.4 Merge-lock (сериализация, BR-5)
- Реализовать межзадачную сериализацию «догон+re-test+слияние» в пределах одного `repo`.
- Допустимые реализации (выбор архитектора): файловый lock в `repos_dir`, advisory-lock,
либо строка-замок в SQLite. Требования: restart-safe, с тайм-аутом
`settings.merge_lock_timeout_s`, корректное освобождение при ошибке/падении.
- Под локом: повторно сверить «не отстаёт» ПОСЛЕ захвата (double-check), т.к. `main`
мог уйти, пока ждали lock.
## 3. Новый QG-check (`src/qg/checks.py`)
```
check_branch_mergeable(repo, work_item_id, branch) -> tuple[bool, str]
```
Поведение (детерминированно, без участия LLM):
1. Захватить merge-lock для `repo` (с тайм-аутом). Не удалось → `(False, "merge-lock busy")`.
2. Если ветка не отстаёт от `origin/main``(True, "branch up-to-date with main")`.
3. Иначе `auto_rebase_onto_main`:
- конфликт → `(False, "rebase conflict: ...")`;
- успех → `retest_branch`:
- зелёный → `(True, "rebased onto main, re-test green")`;
- красный/тайм-аут → `(False, "re-test failed after rebase: ...")`.
4. Освободить lock в `finally`.
- Зарегистрировать в `QG_CHECKS` под ключом `"check_branch_mergeable"`.
- Контракт never-raise (как у соседних чеков): исключение → `(False, "<reason>")`.
> **Опционально (за архитектором):** флаг `settings.merge_gate_enabled`; при `False`
> чек возвращает `(True, "merge-gate disabled")` (безопасный no-op для постепенного
> раскатывания, по образцу условного staging-гейта ORCH-35).
## 4. Изменения схемы БД
- **Не требуется** для базовой реализации (lock через файл/advisory).
- ЕСЛИ архитектор выберет lock через SQLite — добавить таблицу/строку-замок миграцией,
совместимой с текущей инициализацией `src/db.py` (никаких ломающих изменений `tasks`,
`agent_runs`, `jobs`, `events`). Это решение фиксируется в ADR.
## 5. Изменения API
- Новых HTTP-эндпоинтов **не требуется**.
- Допустимо (не обязательно) расширить `GET /status` или `GET /queue` индикатором
«merge-gate: rebasing/re-testing/locked» для наблюдаемости — на усмотрение архитектора,
без изменения существующих контрактов ответов.
## 6. Точки встройки в конвейер (требование + кандидаты)
**Требование:** merge-gate отрабатывает как можно ближе к фактическому слиянию в `main`
и ДО него. Слияние ветки в `main` НЕ должно происходить в обход гейта.
Кандидаты (окончательно — ADR архитектора):
- **(A)** Гейт на переходе `deploy-staging → deploy` или новый под-гейт перед слиянием:
deployer вливает PR на стадии `deploy`, поэтому проверка «догнать+re-test» логично
встаёт непосредственно перед запуском deployer.
- **(B)** Новая стадия `merge-gate` между `deploy-staging` и `deploy` с агентом=None и
`qg="check_branch_mergeable"`.
- **(C)** Перенести само слияние в `main` из ответственности deployer-агента в
детерминированный шаг оркестратора, защищённый merge-gate (более крупное изменение).
При любом варианте, меняющем `STAGE_TRANSITIONS` или `QG_CHECKS`:
- обновить `docs/architecture/README.md` (таблица стадий + реестр QG, §«Конвейер»);
- обновить snapshot-тесты `tests/test_qg_registry_snapshot.py`
(`_EXPECTED_QGS`, `_EXPECTED_TRANSITIONS`) — осознанно, в этом же PR;
- сохранить порядок ключей `STAGE_TRANSITIONS` (от него зависит `get_previous_stage`).
## 7. Откаты (интеграция со `stage_engine`)
В `_handle_qg_failure_rollbacks` добавить ветку для merge-gate FAIL по образцу
`check_staging_status` / `check_deploy_status`:
- `update_task_stage(task_id, "development")`, `set_issue_blocked(work_item_id)`;
- комментарий в Plane (`plane_add_comment`, author="deployer" или системный) с причиной
(конфликт rebase / красный re-test) — дословный `reason` гейта;
- Telegram-алерт (`send_telegram`);
- учитывать `MAX_DEVELOPER_RETRIES`, не плодить бесконечные заворот-циклы.
- В `_run_qg` добавить диспетчеризацию `check_branch_mergeable` с сигнатурой
`(repo, work_item_id, branch)` (как у артефактных чеков).
## 8. Изменения конфигурации (`src/config.py`, env-префикс `ORCH_`)
| Setting | Назначение | Дефолт (предложение) |
|---------|-----------|----------------------|
| `merge_gate_enabled: bool` | Глобальный вкл/выкл гейта | `True` |
| `merge_retest_timeout_s: int` | Тайм-аут повторного прогона тестов | `600` |
| `merge_lock_timeout_s: int` | Тайм-аут ожидания merge-lock | `300` |
| `merge_gate_repos: str` | (опц.) ограничить гейт списком репо; пусто = все | `""` |
Значения и имена финализирует архитектор; задокументировать в `.env.example` и
`docs/architecture/README.md`.
## 9. Требования к наблюдаемости / документации (golden source)
- Обновить `docs/architecture/README.md`: описание merge-gate, auto-rebase, re-test,
merge-lock; при изменении стадий/реестра — соответствующие таблицы.
- Обновить `CHANGELOG.md`.
- Завести ADR `docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md` (механизм догона,
выбор rebase vs merge, реализация lock, место встройки).
- Все ветки кода — с лог-сообщениями (`logger.info/warning/error`) по образцу соседних
гейтов, чтобы поведение читалось в `/app/data/runs` и логах сервиса.
## 10. Нефункциональные требования
- **Безопасность self-hosting:** никогда не push в `main`; force только `--force-with-lease`
по ветке задачи; прод-контейнер `orchestrator` не рестартить/не ронять.
- **Изоляция:** все git-операции — в worktree ветки (`ensure_worktree`), не в общем clone,
чтобы не словить S-4-гонку параллельных задач.
- **Идемпотентность/restart-safe:** lock и гейт корректно ведут себя при рестарте сервиса.
- **Never-raise** контракт у всех новых чеков/парсеров (как в текущем `src/qg/checks.py`).
- **Совместимость:** не менять сигнатуры/поведение существующих QG-чеков и вебхуков.
## 11. Артефакты pipeline, которые должны быть созданы/обновлены
- `src/merge_gate.py` (новый), изменения в `src/qg/checks.py`, `src/stages.py`,
`src/stage_engine.py`, `src/config.py`, при необходимости `src/git_worktree.py`.
- Новые тесты в `tests/` + обновлённые snapshot-тесты.
- `docs/architecture/README.md`, `CHANGELOG.md`, `.env.example`,
`docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md`.

View File

@@ -0,0 +1,105 @@
# 03 — Критерии приёмки (Acceptance Criteria)
**Work Item:** ORCH-043 — merge-gate + auto-rebase + re-test
**Автор:** Analyst
Каждый критерий имеет однозначное условие PASS/FAIL. Все критерии должны быть PASS.
---
## AC-1 — Ветка актуальна: гейт пропускает без догона
- **Дано:** ветка содержит последний `origin/main` (не отстаёт).
- **Когда:** выполняется `check_branch_mergeable(repo, work_item_id, branch)`.
- **PASS:** возвращает `(True, ...)` с причиной «up-to-date», auto-rebase НЕ запускается,
ветка не пушится повторно.
- **FAIL:** возвращает `False`, либо выполняет ненужный rebase/push.
## AC-2 — Ветка отстаёт + чистый догон + зелёный re-test → проход
- **Дано:** ветка отстаёт от `origin/main`; rebase проходит без текстового конфликта;
тест-набор на догнанной ветке зелёный.
- **Когда:** выполняется merge-gate.
- **PASS:** ветка догнана до `origin/main`, запушена `--force-with-lease`, re-test зелёный,
гейт возвращает `(True, ...)`.
- **FAIL:** гейт возвращает `False` при чистом догоне и зелёном re-test, либо `main` тронут,
либо push выполнен НЕ через `--force-with-lease`.
## AC-3 — Текстовый конфликт rebase → откат на development, без слияния
- **Дано:** auto-rebase упирается в текстовый конфликт.
- **Когда:** выполняется merge-gate.
- **PASS:** rebase отменён (worktree чист), гейт возвращает `(False, "rebase conflict...")`,
задача переведена на `development`, в Plane — комментарий с причиной, слияния в `main` нет.
- **FAIL:** ветка осталась в конфликтном состоянии, или задача продвинулась к слиянию,
или `main` изменён.
## AC-4 — Красный re-test после догона → откат на development, без слияния
- **Дано:** rebase чистый, но тесты на догнанной ветке падают.
- **Когда:** выполняется merge-gate.
- **PASS:** гейт возвращает `(False, "re-test failed after rebase...")`, задача на
`development`, комментарий в Plane, слияния нет.
- **FAIL:** гейт вернул `True`, либо слияние произошло при красном re-test.
## AC-5 — Сериализация слияний (merge-lock)
- **Дано:** две задачи одного `repo` одновременно подходят к merge-gate.
- **Когда:** обе пытаются пройти гейт.
- **PASS:** «догон+re-test+слияние» выполняет одновременно только одна задача; вторая
ждёт освобождения lock (в пределах `merge_lock_timeout_s`), после чего повторно
сверяет «не отстаёт» и при необходимости догоняется. Воспроизводимый сценарий
«две зелёные ветки ломают main» НЕ приводит к красному `main`.
- **FAIL:** обе задачи параллельно проходят гейт и вливаются, воспроизводя гонку.
## AC-6 — Re-test тайм-аут управляем
- **Дано:** re-test превышает `settings.merge_retest_timeout_s`.
- **PASS:** прогон прерывается, гейт возвращает `(False, "re-test timeout...")`, задача
не виснет, идёт штатный откат.
- **FAIL:** задача висит дольше тайм-аута или падает с необработанным исключением.
## AC-7 — Никогда не push/merge в main напрямую из гейта
- **PASS:** код merge-gate не выполняет `git push ... main` и не форс-пушит `main`;
force-операции — только `--force-with-lease` по ветке задачи.
- **FAIL:** найден любой push/force-push в `main` из логики гейта.
## AC-8 — Изоляция в worktree
- **PASS:** все git-операции гейта идут в worktree ветки (`get_worktree_path` /
`ensure_worktree`), а не в общем `/repos/<repo>` clone.
- **FAIL:** rebase/тесты выполняются в общем clone, создавая S-4-гонку.
## AC-9 — Контракт never-raise
- **Дано:** недоступен git/сеть, бит worktree, отсутствует ветка и т.п.
- **PASS:** `check_branch_mergeable` и функции `merge_gate.py` возвращают `(False, "<reason>")`
(или безопасный фоллбэк), НИКОГДА не пробрасывают исключение в `advance_stage`.
- **FAIL:** любое необработанное исключение всплывает из гейта.
## AC-10 — Реестр QG и снапшоты консистентны
- **PASS:** `"check_branch_mergeable"` зарегистрирован в `QG_CHECKS` и callable;
`tests/test_qg_registry_snapshot.py` (`_EXPECTED_QGS`, при изменении стадий —
`_EXPECTED_TRANSITIONS`) обновлены и зелёные; порядок ключей `STAGE_TRANSITIONS`
сохранён (не сломан `get_previous_stage`).
- **FAIL:** дрейф реестра/стадий без обновления снапшотов; красные snapshot-тесты.
## AC-11 — Интеграция отката в stage_engine
- **PASS:** в `_handle_qg_failure_rollbacks` есть ветка merge-gate FAIL → `development`
с уведомлениями (Plane + Telegram) и учётом `MAX_DEVELOPER_RETRIES`; `_run_qg`
корректно диспетчеризует новый чек.
- **FAIL:** FAIL гейта не приводит к откату, или нет уведомления, или зацикливание заворотов.
## AC-12 — Условный no-op / выключение (если реализовано)
- **Дано:** `settings.merge_gate_enabled = False` (или репо вне `merge_gate_repos`).
- **PASS:** гейт возвращает `(True, "merge-gate disabled")`, конвейер работает как прежде.
- **FAIL:** гейт блокирует/ломает конвейер при выключенном флаге.
## AC-13 — Документация обновлена (golden source)
- **PASS:** обновлены `docs/architecture/README.md` (merge-gate/auto-rebase/re-test,
при изменении — таблицы стадий/реестра), `CHANGELOG.md`, `.env.example` (новые
`ORCH_*` настройки); создан ADR `06-adr/ADR-001-merge-gate.md`.
- **FAIL:** функционал изменён, документация/ADR/CHANGELOG не обновлены (Reviewer →
REQUEST_CHANGES).
## AC-14 — Безопасность self-hosting
- **PASS:** в рамках задачи прод-контейнер `orchestrator` (8500) не рестартился и не падал;
изменения не трогают `.env*`, `docker-compose.yml`, прод-инфраструктуру; страховка
стадией `deploy-staging` сохранена.
- **FAIL:** любой рестарт/падение прод-оркестратора или правка прод-инфры в рамках задачи.
## AC-15 — Зелёный регресс
- **PASS:** `pytest tests/ -q` зелёный целиком (новые тесты ORCH-043 + существующий набор).
- **FAIL:** любой упавший/сломанный существующий тест.

View File

@@ -0,0 +1,163 @@
work_item: ORCH-043
title: "merge-gate + auto-rebase + re-test — безопасная параллель в одном репо"
framework: pytest
notes: >
Тесты на git-операции используют локальные временные репозитории (init bare "origin"
+ рабочая ветка), мокают сеть/Plane/Telegram (как в tests/test_qg.py:
ORCH_DB_PATH/ORCH_REPOS_DIR в tmp, httpx замокан). Каталог тестов/команда pytest для
re-test должны совпадать с CI-конфигом проекта. Финальные имена функций/модулей сверять
с реализацией архитектора.
tests:
# ---- merge_gate core: ancestor / behind detection ----
- id: TC-01
type: unit
description: "branch_is_behind_main → True, когда origin/main ушёл вперёд относительно ветки"
module: tests/test_merge_gate.py
expected: PASS
- id: TC-02
type: unit
description: "branch_is_behind_main → False, когда ветка уже содержит весь origin/main"
module: tests/test_merge_gate.py
expected: PASS
- id: TC-03
type: unit
description: "branch_is_behind_main never-raise: недоступный git/clone → безопасный возврат, не исключение"
module: tests/test_merge_gate.py
expected: PASS
# ---- auto-rebase ----
- id: TC-04
type: unit
description: "auto_rebase_onto_main: чистый догон → (True), ветка содержит origin/main, push выполнен через --force-with-lease"
module: tests/test_merge_gate.py
expected: PASS
- id: TC-05
type: unit
description: "auto_rebase_onto_main: текстовый конфликт → rebase отменён (worktree чист), (False, 'rebase conflict...'), main не тронут"
module: tests/test_merge_gate.py
expected: PASS
- id: TC-06
type: unit
description: "auto_rebase_onto_main НЕ пушит и не форс-пушит main ни при каком исходе (проверка вызванных git-команд)"
module: tests/test_merge_gate.py
expected: PASS
# ---- re-test ----
- id: TC-07
type: unit
description: "retest_branch: pytest rc=0 → (True, 're-test green')"
module: tests/test_merge_gate.py
expected: PASS
- id: TC-08
type: unit
description: "retest_branch: pytest rc!=0 → (False, 're-test failed...') с хвостом вывода"
module: tests/test_merge_gate.py
expected: PASS
- id: TC-09
type: unit
description: "retest_branch: превышен merge_retest_timeout_s → (False, 're-test timeout...'), без виса"
module: tests/test_merge_gate.py
expected: PASS
# ---- merge-lock / сериализация ----
- id: TC-10
type: unit
description: "merge-lock: второй захват того же repo не проходит, пока lock удержан; освобождается в finally/после ошибки"
module: tests/test_merge_gate.py
expected: PASS
- id: TC-11
type: unit
description: "merge-lock restart-safe: устаревший/осиротевший lock не блокирует навсегда (тайм-аут merge_lock_timeout_s)"
module: tests/test_merge_gate.py
expected: PASS
# ---- QG check_branch_mergeable ----
- id: TC-12
type: unit
description: "check_branch_mergeable: ветка актуальна → (True, 'up-to-date'), rebase не вызывался"
module: tests/test_qg_merge_gate.py
expected: PASS
- id: TC-13
type: unit
description: "check_branch_mergeable: отстаёт + чистый rebase + зелёный re-test → (True)"
module: tests/test_qg_merge_gate.py
expected: PASS
- id: TC-14
type: unit
description: "check_branch_mergeable: конфликт rebase → (False, 'rebase conflict...')"
module: tests/test_qg_merge_gate.py
expected: PASS
- id: TC-15
type: unit
description: "check_branch_mergeable: красный re-test после догона → (False, 're-test failed after rebase...')"
module: tests/test_qg_merge_gate.py
expected: PASS
- id: TC-16
type: unit
description: "check_branch_mergeable never-raise: внутренняя ошибка → (False, reason), не исключение; lock освобождён"
module: tests/test_qg_merge_gate.py
expected: PASS
- id: TC-17
type: unit
description: "merge_gate_enabled=False (или репо вне merge_gate_repos) → (True, 'merge-gate disabled') no-op"
module: tests/test_qg_merge_gate.py
expected: PASS
# ---- реестр QG / стадии ----
- id: TC-18
type: unit
description: "'check_branch_mergeable' присутствует в QG_CHECKS и callable"
module: tests/test_qg_registry_snapshot.py
expected: PASS
- id: TC-19
type: unit
description: "snapshot STAGE_TRANSITIONS/_EXPECTED_QGS обновлён осознанно и совпадает; порядок ключей сохранён (get_previous_stage не сломан)"
module: tests/test_qg_registry_snapshot.py
expected: PASS
# ---- интеграция со stage_engine (откаты) ----
- id: TC-20
type: integration
description: "_run_qg диспетчеризует check_branch_mergeable с сигнатурой (repo, work_item_id, branch)"
module: tests/test_stage_engine.py
expected: PASS
- id: TC-21
type: integration
description: "merge-gate FAIL → advance_stage откатывает задачу на 'development', set_issue_blocked, комментарий Plane, Telegram-алерт (моки)"
module: tests/test_stage_engine.py
expected: PASS
- id: TC-22
type: integration
description: "merge-gate FAIL уважает MAX_DEVELOPER_RETRIES — нет бесконечного цикла заворотов"
module: tests/test_stage_engine.py
expected: PASS
- id: TC-23
type: integration
description: "merge-gate PASS → задача продвигается к слиянию/деплою, рассинхрона стадий нет"
module: tests/test_stage_engine.py
expected: PASS
# ---- сквозной сценарий гонки ----
- id: TC-24
type: integration
description: >
Воспроизведение бизнес-сценария: A и B от main@C0; A влита (main@C1);
B проходит merge-gate → догоняется до C1 и re-test зелёный → безопасное слияние;
при красном re-test B откатывается, main остаётся зелёным
module: tests/test_merge_gate_race.py
expected: PASS
# ---- конфигурация ----
- id: TC-25
type: unit
description: "Новые ORCH_* настройки (merge_gate_enabled, merge_retest_timeout_s, merge_lock_timeout_s, merge_gate_repos) читаются с дефолтами и env-override"
module: tests/test_config.py
expected: PASS
# ---- регресс ----
- id: TC-26
type: integration
description: "Полный набор pytest tests/ -q зелёный (существующие гейты/вебхуки/стадии не сломаны)"
module: tests/
expected: PASS

View File

@@ -0,0 +1,235 @@
# ADR-001: Merge-gate + auto-rebase + re-test (безопасная параллель в одном репо)
## Статус
Proposed
> Решение архитектора по ТЗ ORCH-043 (`02-trz.md`). Реализует BR-1..BR-8, удовлетворяет
> AC-1..AC-15. Глобальный сквозной аналог — `docs/architecture/adr/adr-0006-merge-gate.md`.
---
## Контекст
Конвейер валидирует ветку относительно того `main`, из которого она была создана, а не
относительно `main` на момент слияния. Между «ветка проверена» и «ветка влита» `main` мог
уйти вперёд из-за слияния другой параллельной задачи → **семантический конфликт слияния**:
git сливает без текстового конфликта, но объединённый код `main` сломан. Для self-hosting
(`orchestrator`) это = красный `main` инструмента, обслуживающего ВСЕ проекты из одного
инстанса с общей БД/очередью.
Ключевые факты текущей архитектуры, влияющие на решение (проверено по коду):
1. **Где происходит слияние в `main`.** Ветку в `main` вливает **deployer-агент в начале
своего запуска на стадии `deploy`** (см. `src/webhooks/gitea.py:336-353` — комментарий
«deployer merges the PR at the START of its run»). Замена самого механизма слияния PR
в Gitea — **вне объёма** (BRD §4). Значит, merge остаётся PR-merge через deployer.
2. **Как запускается deployer стадии `deploy`.** При прохождении `check_staging_status`
на стадии `deploy-staging` движок (`stage_engine.advance_stage`) переводит задачу
`deploy-staging → deploy` и запускает `get_agent_for_stage("deploy-staging") = deployer`.
Этот deployer и делает merge. Значит **merge-gate обязан отработать на ребре
`deploy-staging → deploy`, ДО запуска этого deployer'а**.
3. **Чем триггерится QG.** `advance_stage` вызывается ТОЛЬКО при (а) завершении
LLM-агента (`launcher._try_advance_stage`) или (б) приходе вебхука. **Стадия без агента
не имеет собственного триггера** (стадия `deploy` оценивается, когда заканчивает
deployer, исполняющийся ВО ВРЕМЯ неё). Поэтому новая «пустая» стадия `merge-gate`
между `deploy-staging` и `deploy` зависла бы без триггера (нужен был бы chaining в
движке либо синтетический job — лишняя и не-restart-safe поверхность).
4. **Concurrency.** `max_concurrency` по умолчанию `1`; QG исполняется в monitor-thread
агента. Блокирующее ожидание lock внутри `advance_stage` при одном worker-слоте даёт
**дедлок** (задача B держит слот, ожидая merge задачи A, которой нужен тот же слот).
Сериализация обязана быть **неблокирующей**.
---
## Решение
### 1. Место встройки — ребро `deploy-staging → deploy` (кандидат A ТЗ §6), без новой стадии
Merge-gate — детерминированный шаг в `advance_stage`, исполняемый **после** прохождения
`check_staging_status` и **до** `update_task_stage(deploy)` / запуска deployer'а, который
мержит. `STAGE_TRANSITIONS` **не меняется** (минимальный blast-radius; `get_previous_stage`
не затрагивается; snapshot `_EXPECTED_TRANSITIONS` без изменений). В реестр `QG_CHECKS`
добавляется один ключ `check_branch_mergeable` (snapshot `_EXPECTED_QGS` обновляется
осознанно, AC-10).
Отвергнутые варианты:
- **(B) Новая стадия `merge-gate`** — концептуально честнее, но «пустая» стадия без агента
не имеет триггера (см. Контекст §3). Потребовала бы chaining в `advance_stage`
(не restart-safe для безагентного перехода) или синтетический job-тип в очереди
(поверхность в `launcher`/`queue_worker`, который сейчас умеет только LLM-агентов).
- **(C) Перенос merge в детерминированный шаг оркестратора** — прямо запрещён объёмом
(BRD §4: «Замена механизма слияния PR в Gitea — вне объёма»).
Триггер гейта — **существующее** событие «staging-deployer завершился» → отдельного
механизма триггера не вводим.
### 2. Догон ветки — `rebase` onto `origin/main` + `push --force-with-lease`
Выбор `rebase` (а не merge-commit) обусловлен критериями приёмки AC-2/AC-7, которые прямо
требуют `push --force-with-lease` догнанной ветки. Алгоритм `auto_rebase_onto_main`:
1. `git fetch origin main` в worktree ветки (`ensure_worktree`, AC-8 — изоляция).
2. `branch_is_behind_main`: ветка отстаёт ⇔ `git merge-base --is-ancestor origin/main <HEAD>`
вернул ненулевой код. Не удалось определить (git/сеть) → трактуем как «не пропускаем
вслепую» (never-raise → `(False, reason)`), НЕ как «up-to-date».
3. Не отстаёт → `(True, "branch up-to-date with main")`, rebase/push **не выполняются** (AC-1).
4. Отстаёт → `git rebase origin/main`:
- **текстовый конфликт** → `git rebase --abort`, worktree чист → `(False, "rebase conflict: <файлы>")` (AC-3);
- **чистый rebase** → `git push --force-with-lease origin <branch>` (**ТОЛЬКО ветка задачи; НИКОГДА `main`**, AC-7) → далее re-test.
5. Контракт **never-raise**: любая git/OS-ошибка → `(False, "<reason>")` (AC-9).
`main` гейтом не пушится и не форс-пушится никогда. Единственная force-операция —
`--force-with-lease` по ветке задачи.
### 3. Re-test — `python -m pytest` в worktree догнанной ветки
`retest_branch(repo, branch)`:
- Команда `python -m pytest <merge_retest_target>` (`merge_retest_target` по умолчанию
`tests/`) из корня worktree ветки — согласовано с CI orchestrator
(`pytest tests/ -q`, CLAUDE.md) и паттерном `check_tests_local`.
- Тайм-аут `settings.merge_retest_timeout_s` (дефолт 600); превышение →
`(False, "re-test timeout (<T>s)")` (AC-6), процесс убивается, задача не виснет.
- `returncode == 0``(True, "re-test green")`; иначе `(False, "re-test failed after rebase: <tail>")` (AC-4).
> Гейт по умолчанию реален для self-hosting репо `orchestrator` (BR-7). Для других репо
> применять только при совпадающей тест-команде/раскладке — через `merge_gate_repos`
> (см. §6). Команда re-test параметризуется `merge_retest_target` для портируемости.
### 4. Сериализация слияний — файловый merge-lease на репозиторий (BR-5, AC-5)
Цель: «догон + re-test + **слияние**» одного репо выполняет одновременно только одна
задача. Слияние делает deployer ПОЗЖЕ и в ОТДЕЛЬНОМ запуске, поэтому простой
context-manager-lock внутри гейта окно гонки не закрывает — нужен **lease, живущий от
гейта до фактического merge**.
**Механизм — файловый lease**, БЕЗ изменения схемы БД (ТЗ §4 предпочитает no-schema-change):
- Файл `<repos_dir>/.merge-lease-<repo>.json`, содержимое `{task_id, work_item_id, branch,
acquired_at, pid}`.
- **Acquire — атомарный, НЕблокирующий** (`open(..., O_CREAT|O_EXCL)`):
- файла нет → захват, запись метаданных;
- файл есть, holder == self → идемпотентно «уже наш» (restart/повтор);
- файл есть, holder != self, возраст `< merge_lock_timeout_s` → **busy**;
- файл есть, возраст `>= merge_lock_timeout_s` → **stale, перезахват** с `logger.warning`
(crash-recovery: процесс-холдер умер, не освободив lease).
- **Release — идемпотентный** (`os.remove`, ignore-missing).
- **Restart-safe**: lease на диске; зависший lease реклеймится по возрасту.
**Поведение `check_branch_mergeable(repo, work_item_id, branch)`** (детерминированно, без LLM):
1. Попытка acquire (неблокирующая). Busy → `(False, "merge-lock busy")` — **сигнальный
reason** (НЕ провал кода, см. §5: defer, а не rollback).
2. **Double-check под lease**: повторно `branch_is_behind_main` (пока ждали/между тиками
`main` мог уйти — например, другая задача только что влилась).
3. Не отстаёт → `(True, "branch up-to-date with main")`.
4. Отстаёт → `auto_rebase_onto_main`:
- конфликт → `(False, "rebase conflict: ...")`;
- успех → `retest_branch`: зелёный → `(True, "rebased onto main, re-test green")`;
красный/тайм-аут → `(False, "re-test failed after rebase: ...")`.
5. **При успехе lease НЕ освобождается** — он удерживается до фактического merge.
**При любом провале (конфликт/красный re-test) lease освобождается** (откат на
development, слияния не будет).
6. Регистрация в `QG_CHECKS["check_branch_mergeable"]`; сигнатура `(repo, work_item_id,
branch)` совпадает с дефолтной артефактной → `_run_qg` диспетчеризует без спец-кейса.
**Жизненный цикл lease (точки release):**
- **PR-merged вебхук** ветки (`gitea.handle_pr`, `action=closed & merged`) → release;
- **`deploy → done`** в `advance_stage` (страховочный release);
- **любой откат на development** из merge-gate / `check_deploy_status` → release;
- **возраст `>= merge_lock_timeout_s`** → авто-реклейм (backstop при краше).
### 5. Откаты и defer (интеграция в `stage_engine`, BR-4/BR-8, AC-11)
`check_branch_mergeable` различает два негативных исхода:
- **`reason == "merge-lock busy"` → DEFER, не rollback.** Код задачи исправен — нельзя
слать на development и нельзя тратить `MAX_DEVELOPER_RETRIES`. Движок **повторно
ставит deployer на `deploy-staging` с задержкой** `settings.merge_defer_delay_s`
(через `available_at`-гейт очереди, ORCH-1; задача остаётся на `deploy-staging`).
Неблокирующий defer освобождает worker-слот → задача-холдер успевает влиться (нет
дедлока при `max_concurrency=1`). Повторов defer — ограниченное число
(`merge_defer_max_attempts`), исчерпание → Telegram-алерт + блокировка.
- **`reason` = конфликт rebase ИЛИ красный re-test → rollback на `development`** по образцу
`check_staging_status`/`check_deploy_status` в `_handle_qg_failure_rollbacks`:
`update_task_stage(development)`, `set_issue_blocked`, дословный `reason` в Plane
(`plane_add_comment`, author="deployer"), `send_telegram`, учёт `MAX_DEVELOPER_RETRIES`,
**release lease**. Дословный `reason` встраивается в `task_desc` developer'а (по образцу
ORCH-046), чтобы агент видел суть.
### 6. Конфигурация (`src/config.py`, env-префикс `ORCH_`)
| Setting | Назначение | Дефолт |
|---------|-----------|--------|
| `merge_gate_enabled: bool` | Глобальный вкл/выкл (no-op `(True, "merge-gate disabled")` при False, AC-12) | `True` |
| `merge_gate_repos: str` | CSV-список репо, где гейт реален; пусто = только self-hosting (`orchestrator`) | `""` |
| `merge_retest_timeout_s: int` | Тайм-аут re-test | `600` |
| `merge_retest_target: str` | pytest-цель для re-test (портируемость) | `tests/` |
| `merge_lock_timeout_s: int` | Макс. возраст lease (ожидание/реклейм) | `300` |
| `merge_defer_delay_s: int` | Задержка перед повтором гейта при busy | `60` |
| `merge_defer_max_attempts: int` | Лимит defer-повторов до эскалации | `5` |
Семантика `merge_gate_repos`: пусто → гейт реален ТОЛЬКО для `orchestrator`
(`is_self_hosting_repo`), для прочих — no-op `(True, "merge-gate N/A for <repo>")`
(по образцу условного staging-гейта ORCH-35). Это безопасный поэтапный раскат.
### 7. API
Новых HTTP-эндпоинтов нет. Допустимо (необязательно) добавить в `GET /status`/`GET /queue`
индикатор состояния merge-lease для наблюдаемости — без изменения существующих контрактов.
---
## Последствия
### Плюсы
- Закрывает воспроизводимый сценарий «две зелёные ветки ломают `main`»: перед слиянием
ветка догоняется до актуального `origin/main` и повторно тестируется; слияния
сериализуются lease'ом.
- Минимальный blast-radius: `STAGE_TRANSITIONS` не тронут, snapshot-переходы не меняются,
+1 ключ в `QG_CHECKS`. Триггер — существующее событие, без chaining/новых job-типов.
- Restart-safe и deadlock-safe: файловый lease с реклеймом по возрасту; неблокирующий
acquire + defer вместо блокирующего ожидания.
- Соответствует self-hosting-инвариантам: никогда не пуш/форс-пуш `main`; force только
`--force-with-lease` по ветке задачи; прод-контейнер не рестартится; страховка
`deploy-staging` сохранена.
- Поэтапный раскат через `merge_gate_enabled` / `merge_gate_repos`.
### Минусы / ограничения
- **Merge-gate как «скрытый» под-гейт** ребра `deploy-staging → deploy` не отражён в
`STAGE_TRANSITIONS` (плата за отказ от новой стадии). Смягчение: явно описан в
`docs/architecture/README.md` и этом ADR.
- **Сериализация зависит от вебхука PR-merged** для своевременного release. Деградация
предусмотрена (реклейм по возрасту `merge_lock_timeout_s`), но при «потерянном»
вебхуке возможна задержка следующей задачи до тайм-аута lease.
- **Defer перезапускает staging-deployer** (повторно прогоняет staging-проверку и
перезаписывает `15-staging-log.md`) — переиспользует существующий механизм очереди
ценой лишнего прогона staging. Допустимо; альтернатива (отдельный «retry-gate» job-тип)
дороже по поверхности.
- **Длинный re-test (до 600s)** исполняется синхронно в monitor-thread staging-deployer'а
и удерживает worker-слот на это время (при `max_concurrency=1` приостанавливает прочие
задачи). Это неотъемлемая стоимость «re-test перед слиянием».
- **`rebase --force-with-lease`** переписывает историю ветки и обновляет head открытого PR;
прежний approve ревьюера может пометиться stale в Gitea. На стадии `deploy` ревью
повторно не проверяется — функционально безопасно.
### Влияние на масштаб изменения
Вводится новый модуль (`src/merge_gate.py`), новый QG, lease-подсистема и изменение
поведения ребра `deploy-staging → deploy` + откаты/вебхук. Это **сквозное изменение
конвейера** → рекомендуется лейбл `arch:major-change` и обязательная страховка стадией
`deploy-staging` (8501) перед прод-деплоем самого ORCH-043. Глобальный ADR —
`docs/architecture/adr/adr-0006-merge-gate.md`.
---
## Точки изменения кода (для developer; имена функций — финальные)
- `src/merge_gate.py` (**новый**): `branch_is_behind_main`, `auto_rebase_onto_main`,
`retest_branch`, lease (`acquire_merge_lease`/`release_merge_lease`/реклейм).
- `src/qg/checks.py`: `check_branch_mergeable(repo, work_item_id, branch)` + регистрация в `QG_CHECKS`.
- `src/stage_engine.py`: вызов merge-gate на ребре `deploy-staging → deploy` (после
`check_staging_status`, до advance); ветка rollback merge-gate в
`_handle_qg_failure_rollbacks`; defer-ветка для `"merge-lock busy"`; release lease в
`deploy → done` и в откатах.
- `src/webhooks/gitea.py`: release lease в `handle_pr` (closed & merged).
- `src/db.py` (опц.): `enqueue_job(..., available_at_delay_s=...)` для defer, либо переиспользовать `available_at`.
- `src/config.py`: настройки §6.
- `tests/`: тесты по `04-test-plan.yaml` + обновить `tests/test_qg_registry_snapshot.py`
(`_EXPECTED_QGS` += `check_branch_mergeable`; `_EXPECTED_TRANSITIONS` — **без изменений**).
- Документация: `docs/architecture/README.md` (обновлена в этом PR), `CHANGELOG.md`,
`.env.example` (новые `ORCH_*`).

View File

@@ -0,0 +1,25 @@
# 07 — Требования к инфраструктуре (ORCH-043)
## Вывод: топология не меняется. Новых контейнеров/портов/сервисов нет.
| Аспект | Требование |
|--------|-----------|
| Контейнеры | Без изменений. Прод `orchestrator` (8500) и `orchestrator-staging` (8501) — как есть. |
| Порты | Без изменений. |
| Сеть/внешние сервисы | Без новых зависимостей. Используются существующие git/Gitea (fetch/push) и pytest. |
| Файловая система | Новый артефакт времени выполнения — lease-файл `<repos_dir>/.merge-lease-<repo>.json` (см. `08-data-requirements.md`). Лежит в уже примонтированном `repos_dir` (`/repos`). Дополнительного volume не требуется. |
| Worktree | Переиспользуется существующая изоляция (`/repos/_wt/<repo>/<branch>`, ORCH-2). Все git-операции merge-gate — в worktree. |
| `.env` / compose / прод-инфра | **НЕ изменяются** (AC-14). Новые `ORCH_*` настройки имеют безопасные дефолты (см. ADR-001 §6) и документируются в `.env.example`. |
## Эксплуатационные требования
- **git push прав** для оркестратора достаточно существующих (он уже пушит ветки/PR-артефакты).
Merge-gate пушит ТОЛЬКО ветку задачи (`--force-with-lease`), `main` — никогда.
- **Раскат поэтапно**: `merge_gate_enabled=False` или пустой `merge_gate_repos` (реален
только для `orchestrator`) позволяют включать гейт постепенно без риска для чужих репо.
- **Self-hosting-страховка сохранена**: изменения ORCH-043 проходят обязательную стадию
`deploy-staging` (8501) до прод-деплоя самого оркестратора; прод-контейнер не рестартится
в рамках задачи.
## Рекомендация по процессу
Изменение сквозное (новый QG + поведение ребра `deploy-staging → deploy`) →
рекомендуется лейбл `arch:major-change`. Прод-деплой ORCH-043 — строго через staging-гейт.

View File

@@ -0,0 +1,27 @@
# 08 — Требования к данным / схеме БД (ORCH-043)
## Вывод: изменение схемы SQLite НЕ требуется.
Merge-lease (сериализация слияний, BR-5) реализуется **файлом**, а не таблицей:
- Путь: `<repos_dir>/.merge-lease-<repo>.json` (`settings.repos_dir`, по умолчанию `/repos`).
- Содержимое: `{ "task_id": int, "work_item_id": str, "branch": str,
"acquired_at": "<ISO>", "pid": int }`.
- Жизненный цикл — см. ADR-001 §4 (acquire неблокирующий / release идемпотентный /
реклейм по возрасту `merge_lock_timeout_s`).
### Почему файл, а не таблица БД
- ТЗ §4 прямо предпочитает реализацию без миграции схемы.
- Файловый lease проще делается **restart-safe** (реклейм по mtime/возрасту + `pid`) и не
трогает инициализацию `src/db.py` (никаких изменений `tasks`/`agent_runs`/`jobs`/`events`).
- Атомарность захвата обеспечивается `open(O_CREAT|O_EXCL)` на одном хосте (mva154,
один инстанс) — достаточно для сериализации в пределах одного процесса-оркестратора.
### Существующие таблицы — без изменений
`tasks`, `agent_runs`, `jobs`, `events` не модифицируются. Defer-механизм переиспользует
существующий столбец `jobs.available_at` (ORCH-1) для отложенного повторного запуска
deployer'а**новых столбцов не нужно**.
> Если в будущем потребуется кросс-процессная/мульти-хостовая сериализация — lease можно
> мигрировать в таблицу (или advisory-lock). Это будет отдельным ADR; в рамках ORCH-043
> файловый lease достаточен (один хост, один инстанс).

View File

@@ -0,0 +1,24 @@
# 10 — Технические риски (ORCH-043)
Merge-gate + auto-rebase + re-test. Риски, их влияние и меры снижения. Привязка к AC.
| # | Риск | Влияние | Снижение | AC |
|---|------|---------|----------|----|
| R-1 | **Дедлок при `max_concurrency=1`**: блокирующее ожидание merge-lock в `advance_stage` держит единственный worker-слот, а задаче-холдеру тот же слот нужен для merge. | Полная остановка конвейера (self-hosting = все проекты). | Acquire **неблокирующий**; busy → **defer** (re-enqueue с задержкой, слот освобождается), НЕ блокирующее ожидание. | AC-5 |
| R-2 | **Потерянный PR-merged вебхук** → lease не освобождается вовремя. | Следующая задача ждёт до тайм-аута. | Реклейм lease по возрасту `merge_lock_timeout_s`; release продублирован в `deploy→done` и в откатах. | AC-5 |
| R-3 | **Краш сервиса под lease** (зависший lease-файл после рестарта). | Блокировка merge репо. | Файловый lease с реклеймом по возрасту + `pid`; идемпотентный re-acquire холдером. Restart-safe. | AC-5, AC-9 |
| R-4 | **Долгий re-test (до 600s)** держит worker-слот и блокирует прочие задачи. | Замедление конвейера. | Жёсткий тайм-аут `merge_retest_timeout_s` + kill; осознанная стоимость re-test-перед-merge. | AC-6 |
| R-5 | **Случайный push/force-push в `main`** из логики гейта. | Прямая порча `main` прод-инструмента. | Код гейта НИКОГДА не пушит `main`; единственная force — `--force-with-lease` по ветке задачи; покрыто тестом-стражем. | AC-7 |
| R-6 | **Необработанное исключение** из гейта всплывает в `advance_stage`. | Падение авто-advance, зависшая задача. | Контракт **never-raise** во всех функциях `merge_gate.py` и `check_branch_mergeable`: исключение → `(False, reason)`. | AC-9 |
| R-7 | **Git-операции в общем clone** `/repos/<repo>` вместо worktree → S-4-гонка параллельных задач. | Порча рабочих копий, ложные конфликты. | Все операции — в worktree ветки (`ensure_worktree`/`get_worktree_path`). | AC-8 |
| R-8 | **Defer-петля** (lease вечно busy из-за залипшего холдера) → бесконечные перепрогоны staging. | Зацикливание, расход токенов/CPU. | `merge_defer_max_attempts` + Telegram-эскалация + блокировка; реклейм lease (R-2/R-3) снимает первопричину. | AC-5, AC-11 |
| R-9 | **rebase --force-with-lease** помечает прежний approve ревьюера stale и пересоздаёт head PR. | Теоретическая потеря «зелёного» статуса PR. | На стадии `deploy` ревью повторно не проверяется; re-test в гейте — авторитетная проверка. Документировано в ADR. | AC-2 |
| R-10 | **Re-test-команда не подходит чужому репо** (раскладка enduro-trails ≠ orchestrator). | Ложный красный re-test на не-self-hosting репо. | Гейт по умолчанию реален ТОЛЬКО для `orchestrator`; прочие — no-op; `merge_retest_target` параметризует цель. | AC-12, BR-7 |
| R-11 | **Дрейф snapshot-реестра** при добавлении QG. | Красные тесты / расхождение контракта. | Обновить `_EXPECTED_QGS` (+`check_branch_mergeable`) осознанно; `_EXPECTED_TRANSITIONS` НЕ менять (стадии не трогаем). | AC-10 |
| R-12 | **Рестарт/падение прод-контейнера** `orchestrator` в рамках задачи. | Остановка конвейера всех проектов. | Не трогаем `.env*`/`docker-compose.yml`/инфру; обязательная страховка `deploy-staging` (8501). | AC-14 |
| R-13 | **Регресс существующих тестов** от изменения `advance_stage`/`gitea.handle_pr`. | Поломка конвейера. | `pytest tests/ -q` целиком зелёный; изменения аддитивны (новая ветвь на ребре, существующие пути не меняются). | AC-15 |
## Остаточные риски (принимаются)
- **Скрытый под-гейт** (merge-gate не отражён в `STAGE_TRANSITIONS`) — плата за минимальный
blast-radius; смягчён документацией (README + ADR).
- **Лишний прогон staging** при defer — переиспользование очереди вместо нового job-типа.

View File

@@ -0,0 +1,59 @@
---
type: review
work_item_id: ORCH-043
verdict: APPROVED
version: 1
---
# Review ORCH-043 — merge-gate + auto-rebase + re-test
## Summary
Реализован детерминированный (без LLM) merge-gate `check_branch_mergeable` на ребре
`deploy-staging → deploy`: догон ветки до актуального `origin/main` (`rebase` +
`push --force-with-lease` ТОЛЬКО ветки задачи), повторный прогон тестов в worktree
догнанной ветки и файловый merge-lease для сериализации слияний. Интеграция в
`stage_engine` (defer при busy-lock, rollback при конфликте/красном re-test с капом
`MAX_DEVELOPER_RETRIES`), release lease на `deploy→done` / rollback / PR-merged вебхуке.
Соответствие ТЗ (`02-trz.md`) и AC-1..AC-15 — полное. Реализация соответствует
`ADR-001-merge-gate.md` и глобальному `adr-0006`. Контракт never-raise соблюдён
во всех новых функциях, все git-операции изолированы в worktree (AC-8), `main`
никогда не пушится/форс-пушится (AC-7). Документация обновлена в этом же PR.
`pytest tests/ -q`**535 passed** (AC-15). Snapshot-реестр обновлён осознанно
(`_EXPECTED_QGS += check_branch_mergeable`, `_EXPECTED_TRANSITIONS` не тронут — AC-10).
Прод-инфра (`docker-compose*`, `.env`, `.gitea/`, `Dockerfile`) не затронута (AC-14).
## Findings
### P0 — Blocker
- (нет)
### P1 — Must fix
- (нет)
### P2 — Should fix
- [ ] **Двойное назначение `merge_lock_timeout_s` (300s).** Один и тот же тайм-аут
служит и порогом «лиз протух → реклейм» (crash-backstop), и фактическим окном
удержания лиза от гейта до мержа. Если deploy-деплоер по какой-то причине мержит
PR дольше 300s, ожидающая задача реклеймит лиз как stale и может пойти на слияние
параллельно — узкое окно, теоретически воспроизводящее гонку, которую закрывает
AC-5. На практике deployer мержит в начале запуска, окно мало; тайм-аут
конфигурируем. Рекомендация (не блокер): развести «возраст реклейма краша» и
«ожидаемое время удержания», либо добавить наблюдаемость (лог/алерт при
stale-реклейме непустого холдера).
- [ ] **Двойной `git fetch origin main`** — в `branch_is_behind_main` и затем в
`auto_rebase_onto_main` на пути «ветка отстаёт». Незначительная неэффективность,
не баг; можно переиспользовать результат первого fetch.
## Документация
Обновлено полностью, документация = golden source соблюдена (AC-13):
- `docs/architecture/README.md` — добавлен раздел «Merge-gate…», ветка откатов,
реестр QG (`check_branch_mergeable`), `STAGE_TRANSITIONS` корректно НЕ изменён.
- `CHANGELOG.md` — подробная запись ORCH-043.
- `.env.example` — все 7 новых `ORCH_MERGE_*` настроек с комментариями.
- ADR per-work-item `docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md` (Proposed)
и глобальный `docs/architecture/adr/adr-0006-merge-gate.md` + строка в `adr/README.md`.
- Тесты: `test_merge_gate.py`, `test_qg_merge_gate.py`, `test_merge_gate_race.py`,
`test_stage_engine.py::TestMergeGate`, `test_config.py`, обновлён
`test_qg_registry_snapshot.py`.

View File

@@ -0,0 +1,66 @@
---
type: test-report
work_item_id: ORCH-043
result: PASS
---
# Test Report — ORCH-043 (merge-gate + auto-rebase + re-test)
## Окружение
- Python: 3.12.13
- pytest: 8.3.3
- Ветка: `feature/ORCH-043-merge-gate-auto-rebase-re-test` (HEAD `ba51aa1`)
- Дата: 2026-06-06T17:37Z
## Smoke API (read-only, прод-контейнер не трогался)
- `GET /health` → HTTP 200 `{"status":"ok","service":"orchestrator"}`
- `GET /status` → HTTP 200, активная задача ORCH-043 на стадии `testing`
- `GET /queue` → HTTP 200, breaker `closed`, preflight_ok=true, max_concurrency=1
## Результаты (test-plan 04-test-plan.yaml)
| TC ID | Описание | Модуль | Результат |
|-------|----------|--------|-----------|
| TC-01 | branch_is_behind_main → True (main ушёл вперёд) | test_merge_gate.py | PASS |
| TC-02 | branch_is_behind_main → False (ветка содержит main) | test_merge_gate.py | PASS |
| TC-03 | branch_is_behind_main never-raise | test_merge_gate.py | PASS |
| TC-04 | auto_rebase: чистый догон + push --force-with-lease | test_merge_gate.py | PASS |
| TC-05 | auto_rebase: конфликт → abort, worktree чист, main не тронут | test_merge_gate.py | PASS |
| TC-06 | auto_rebase не пушит/форс-пушит main | test_merge_gate.py | PASS |
| TC-07 | retest_branch: rc=0 → (True,'re-test green') | test_merge_gate.py | PASS |
| TC-08 | retest_branch: rc!=0 → (False) с хвостом вывода | test_merge_gate.py | PASS |
| TC-09 | retest_branch: тайм-аут → (False,'re-test timeout') | test_merge_gate.py | PASS |
| TC-10 | merge-lock: повторный захват блокируется, release в finally | test_merge_gate.py | PASS |
| TC-11 | merge-lock restart-safe: устаревший lock не блокирует | test_merge_gate.py | PASS |
| TC-12 | check_branch_mergeable: актуальна → (True,'up-to-date') | test_qg_merge_gate.py | PASS |
| TC-13 | check_branch_mergeable: отстаёт+rebase+зелёный re-test → True | test_qg_merge_gate.py | PASS |
| TC-14 | check_branch_mergeable: конфликт rebase → (False) | test_qg_merge_gate.py | PASS |
| TC-15 | check_branch_mergeable: красный re-test → (False) | test_qg_merge_gate.py | PASS |
| TC-16 | check_branch_mergeable never-raise, lock освобождён | test_qg_merge_gate.py | PASS |
| TC-17 | merge_gate_enabled=False / вне merge_gate_repos → no-op | test_qg_merge_gate.py | PASS |
| TC-18 | 'check_branch_mergeable' в QG_CHECKS и callable | test_qg_registry_snapshot.py | PASS |
| TC-19 | snapshot реестра/стадий обновлён, порядок ключей сохранён | test_qg_registry_snapshot.py | PASS |
| TC-20 | _run_qg диспетчеризует check_branch_mergeable | test_stage_engine.py | PASS |
| TC-21 | merge-gate FAIL → откат на development + Plane/Telegram | test_stage_engine.py | PASS |
| TC-22 | merge-gate FAIL уважает MAX_DEVELOPER_RETRIES | test_stage_engine.py | PASS |
| TC-23 | merge-gate PASS → продвижение к слиянию/деплою | test_stage_engine.py | PASS |
| TC-24 | сквозной сценарий гонки A/B, main остаётся зелёным | test_merge_gate_race.py | PASS |
| TC-25 | новые ORCH_* настройки: дефолты + env-override | test_config.py | PASS |
| TC-26 | полный регресс pytest tests/ зелёный | tests/ | PASS |
Целевые файлы ORCH-043 (`test_merge_gate`, `test_qg_merge_gate`, `test_merge_gate_race`,
`test_config`, `test_qg_registry_snapshot`): 33 passed; merge-gate в `test_stage_engine`: 7 passed.
## Соответствие критериям приёмки
AC-1..AC-15 — все покрыты прошедшими тестами (см. маппинг TC выше) и подтверждены
APPROVED-ревью (`12-review.md`). AC-15 (зелёный регресс) — подтверждён ниже.
## Вывод pytest
```
======================= 535 passed, 1 warning in 12.70s ========================
```
(единственное warning — PydanticDeprecatedSince20 в `src/config.py:4`, не относится к ORCH-043, нефатальное)
## Итог
PASS — 535/535 тестов зелёные, smoke API OK, прод-контейнер не затронут.
Задача готова к стадии `deploy-staging`.