Compare commits
7 Commits
c0bcb544cf
...
feature/OR
| Author | SHA1 | Date | |
|---|---|---|---|
| c1196e34e8 | |||
| 5089f99bb1 | |||
| 32161a180a | |||
| 7d2d77217a | |||
| f5aae50514 | |||
| a083ed8495 | |||
| eac0eb4b3a |
52
.env.example
52
.env.example
@@ -36,38 +36,20 @@ ORCH_MERGE_RETEST_TARGET=tests/
|
||||
ORCH_MERGE_LOCK_TIMEOUT_S=300
|
||||
ORCH_MERGE_DEFER_DELAY_S=60
|
||||
ORCH_MERGE_DEFER_MAX_ATTEMPTS=5
|
||||
# ORCH-036: executable self-deploy of the `deploy` stage. For the self-hosting repo
|
||||
# (orchestrator) the stage REALLY restarts prod (8500) via a detached host hook;
|
||||
# deploy_status: SUCCESS means proven health-ok, not an LLM declaration. Three
|
||||
# deterministic phases (A: request approve, B: human Approved -> detached deploy,
|
||||
# C: finalizer maps hook exit-code -> deploy_status). Non-self repos: unchanged
|
||||
# synchronous ssh deploy. SECRETS / host paths live ONLY on the host — do NOT commit.
|
||||
# SELF_DEPLOY_ENABLED -> global kill-switch (false -> legacy synchronous deploy for all).
|
||||
# SELF_DEPLOY_REPOS -> CSV of repos where Phase A/B/C is REAL; empty -> only the
|
||||
# self-hosting repo (orchestrator); others -> no-op (mirrors ORCH-35).
|
||||
# DEPLOY_REQUIRE_MANUAL_APPROVE -> require a human Plane "Approved" before the prod
|
||||
# deploy (true on rollout; full auto is ORCH-54).
|
||||
# DEPLOY_FINALIZE_DELAY_S -> delay before the first/each finalize poll (>= hook+health).
|
||||
# DEPLOY_FINALIZE_MAX_ATTEMPTS -> bounded finalize-defer budget (anti-livelock).
|
||||
# DEPLOY_SSH_USER / DEPLOY_SSH_HOST -> ssh target for the host hook (DEPLOY_SSH_HOST
|
||||
# empty -> detached deploy will NOT launch; set on the host).
|
||||
# DEPLOY_HOOK_SCRIPT -> path to the hook ON THE HOST (relative to the repo).
|
||||
# DEPLOY_HOST_REPO_PATH -> orchestrator clone path on the host.
|
||||
# DEPLOY_PROD_SOURCE_IMAGE -> staging-validated image, retagged build-once (no rebuild).
|
||||
# DEPLOY_PROD_TARGET_SERVICE / _PORT / _IMAGE / _COMPOSE_PROFILE -> prod compose profile.
|
||||
# DEPLOY_PROD_PREV_IMAGE_FILE -> prod prev-image snapshot (separate from staging's).
|
||||
ORCH_SELF_DEPLOY_ENABLED=true
|
||||
ORCH_SELF_DEPLOY_REPOS=
|
||||
ORCH_DEPLOY_REQUIRE_MANUAL_APPROVE=true
|
||||
ORCH_DEPLOY_FINALIZE_DELAY_S=90
|
||||
ORCH_DEPLOY_FINALIZE_MAX_ATTEMPTS=10
|
||||
ORCH_DEPLOY_SSH_USER=slin
|
||||
ORCH_DEPLOY_SSH_HOST=
|
||||
ORCH_DEPLOY_HOOK_SCRIPT=scripts/orchestrator-deploy-hook.sh
|
||||
ORCH_DEPLOY_HOST_REPO_PATH=/home/slin/repos/orchestrator
|
||||
ORCH_DEPLOY_PROD_SOURCE_IMAGE=orchestrator-orchestrator-staging
|
||||
ORCH_DEPLOY_PROD_TARGET_SERVICE=orchestrator
|
||||
ORCH_DEPLOY_PROD_TARGET_PORT=8500
|
||||
ORCH_DEPLOY_PROD_TARGET_IMAGE=orchestrator-orchestrator
|
||||
ORCH_DEPLOY_PROD_COMPOSE_PROFILE=
|
||||
ORCH_DEPLOY_PROD_PREV_IMAGE_FILE=.deploy-prev-image-prod
|
||||
|
||||
# ORCH-053: stuck-task reconciler (sweeper for lost webhooks). A background daemon
|
||||
# replays a missed stage transition through the SAME gates/handlers a webhook would,
|
||||
# fixing tasks that got stuck on a dropped event (502 on rebuild, no Plane/Gitea
|
||||
# retries, unresolved sha->branch).
|
||||
# ENABLED -> global kill-switch (self-hosting safety / staged rollout).
|
||||
# PLANE_ENABLED -> separate flag for the F-2 Plane-API poll (mute only F-2).
|
||||
# INTERVAL_S -> background sweep period (seconds).
|
||||
# GRACE_DEFAULT_S -> default "stuck" threshold on tasks.updated_at (seconds).
|
||||
# GRACE_OVERRIDES_JSON -> per-stage thresholds, e.g. {"development":300}; bad JSON -> default.
|
||||
# NOTIFY_UNBLOCK -> send a Telegram message when a stuck task is unblocked.
|
||||
ORCH_RECONCILE_ENABLED=true
|
||||
ORCH_RECONCILE_PLANE_ENABLED=true
|
||||
ORCH_RECONCILE_INTERVAL_S=120
|
||||
ORCH_RECONCILE_GRACE_DEFAULT_S=600
|
||||
ORCH_RECONCILE_GRACE_OVERRIDES_JSON=
|
||||
ORCH_RECONCILE_NOTIFY_UNBLOCK=true
|
||||
|
||||
@@ -73,39 +73,13 @@ On stage `deploy-staging` your job is to run the staging test suite and write a
|
||||
|
||||
---
|
||||
|
||||
## Stage: `deploy` (Production Deploy — ORCH-36, executable self-deploy)
|
||||
## Stage: `deploy` (Production Deploy — ORCH-36, future)
|
||||
|
||||
On stage `deploy` your job is to perform (or simulate) the production deployment and write a machine-readable verdict to `docs/work-items/<work_item_id>/14-deploy-log.md` with frontmatter field `deploy_status: SUCCESS|FAILED`.
|
||||
|
||||
This stage is only reached if the staging gate (`deploy-staging`) passed with `staging_status: SUCCESS`.
|
||||
The verdict contract is unchanged: `docs/work-items/<work_item_id>/14-deploy-log.md` with
|
||||
frontmatter field `deploy_status: SUCCESS|FAILED` (the gate `check_deploy_status` parses ONLY this).
|
||||
**What changed (ORCH-36): WHO and WHEN writes that verdict, for the self-hosting repo.**
|
||||
|
||||
### Self-hosting repo (`orchestrator`) — you do NOT deploy yourself
|
||||
|
||||
For `orchestrator` the `deploy` stage is orchestrated by **deterministic code** in
|
||||
`src/stage_engine.py` + `src/self_deploy.py`, NOT by you, and NOT by a "paper" `SUCCESS`:
|
||||
|
||||
- **Phase A** (entering `deploy`): the pipeline does NOT launch you. It sets the issue to an
|
||||
approval-pending state and asks a human to flip the Plane status to **Approved**.
|
||||
- **Phase B** (human Approved): the code launches a **detached host process**
|
||||
(`ssh + setsid` → `scripts/orchestrator-deploy-hook.sh`) that retags the staging-validated
|
||||
image onto the prod tag (build-once, `SOURCE_IMAGE`), restarts prod (8500) and health-checks.
|
||||
The orchestrator NEVER restarts its own 8500 container from inside — that would kill the
|
||||
worker mid-call.
|
||||
- **Phase C** (finalizer): a deterministic finalizer-job in the NEW container reads the hook
|
||||
exit-code, maps `0 → SUCCESS`, `1|2|other → FAILED`, writes `14-deploy-log.md` and drives the
|
||||
existing contracts (`SUCCESS → done`, `FAILED → rollback to development`).
|
||||
|
||||
⚠️ **CRITICAL for self-hosting**: NEVER run `docker compose up -d orchestrator`, `--build`, or any
|
||||
restart of 8500 from inside the agent. `deploy_status: SUCCESS` must reflect a REAL host health-ok,
|
||||
never an LLM declaration. If you are ever launched on `deploy` for `orchestrator`, do nothing that
|
||||
restarts prod — the host hook owns the restart.
|
||||
|
||||
### Non-self repos (e.g. `enduro-trails`) — unchanged synchronous ssh deploy
|
||||
|
||||
For non-self repos behaviour is unchanged: perform the production deployment (ssh to the project
|
||||
host) and write the machine-readable verdict (`deploy_status: SUCCESS|FAILED`). Real docker/SSH
|
||||
deploys go through `scripts/orchestrator-deploy-hook.sh` (parametrised; defaults are STAGING-safe).
|
||||
⚠️ **CRITICAL**: Do NOT trigger real production deploys unless explicitly instructed. Real docker/SSH deploys are handled by `scripts/orchestrator-deploy-hook.sh` (ORCH-36).
|
||||
|
||||
---
|
||||
|
||||
|
||||
@@ -5,7 +5,7 @@
|
||||
## [Unreleased]
|
||||
|
||||
### Added
|
||||
- **Исполняемый самодеплой стадии `deploy` (стадия дёргает хост-хук, manual-approve)** (ORCH-036): стадия `deploy` перестаёт быть «бумажной» — для self-hosting репозитория `orchestrator` `deploy_status: SUCCESS` означает ДОКАЗАННЫЙ health-ok реального рестарта прод-контейнера (8500), а не декларацию LLM. Критический путь self-restart детерминирован (без LLM), по образцу merge-gate ORCH-043, и разбит на три фазы (`src/stage_engine.py` + новый модуль `src/self_deploy.py`): **Фаза A** (вход в `deploy`) — вместо запуска прод-deployer'а при `deploy_require_manual_approve=true` задача переводится в approval-pending (`set_issue_in_review`) и ждёт ручного approve; restart-safe маркер `approve-requested`. **Фаза B** (человек ставит статус Plane → `Approved`; `advance_stage(deploy, finished_agent=None)`) — запускается **detached host-процесс** (`ssh + setsid` → `scripts/orchestrator-deploy-hook.sh`, чтобы рестарт 8500 пережил гибель контейнера; орк НЕ убивает себя из docker.sock) с build-once retag staging-образа (`SOURCE_IMAGE`), ставится детерминированный **finalizer-job**; маркер `initiated` — идемпотентность повторного Approved. **Фаза C** (`run_deploy_finalizer`, reserved-agent `deploy-finalizer`, claim'ится новым контейнером после рестарта) — читает sentinel `result` (exit-code хука, записан host-обёрткой), `not-ready` → defer (бюджет `deploy_finalize_max_attempts`, restart-safe по `task_content`), маппит `0→SUCCESS / 1|2|иное→FAILED` (чистая функция `map_exit_code_to_status`, unit-тест), пишет `14-deploy-log.md` и вызывает `advance_stage(deploy, finished_agent="deployer")` → существующие контракты: `SUCCESS → done` + release merge-lease, `FAILED → откат БАГ-8 на development` + `set_issue_blocked`. Уведомления Plane+Telegram на approve-request / initiate / success / rollback (BR-5, ни одного «молчаливого» деплоя). Хост-хук `scripts/orchestrator-deploy-hook.sh` расширен **обратно-совместимым** `SOURCE_IMAGE`: при заданном — `docker tag $SOURCE_IMAGE $TARGET_IMAGE` перед `up -d --no-build` (деплой РОВНО протестированного образа, без `docker build`); не задан → прежнее поведение; exit-code-контракт (0/1/2) и health-loop (10×6с, авто-rollback) не тронуты. Restart-safe состояние — sentinel-файлы (`<repos_dir>/.deploy-state-<repo>/<work_item_id>/`), без миграции БД. Условность как ORCH-35: реальный самодеплой только для `is_self_hosting_repo("orchestrator")`; прочие репо (enduro-trails) — прежний синхронный ssh-путь агентом. Контракты НЕ менялись: `STAGE_TRANSITIONS`, реестр `QG_CHECKS`, `check_deploy_status`/`_parse_deploy_status` (frontmatter-only), terminal-sync `deploy→done`, merge-gate (ORCH-43), БАГ-8. Флаг `DEPLOY_REQUIRE_MANUAL_APPROVE` остаётся `true` (полный авто — отдельная задача ORCH-54). Новые настройки: `ORCH_DEPLOY_REQUIRE_MANUAL_APPROVE` (true), `ORCH_DEPLOY_SSH_USER`, `ORCH_DEPLOY_SSH_HOST`, `ORCH_DEPLOY_HOOK_SCRIPT`, `ORCH_DEPLOY_PROD_SOURCE_IMAGE`, `ORCH_DEPLOY_PROD_TARGET_SERVICE/PORT/IMAGE`, `ORCH_DEPLOY_FINALIZE_DELAY_S`, `ORCH_DEPLOY_FINALIZE_MAX_ATTEMPTS`. ADR `docs/work-items/ORCH-036/06-adr/ADR-001-executable-self-deploy.md`, глобальный `docs/architecture/adr/adr-0007-executable-self-deploy.md`. Документация: `.openclaw/agents/deployer.md` (стадия `deploy` = вызов хука, запрет self-restart), `docs/operations/INFRA.md`, `docs/operations/DEPLOY_HOOK.md`. Тесты: `tests/test_deploy_hook_mapping.py`, `tests/test_deploy_approve.py`, `tests/test_deploy_routing.py`, `tests/test_deploy_rollback.py`, `tests/test_deploy_notifications.py`, `tests/test_deploy_build_once.py`, `tests/test_deploy_terminal_sync.py`, `tests/test_staging_precondition.py`, `tests/test_deploy_hook_rollback_sim.py`.
|
||||
- **Sweeper потерянных webhook (реконсиляция застрявших стадий)** (ORCH-053): фоновый daemon-поток `src/reconciler.py` (паттерн `queue_worker`), который устраняет тихое застревание задач, когда конвейер не двигается из-за потерянного события (502 на ребилде инстанса, отсутствие ретраев у Plane/Gitea, неразрезолвленный `sha→branch` — класс инцидента ORCH-044). Реконсилятор периодически (`reconcile_interval_s`) доигрывает пропущенный переход **через те же штатные гейты/обработчики**, что и webhook, не дублируя логику конвейера: **F-1 gate-side** (`reconcile_gate_once`) — для задач `stage≠done`, без активного job и `age(updated_at) ≥ grace_for_stage(stage)` делает read-only пред-оценку канонического QG стадии; зелёный → продвижение строго через неизменный `stage_engine.advance_stage(..., finished_agent=None)`; красный → тишина (спам нотификаций структурно невозможен — `advance_stage` на красном гейте не вызывается вовсе); `analysis` F-1 не трогает (человеческий гейт). **F-2 plane-side** (`reconcile_plane_once`) — опрос Plane API per-project (новый `plane_sync.list_issues_by_state`, курсорная пагинация, never-raise) и реплей In Progress / Approved / Rejected через существующие `webhooks.plane.handle_status_start` / `handle_verdict` (async-обработчики вызываются из sync-потока через `asyncio.run`). **F-3** — усиление `sha→branch` в `handle_ci_status`: при неразрезолвленном sha — БД-fallback по единственной development-задаче repo (`db.get_development_tasks_by_repo`; неоднозначность → не резолвим, ложного матча нет), `logger.debug`→`logger.info` для видимости потерянного CI-события. Анти-дубль на создании задачи (`db.create_task_atomic` под process-wide `threading.Lock`: SELECT-exists→INSERT, проигравший в гонке reconcile↔webhook не плодит второй task/branch/worktree/стартовый analyst-job). Старт/стоп в `main.lifespan` (после `worker.start()` / перед `worker.stop()`), restart-safe, never-raise на единицу работы. Наблюдаемость (F-4): при разблокировке — лог-строка `reconciler: <wi> <stage> разблокирована (потерян webhook)` + Telegram (`reconcile_notify_unblock`) и блок `reconcile` в `GET /queue`. Kill-switches: `ORCH_RECONCILE_ENABLED` (глобально), `ORCH_RECONCILE_PLANE_ENABLED` (гасит только F-2), `ORCH_RECONCILE_INTERVAL_S` (120), `ORCH_RECONCILE_GRACE_DEFAULT_S` (600), `ORCH_RECONCILE_GRACE_OVERRIDES_JSON` (per-stage), `ORCH_RECONCILE_NOTIFY_UNBLOCK` (true). Схема БД и реестры (`STAGE_TRANSITIONS`/`QG_CHECKS`) НЕ менялись. ADR `docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md`, глобальный `docs/architecture/adr/adr-0007-reconciler.md`. Тесты: `tests/test_reconciler.py`, `tests/test_reconciler_plane.py`, `tests/test_gitea_sha_resolve.py`, `tests/test_config.py`.
|
||||
- **Merge-gate: авто-rebase на текущий `origin/main` + повторный прогон тестов + сериализация мержей** (ORCH-043): детерминированный (без LLM) суб-гейт на ребре `deploy-staging → deploy`, выполняемый ПЕРЕД мержем PR деплоером. Закрывает класс гонок «две зелёные ветки в одном репо ломают `main`»: пайплайн валидирует ветку против того `main`, от которого она ответвилась, а не против `main` в момент мержа — между «ветка зелёная» и «ветка смержена» параллельная задача может сдвинуть `main` (семантический конфликт: git мержит без текстового конфликта, но совмещённый `main` красный). Для self-hosting репозитория `orchestrator` это означало бы красный `main` инструмента, обслуживающего ВСЕ проекты. Новый модуль `src/merge_gate.py` (контракт «never raise», все git-операции — в per-branch worktree, ORCH-2/S-4): `branch_is_behind_main` (`git merge-base --is-ancestor origin/main HEAD`), `auto_rebase_onto_main` (rebase + `git push --force-with-lease` ТОЛЬКО ветки задачи — `main` НИКОГДА не пушится; текстовый конфликт → `rebase --abort` + чистый worktree), `retest_branch` (`python -m pytest <target>` в догнанном worktree, бюджет `merge_retest_timeout_s`), файловый merge-lease (`acquire_merge_lease`/`release_merge_lease`, атомарный `O_CREAT|O_EXCL`, holder-aware release, реклейм протухшего/битого лиза — без изменения схемы БД). Новый quality-gate `check_branch_mergeable` (`src/qg/checks.py`, зарегистрирован в `QG_CHECKS`) композирует примитивы под лизом: kill-switch/вне-области → no-op pass; lock занят → `(False, "merge-lock busy")` (сигнал DEFER, не код-фолт); ветка свежая → pass (лиз ДЕРЖИТСЯ до мержа); отстала → rebase → конфликт = fail+release, чисто → retest → зелёный = pass (лиз держится) / красный|timeout = fail+release. Интеграция в `src/stage_engine.py` (суб-гейт на `deploy-staging`, БЕЗ новой стадии в `STAGE_TRANSITIONS`): pass → advance на `deploy`; «merge-lock busy» → DEFER (повторная постановка деплоера на `deploy-staging` с задержкой `available_at`, анти-дедлок при `max_concurrency=1`, restart-safe счётчик по `task_content`, лимит `merge_defer_max_attempts` → block+Telegram); конфликт/красный retest → ROLLBACK на `development` + ретрай developer-а (кап `MAX_DEVELOPER_RETRIES`, без бесконечного баунса). Лиз освобождается на `deploy→done`, на rollback и по webhook смерженного PR (`src/webhooks/gitea.py`). Новый параметр `enqueue_job(..., available_at_delay_s=...)` (`src/db.py`) — отложенная постановка без изменения схемы. Условность раскатки (зеркало ORCH-35): `merge_gate_repos` (CSV) или по умолчанию только self-hosting `orchestrator`; глобальный kill-switch `merge_gate_enabled`. Новые настройки `ORCH_MERGE_GATE_ENABLED` (true), `ORCH_MERGE_GATE_REPOS` (""), `ORCH_MERGE_RETEST_TIMEOUT_S` (600), `ORCH_MERGE_RETEST_TARGET` (tests/), `ORCH_MERGE_LOCK_TIMEOUT_S` (300), `ORCH_MERGE_DEFER_DELAY_S` (60), `ORCH_MERGE_DEFER_MAX_ATTEMPTS` (5). ADR `docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md`, глобальный `docs/architecture/adr/adr-0006-merge-gate.md`. Тесты: `tests/test_merge_gate.py`, `tests/test_qg_merge_gate.py`, `tests/test_merge_gate_race.py`, `tests/test_stage_engine.py::TestMergeGate`, `tests/test_config.py`.
|
||||
- **Режим `bump` live-трекера Telegram** (ORCH-042): новый `ORCH_TRACKER_MODE` (`Settings.tracker_mode`, дефолт `edit`) выбирает поведение карточки задачи. `edit` (как было) — карточка редактируется на месте (`editMessageText`). `bump` — на каждом обновлении старое сообщение удаляется и карточка отправляется заново вниз чата (best-effort `delete_telegram(старый_id)` → `send_telegram(text, disable_notification=True)` → `set_tracker_message_id(new_id)`), чтобы актуальный статус всегда был последним в чате при активной переписке. Инвариант «одна карточка на задачу» сохранён в обоих режимах: за один вызов `update_task_tracker` шлётся ≤1 нового сообщения; `set_tracker_message_id` вызывается ТОЛЬКО при успешном send (транзиентный `None` не затирает указатель); результат delete НЕ блокирует отправку новой карточки (delete-fail у сообщения >48ч → всё равно шлём новое). Резолюция режима в `notifications` (case-insensitive, trim): всё, что ≠ `"bump"` (включая пустое/мусор) → `edit` → нулевая регрессия и оркестратор не падает на любом значении флага. Новый low-level helper `delete_telegram(message_id) -> bool` (контракт «never raises», маркеры `_DELETE_GONE_MARKERS`): `ok:true` или «уже нет / нельзя удалить» → `True`; неизвестный `ok:false`/5xx/исключение → `False`; нет кредов → `False` без HTTP. Сигнатуры `send_telegram`/`edit_telegram`/`update_task_tracker` и схема БД (`tasks.tracker_message_id`) не менялись. ADR `docs/work-items/ORCH-042/06-adr/ADR-001-tracker-bump-mode.md`. Тесты: `tests/test_tracker_bump.py`, `tests/test_config.py`.
|
||||
- **Дословный текст findings reviewer/tester встраивается в `task_desc` заворота** (ORCH-046): при откате на `development` строка `task_desc` (попадает в `.task-dev.md` developer-агента) теперь несёт суть претензий, а не только ссылку на файл — устраняет «испорченный телефон», из-за которого агент шёл «читать файл», терял ключевые P0/P1 / причину FAIL и заворачивался снова, выжигая `MAX_DEVELOPER_RETRIES` и токены. Новый defensive-модуль `src/review_parse.py` (контракт «never raise», как `src/frontmatter.py`): `extract_review_findings(path)` — дословные пункты P0/P1 из секции `## Findings` файла `12-review.md`; `extract_test_failures(path)` — релевантный фрагмент тела `13-test-report.md` (приоритет `## Вывод pytest` → FAIL-строки `## Результаты` → `## Итог`). Обе функции усекают результат до `MAX_FINDINGS_CHARS`/`MAX_FAILURES_CHARS` (≈2000) с маркером `…(truncated)`. Две rollback-ветки `src/stage_engine.py` (reviewer REQUEST_CHANGES, tester `check_tests_passed` FAIL) встраивают извлечённый текст и **сохраняют ссылку** на полный файл («Полный контекст»); при пустом/битом артефакте — graceful-фоллбэк на прежнюю ссылку-строку (никаких исключений в `advance_stage`). Tester-ветка дополнительно всегда включает `reason` гейта. Последовательность отката, `_developer_retry_count`, поля `AdvanceResult` и реестр `QG_CHECKS` не менялись. ADR `docs/work-items/ORCH-046/06-adr/ADR-001-embed-findings-in-task-desc.md`. Тесты: `tests/test_review_parse.py`, `tests/test_stage_engine.py::TestRollbackTaskDescEmbedding`.
|
||||
@@ -27,7 +27,6 @@
|
||||
- Цепочка стадий: `... testing → deploy-staging → deploy → done` (была без `deploy-staging`).
|
||||
|
||||
### Fixed
|
||||
- **Re-deploy после отката больше не зависает на `deploy`; `.env.example` дополнен** (ORCH-036, review-fix): sentinel-маркеры самодеплоя (`approve-requested`/`initiated`/`result`) ключуются по стабильному `work_item_id`, поэтому при FAILED-деплое и откате БАГ-8 (`deploy → development`) они оставались на диске — после фикса developer-ом и повторного захода задачи на `deploy` Фаза B по idempotency-guard видела STALE `initiated` и становилась no-op: detached-хук не перезапускался, finalizer не ставился, задача висела на `deploy` навсегда (нарушался retry-контракт стадии, AC-4/AC-10; устаревший `result` к тому же был бы перечитан новым finalizer'ом). Добавлен `self_deploy.clear_state(repo, work_item_id)` (never-raise, idempotent, рекурсивное удаление `<repos_dir>/.deploy-state-<repo>/<wi>/`), вызывается в ветке БАГ-8-отката `check_deploy_status` FAILED (`src/stage_engine.py`) и дополнительно в начале Фазы A (`_handle_self_deploy_phase_a`) — каждый новый прод-деплой-проход стартует с чистого состояния. Отдельно: канонический `.env.example` (CLAUDE.md правило №8, ТЗ §2.6) дополнен полным блоком новых дескрипторов `ORCH_SELF_DEPLOY_*` / `ORCH_DEPLOY_*` (плейсхолдеры, секреты не коммитятся) по образцу merge-gate ORCH-043. Контракты `STAGE_TRANSITIONS` / `QG_CHECKS` / `_parse_deploy_status` / БАГ-8 / merge-gate не тронуты. Тесты: `tests/test_deploy_rollback.py::test_tc11_re_deploy_after_rollback_not_wedged`, `tests/test_deploy_hook_mapping.py::test_clear_state_removes_all_markers_and_is_idempotent`.
|
||||
- **Контейнер и агенты бегут под uid хоста (1000:1000), не root** (ORCH-040): оба сервиса в `docker-compose.yml` (`orchestrator`, `orchestrator-staging`) получили `user: "1000:1000"` (slin) — устраняет корень проблемы, при которой Claude-CLI агенты, запускаемые через `subprocess.Popen` внутри root-контейнера, создавали все артефакты конвейера (git worktree `/repos/_wt/...`, коммиты в `docs/work-items/...`) с владельцем `root:root` на хосте, из-за чего `git pull`/`git reset` под slin падали с `insufficient permission for adding an object` и каждый деплой требовал ручного `chown`. Теперь файлы сразу `slin:slin`. Доступ к docker.sock сохранён через `group_add: ["999"]` (МИНА 1 — НЕ удалена). SSH-маунт приведён к единому HOME агента: target `/root/.ssh` → `/home/slin/.ssh` (`/home/slin/.orchestrator-ssh:/home/slin/.ssh:ro`), синхронно с `HOME=/home/slin`, который launcher форсит в env Popen и git_env — устранён скрытый рассинхрон SSH-маунта с форсимым HOME. `src/agents/launcher.py` и `Dockerfile` НЕ менялись (numeric uid работает без записи в `/etc/passwd`; `safe.directory '*'` уже покрывает git над bind-mount). Требует host-prerequisites Owner (P-1…P-4, вне кода): блокер P-1 — `chown -R 1000:1000 /home/slin/.claude` для доступа uid 1000 к claude creds (иначе preflight заворачивает конвейер); прод-рестарт self — только в окно тишины (общий инстанс с enduro-trails), страховка — staging-гейт (adr-0003). ADR `docs/work-items/ORCH-040/06-adr/ADR-001-run-agents-as-host-uid.md`, глобальный `docs/architecture/adr/adr-0005-container-runs-as-host-uid.md`; INFRA.md обновлён (рантайм-uid, volumes/SSH target, host-prerequisites). Тесты: `tests/test_orch040_compose.py`.
|
||||
- **Staging-чек B6 читает реестр из окружения работающего staging-инстанса** (ORCH-048): блок B6 «Registry: sandbox present, prod ET/ORCH absent» в `scripts/staging_check.py` давал **ложный FAIL** (`prod-ET=YES(BAD!)`, `prod-ORCH=YES(BAD!)`) при фактически исправной изоляции — единственный чек suite, который не ходил к инстансу по HTTP, а импортировал `src.projects` локально через host-path хак `sys.path.insert(0, "/repos/orchestrator")` + `importlib.reload`, строя реестр из `ORCH_PROJECTS_JSON` **process-env запускающего процесса**. При фактическом запуске деплоером с хоста переменная не задана → дефолт `_DEFAULT_PROJECTS` (ET+ORCH) → ложный FAIL → лишний откат `deploy-staging → development`. Решение (вариант «в», ADR-001): host-path хак удалён; suite канонически запускается ВНУТРИ контейнера `orchestrator-staging` через `docker exec … python3 /repos/orchestrator/scripts/staging_check.py` (`scripts/` доступен только через bind-mount, `import src.projects` резолвится через `PYTHONPATH=/app` из кода контейнера, env — `.env.staging`) → B6 читает реестр именно работающего инстанса, без HTTP-bootstrap и «курицы-яйца». Логика вердикта вынесена в чистую `_evaluate_b6(known) -> (passed, detail)` (инвариант `passed ⟺ SANDBOX ∈ known ∧ PROD_ET ∉ known ∧ PROD_ORCH ∉ known`, формат detail сохранён) + `_known_project_ids_from_registry()` / `_run_b6()` с детерминированным FAIL при недоступности источника (не ложный PASS, не необработанное исключение). Синхронно обновлены `.openclaw/agents/deployer.md` (команда стадии через `docker exec`) и `docs/operations/STAGING_CHECK.md`. `src/projects.py`, `.env*` и прочие чеки A/B4/B5/C не тронуты; реестр `QG_CHECKS` и `check_staging_status` (ADR-0003) не менялись. ADR `docs/work-items/ORCH-048/06-adr/ADR-001-b6-registry-via-in-container-run.md`. Тесты: `tests/test_staging_check_b6.py`.
|
||||
- **Testing-гейт `check_tests_passed` читает `result:` наравне с `verdict:`/`status:`** (ORCH-047): парсер `_parse_tests_verdict` (`src/qg/checks.py`) теперь принимает три равноправных машиночитаемых поля frontmatter `13-test-report.md` — `result:` (канон промпта тестера `.openclaw/agents/tester.md`, `result: PASS|FAIL`), плюс легаси `verdict:` и `status:` (enduro-trails ET-001..ET-014); достаточно любого одного непустого. Устраняет рассинхрон контракта: тестер честно эмитил `result: PASS` без `verdict:`/`status:`, парсер попадал в ветку «нет машинного вердикта» → откат `testing → development` в петлю до исчерпания `MAX_DEVELOPER_RETRIES` (наблюдалось на ORCH-17; ORCH-016 прошёл лишь из-за избыточного дублирования полей). Семантика приоритетов сохранена и распространена на все три поля через объединённую строку: negative-токен в любом поле авторитетен (перебивает positive), наборы токенов заморожены (обратная совместимость). Сигнатура гейта, имя и реестр `QG_CHECKS` не менялись. ADR `docs/work-items/ORCH-047/06-adr/ADR-001-result-field-in-tests-gate.md`. Тесты: `tests/test_qg.py::TestCheckTestsPassed`.
|
||||
|
||||
@@ -129,6 +129,12 @@ uvicorn src.main:app --reload --port 8500
|
||||
| `ORCH_TRANSIENT_MAX_ATTEMPTS` | Ретраи для 429/недоступности | `5` |
|
||||
| `ORCH_BREAKER_THRESHOLD` | transient подряд до открытия breaker | `3` |
|
||||
| `ORCH_BREAKER_PAUSE_SECONDS` | Пауза при открытом breaker | `300` |
|
||||
| `ORCH_RECONCILE_ENABLED` | Kill-switch sweeper потерянных webhook (ORCH-053) | `true` |
|
||||
| `ORCH_RECONCILE_PLANE_ENABLED` | Отдельный флаг F-2 (опрос Plane API) | `true` |
|
||||
| `ORCH_RECONCILE_INTERVAL_S` | Период фонового прохода reconciler, сек | `120` |
|
||||
| `ORCH_RECONCILE_GRACE_DEFAULT_S` | Порог «застряла» по `tasks.updated_at`, сек | `600` |
|
||||
| `ORCH_RECONCILE_GRACE_OVERRIDES_JSON` | Per-stage пороги, напр. `{"development":300}` | `""` |
|
||||
| `ORCH_RECONCILE_NOTIFY_UNBLOCK` | Telegram при разблокировке застрявшей задачи | `true` |
|
||||
|
||||
## Очередь задач (ORCH-1 / F-2b)
|
||||
|
||||
|
||||
@@ -11,6 +11,7 @@
|
||||
- **Quality Gates** (`src/qg/checks.py`) — проверки выхода со стадии, реестр `QG_CHECKS`.
|
||||
- **Agent Launcher** (`src/agents/launcher.py`) — запуск Claude CLI агентов в изолированном git worktree, мониторинг, auto-advance.
|
||||
- **Queue** (`src/queue_worker.py`, ORCH-1) — персистентная очередь задач (SQLite `jobs`), atomic claim, max_concurrency, ретраи, restart-safe.
|
||||
- **Reconciler** (`src/reconciler.py`, ORCH-053 — реализовано, [adr-0007](adr/adr-0007-reconciler.md)) — фоновый daemon-поток (паттерн `queue_worker`), стартует/останавливается в `main.lifespan` (после `worker.start()` / перед `worker.stop()`). Реконсилирует рассинхрон «источник истины ≠ стадия задачи» при потерянном webhook. F-1 gate-side (продвигает застрявшую стадию по локальной БД через штатный `advance_stage(..., finished_agent=None)`), F-2 plane-side (опрос Plane API → `handle_*` из `plane.py`), F-3 (БД-fallback `sha→branch` в `handle_ci_status`). Источник истины — гейт/Plane, не событие; идемпотентность (active-job guard + atomic-claim + grace); kill-switch `ORCH_RECONCILE_ENABLED`. `analysis` F-1 не трогает (человеческий гейт). Наблюдаемость — блок `reconcile` в `GET /queue`.
|
||||
- **Project Registry** (`src/projects.py`, ORCH-6) — Plane project id → repo + prefix; фильтрация вебхуков по проекту.
|
||||
- **Plane Sync** (`src/plane_sync.py`) — синхронизация статусов/комментариев в Plane.
|
||||
|
||||
@@ -52,33 +53,34 @@ created → analysis → architecture → development → review → testing →
|
||||
|
||||
Подробнее: [adr-0006](adr/adr-0006-merge-gate.md), детально — `docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md`.
|
||||
|
||||
### Исполняемый самодеплой стадии `deploy` (ORCH-36)
|
||||
`deploy` перестаёт быть «бумажной»: для self-hosting (`is_self_hosting_repo`) стадия
|
||||
РЕАЛЬНО деплоит прод (8500) через хост-хук `scripts/orchestrator-deploy-hook.sh`,
|
||||
а `deploy_status: SUCCESS` означает доказанный health-ok, не декларацию LLM. Три фазы
|
||||
(детерминированно, без LLM в критическом пути self-restart):
|
||||
- **Фаза A (вход в `deploy`)** — при `deploy_require_manual_approve=true` вместо запуска
|
||||
прод-deployer выставляется approval-pending статус Plane + запрос approve
|
||||
(Plane-коммент + Telegram). Перехват в `advance_stage` ПОСЛЕ `check_staging_status`
|
||||
и merge-gate.
|
||||
- **Фаза B (Plane → `Approved`)** — `advance_stage(deploy, finished_agent=None)`
|
||||
запускает **detached host-процесс** (ssh + setsid → хук с прод-параметрами +
|
||||
build-once retag `SOURCE_IMAGE`) и ставит детерминированный **finalizer-job**;
|
||||
маркер `initiated` — идемпотентность. Возврат БЕЗ advance (вердикта ещё нет).
|
||||
- **Фаза C (finalizer)** — новый контейнер после рестарта читает sentinel `result`
|
||||
(exit-code хука), маппит `0→SUCCESS / иначе→FAILED`, пишет `14-deploy-log.md`,
|
||||
вызывает `advance_stage(deploy, finished_agent="deployer")` → существующие контракты:
|
||||
`SUCCESS → done`, `FAILED → откат БАГ-8 на development`.
|
||||
### Reconciler: реконсиляция потерянных webhook (ORCH-053 — реализовано)
|
||||
Конвейер продвигается только входящими webhook; потерянное событие (502 на ребилде,
|
||||
нет ретраев у Plane/Gitea, неразрезолвленный `sha→branch`) → задача застревает молча
|
||||
(инцидент ORCH-044). Фоновый поток `reconciler` периодически (`reconcile_interval_s`)
|
||||
находит застрявшие задачи и доигрывает пропущенный переход **через те же штатные
|
||||
гейты/обработчики**, что и webhook:
|
||||
- **F-1 gate-side:** для задач со `stage∉{done}`, без активного job и
|
||||
`age(updated_at) ≥ grace_for_stage(stage)` — read-only пред-оценка канонического QG;
|
||||
зелёный → `stage_engine.advance_stage(..., finished_agent=None)`; красный →
|
||||
тишина (спам нотификаций структурно невозможен). `analysis` не реконсилируется.
|
||||
- **F-2 plane-side:** опрос Plane API per-project → `handle_status_start` /
|
||||
`handle_verdict` из `webhooks/plane.py` (логика не дублируется).
|
||||
- **F-3:** усиление `sha→branch` в `handle_ci_status` (БД-fallback по единственной
|
||||
development-задаче repo; неоднозначность → не резолвим).
|
||||
- **F-4 observability:** при разблокировке — лог-строка `reconciler: <wi> <stage>
|
||||
разблокирована (потерян webhook)` + Telegram (`reconcile_notify_unblock`); снимок
|
||||
состояния в `GET /queue` (блок `reconcile`).
|
||||
|
||||
Approve = смена статуса Plane на `Approved` (status-only verdict model; комментарии
|
||||
не управляют конвейером). На старте — обязательный ручной approve (флаг `true`); полный
|
||||
авто — отдельная задача (ORCH-54). Условность как ORCH-35: реально для `orchestrator`,
|
||||
прочие репо — прежний синхронный ssh-деплой агентом. Контракты не меняются:
|
||||
`STAGE_TRANSITIONS`, реестр QG, `check_deploy_status`/`_parse_deploy_status`, БАГ-8,
|
||||
terminal-sync, merge-gate, exit-code-контракт хука. Restart-safe состояние —
|
||||
sentinel-файлы (`<repos_dir>/.deploy-state-<repo>/<wi>/`), без миграции БД.
|
||||
Подробнее: [adr-0007](adr/adr-0007-executable-self-deploy.md), детально —
|
||||
`docs/work-items/ORCH-036/06-adr/ADR-001-executable-self-deploy.md`.
|
||||
Реализация: `src/reconciler.py` (daemon-поток по образцу `queue_worker`), стартует в
|
||||
`main.lifespan` **после** `worker.start()`, останавливается в `finally` **перед**
|
||||
`worker.stop()`.
|
||||
|
||||
Инварианты: источник истины — гейт/Plane, не событие; идемпотентность (active-job
|
||||
guard + atomic-claim на создании под process-wide Lock + grace + `max_concurrency=1`);
|
||||
never-raise на единицу работы; тишина при синхронности; restart-safe; kill-switch
|
||||
`ORCH_RECONCILE_ENABLED` (+ `ORCH_RECONCILE_PLANE_ENABLED` гасит только F-2). Схема БД
|
||||
и реестры (`STAGE_TRANSITIONS`/`QG_CHECKS`) не меняются. Подробнее:
|
||||
[adr-0007](adr/adr-0007-reconciler.md), детально — `docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md`.
|
||||
|
||||
## Откаты
|
||||
- Reviewer REQUEST_CHANGES → откат на `development` + retry (`MAX_DEVELOPER_RETRIES = 3`).
|
||||
@@ -123,7 +125,7 @@ sentinel-файлы (`<repos_dir>/.deploy-state-<repo>/<wi>/`), без мигр
|
||||
|--------|------|----------|
|
||||
| GET | `/health` | health check |
|
||||
| GET | `/status` | активные задачи (stage != done) |
|
||||
| GET | `/queue` | очередь: counts + max_concurrency + последние jobs |
|
||||
| GET | `/queue` | очередь: counts + max_concurrency + resilience + reconcile (ORCH-053) + последние jobs |
|
||||
| POST | `/webhook/plane` | Plane webhook |
|
||||
| POST | `/webhook/gitea` | Gitea webhook (push, PR, CI status) |
|
||||
|
||||
@@ -137,4 +139,4 @@ sentinel-файлы (`<repos_dir>/.deploy-state-<repo>/<wi>/`), без мигр
|
||||
Схема БД, потоки данных, resilience-слой, детали Dockerfile — [internals.md](internals.md).
|
||||
|
||||
---
|
||||
*Актуально на 2026-06-06. Обновлять при изменении src/stages.py, src/qg/checks.py, src/main.py. ORCH-043: merge-gate — design (см. adr-0006), реализация в ветке feature/ORCH-043. ORCH-036: исполняемый самодеплой стадии `deploy` — design (см. adr-0007), реализация в ветке feature/ORCH-036.*
|
||||
*Актуально на 2026-06-06. Обновлять при изменении src/stages.py, src/qg/checks.py, src/main.py. ORCH-043: merge-gate — design (см. adr-0006), реализация в ветке feature/ORCH-043. ORCH-053: reconciler — реализовано (см. adr-0007, src/reconciler.py).*
|
||||
|
||||
@@ -11,6 +11,7 @@ Per-work-item решения живут в `docs/work-items/<id>/06-adr/ADR-NNN-
|
||||
| adr-0004 | Поллинг с ретраем в check_ci_green (фикс CI-race) | accepted | 2026-06-05 | ORCH-045 |
|
||||
| adr-0005 | Контейнеры бегут под uid:gid хоста (1000:1000) | accepted | 2026-06-06 | ORCH-040 |
|
||||
| adr-0006 | Merge-gate (догон main + re-test + сериализация слияний) | proposed | 2026-06-06 | ORCH-043 |
|
||||
| adr-0007 | Reconciler застрявших стадий (sweeper потерянных webhook) | accepted | 2026-06-06 | ORCH-053 |
|
||||
|
||||
## Формат
|
||||
**Контекст → Решение → Альтернативы → Последствия → Связи.** Статус: proposed / accepted / superseded.
|
||||
|
||||
@@ -1,64 +0,0 @@
|
||||
# ADR-0007: Исполняемый самодеплой стадии `deploy` (Вариант B, ORCH-36)
|
||||
|
||||
## Статус
|
||||
Accepted (design) — реализация в ветке `feature/ORCH-036`.
|
||||
|
||||
## Контекст
|
||||
Стадия `deploy` была «бумажной»: deployer-агент писал `deploy_status:` в
|
||||
`14-deploy-log.md`, гейт `check_deploy_status` парсил вердикт и двигал
|
||||
`deploy → done`. Реального деплоя не было. ORCH-36 делает стадию исполняемой для
|
||||
self-hosting (`orchestrator`), сохраняя прежний ssh-путь для остальных репо.
|
||||
|
||||
Три ограничения формируют дизайн (детально — `docs/work-items/ORCH-036/06-adr/ADR-001`):
|
||||
1. **Self-restart**: рестарт прод-контейнера 8500 убивает in-container процесс →
|
||||
рестарт делает ВНЕШНИЙ host-процесс.
|
||||
2. **Status-only verdict model**: approve = смена статуса Plane на `Approved`
|
||||
(комментарии не управляют конвейером).
|
||||
3. **Гонка гейта**: вердикт нельзя читать до завершения асинхронного хука.
|
||||
|
||||
## Решение
|
||||
Для self-hosting стадия `deploy` исполняется в три фазы детерминированным кодом
|
||||
(без LLM в критическом пути self-restart):
|
||||
|
||||
- **Фаза A (вход в `deploy`)** — для self + `deploy_require_manual_approve=true`
|
||||
вместо запуска прод-deployer выставляется approval-pending статус Plane + запрос
|
||||
approve (Plane-коммент + Telegram). Перехват в `advance_stage` на ребре
|
||||
`deploy-staging → deploy` (после `check_staging_status` и merge-gate).
|
||||
- **Фаза B (Plane → Approved)** — `advance_stage(deploy, finished_agent=None)`
|
||||
запускает **detached host-процесс** (ssh + setsid → `orchestrator-deploy-hook.sh`
|
||||
с прод-параметрами и build-once retag) и ставит **детерминированный finalizer-job**
|
||||
с задержкой; маркер `initiated` — идемпотентность. Возврат БЕЗ advance.
|
||||
- **Фаза C (finalizer)** — после рестарта новый контейнер дочитывает sentinel
|
||||
`result` (exit-code хука), маппит `0→SUCCESS / иначе→FAILED`, пишет
|
||||
`14-deploy-log.md`, вызывает `advance_stage(deploy, finished_agent="deployer")`
|
||||
→ существующие контракты: `SUCCESS → done`, `FAILED → откат БАГ-8 на development`.
|
||||
|
||||
### Ключевые инварианты (НЕ меняются)
|
||||
`STAGE_TRANSITIONS`, реестр QG, `check_deploy_status` / `_parse_deploy_status`
|
||||
(frontmatter only), откат БАГ-8, terminal-sync `deploy → done`, merge-gate (ORCH-43),
|
||||
exit-code-контракт хука (0/1/2).
|
||||
|
||||
### Новое (сквозное)
|
||||
- **Детерминированный job-kind** `deploy-finalizer` в очереди (reserved-agent, не
|
||||
LLM): read-result | defer | map+write+advance. Зеркалит детерминизм merge-gate.
|
||||
- **Approve-флаг** `deploy_require_manual_approve` (дефолт `true`; полный авто —
|
||||
отдельная задача после набора метрик доверия, ORCH-54).
|
||||
- **Build-once**: опциональный `SOURCE_IMAGE` retag в хуке (обратно совместимо).
|
||||
- **Restart-safe состояние** деплоя — sentinel-файлы под
|
||||
`<repos_dir>/.deploy-state-<repo>/<wi>/` (как merge-lease), БЕЗ миграции БД.
|
||||
|
||||
### Условность
|
||||
Вся логика — только для `is_self_hosting_repo(repo)` (как ORCH-35). Прочие репо
|
||||
деплоятся прежним синхронным ssh-путём агентом.
|
||||
|
||||
## Последствия
|
||||
- `deploy_status: SUCCESS` доказан реальным health-ok; критический путь self-restart
|
||||
детерминирован.
|
||||
- Вводится новая под-компонента (finalizer job-handler) → изменение помечено
|
||||
`arch:major-change`.
|
||||
- Approve вписан в status-only модель: restart-safe, аудируемо, идемпотентно.
|
||||
- На старте — обязательный ручной approve; молчаливых деплоев нет (Plane+Telegram).
|
||||
|
||||
## Связанные ADR
|
||||
`adr-0003` (staging-gate), `adr-0006` (merge-gate), `adr-0005` (run-as-host-uid).
|
||||
Детальный per-work-item: `docs/work-items/ORCH-036/06-adr/ADR-001-executable-self-deploy.md`.
|
||||
69
docs/architecture/adr/adr-0007-reconciler.md
Normal file
69
docs/architecture/adr/adr-0007-reconciler.md
Normal file
@@ -0,0 +1,69 @@
|
||||
# adr-0007: Reconciler застрявших стадий (sweeper потерянных webhook)
|
||||
|
||||
- **Статус:** accepted (реализовано в `src/reconciler.py`)
|
||||
- **Дата:** 2026-06-06
|
||||
- **Задача:** ORCH-053
|
||||
- **Детальный ADR:** `docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md`
|
||||
|
||||
## Контекст
|
||||
Конвейер продвигается **только** входящими webhook (Plane status / Gitea CI/PR).
|
||||
Потерянное событие (502 на ребилде, отсутствие ретраев у Plane/Gitea,
|
||||
неразрезолвленный `sha→branch`) → источник истины изменился, а стадия задачи —
|
||||
нет; задача застревает молча (инцидент ORCH-044). Существующий resilience
|
||||
(`requeue_running_jobs`, orphan-recovery, events de-dup ORCH-5, `ci_poll`
|
||||
ORCH-045) работает на уровне jobs/agent_runs и **не реконсилирует**
|
||||
рассинхрон «источник истины ≠ стадия задачи».
|
||||
|
||||
## Решение
|
||||
Фоновый daemon-поток `src/reconciler.py` (паттерн `queue_worker`, module-singleton,
|
||||
`threading.Event`), стартует в `main.lifespan` после `worker.start()`, стоп в
|
||||
`finally` перед `worker.stop()`. Две взаимодополняющие ветки на каждом тике
|
||||
(`reconcile_interval_s`, дефолт 120с):
|
||||
|
||||
- **F-1 gate-side** (локальная БД): для каждой `task` где `stage∉{done}`, **нет**
|
||||
активного job, `age(updated_at) ≥ grace_for_stage(stage)` — read-only пред-оценка
|
||||
канонического QG стадии; если зелёный → продвижение **штатным**
|
||||
`stage_engine.advance_stage(..., finished_agent=None)` (тот же путь, что у Plane
|
||||
Approved-webhook). Красный → **тишина** (нет advance, нет нотификаций — спам
|
||||
структурно невозможен). `analysis` F-1 **не** реконсилирует (человеческий гейт →
|
||||
отдан F-2).
|
||||
- **F-2 plane-side** (опрос Plane API per-project через `list_issues_by_state`):
|
||||
`In Progress`+нет задачи → `handle_status_start`; `Approved`+не сдвинута →
|
||||
`handle_verdict(approved=True)`; `Rejected`+не откатана →
|
||||
`handle_verdict(approved=False)`. Обработчики `webhooks/plane.py`
|
||||
**переиспользуются** (async → `asyncio.run` из sync-потока), логика не дублируется.
|
||||
- **F-3:** усиление `sha→branch` в `handle_ci_status` (БД-fallback по
|
||||
`repo`+`stage='development'`, видимость на INFO) — defense-in-depth.
|
||||
|
||||
**Инварианты:** источник истины — гейт/Plane, не событие; продвижение только через
|
||||
`advance_stage`; идемпотентность (active-job guard + atomic-claim на создании +
|
||||
grace + `max_concurrency=1`); never-raise на единицу работы; тишина при
|
||||
синхронности; restart-safe; kill-switch.
|
||||
|
||||
## Альтернативы
|
||||
- **Флаг подавления нотификаций в `advance_stage`** — отклонён: меняет общий
|
||||
критический путь. Вместо этого «не вызывать advance_stage на красном гейте».
|
||||
- **UNIQUE-индекс `tasks.plane_id`** для анти-дубля — отклонён как primary: риск
|
||||
падения миграции на проде; выбран process-wide `threading.Lock` (single-process
|
||||
топология). Индекс — задокументированное будущее упрочнение для multi-process.
|
||||
- **Отдельная стадия/QG реконсиляции** — вне объёма; нарушает «источник истины —
|
||||
существующий гейт».
|
||||
- **Реконсиляция analysis по локальным артефактам** — отклонена: автопродвижение
|
||||
неодобренного человеком BRD.
|
||||
|
||||
## Последствия
|
||||
- Потерянный webhook ≠ молча застрявшая задача; ручной heartbeat-watchdog не нужен;
|
||||
резервная сетка к ORCH-51 (буфер недоставленных) и ORCH-36 (deploy).
|
||||
- Плата: фоновый поток + опрос Plane API (митигируется интервалом/фильтром/
|
||||
per-project); двойная оценка гейта на зелёной задаче; анти-дубль опирается на
|
||||
single-process-допущение (как и очередь ORCH-1).
|
||||
- Self-hosting: `reconcile_enabled` — обязательный kill-switch; поэтапный раскат
|
||||
(`reconcile_plane_enabled` гасит только F-2); reconciler не рестартит/не роняет
|
||||
прод-контейнер. БД-схема и реестры (`STAGE_TRANSITIONS`/`QG_CHECKS`) не меняются.
|
||||
|
||||
## Связи
|
||||
adr-0002 (очередь / `available_at`, single-process-singleton), adr-0003 (условный
|
||||
гейт — образец условности/флагов раската), adr-0006 (merge-gate как под-гейт ребра
|
||||
внутри `advance_stage`), adr-0001 (реестр проектов для F-2 per-project), ORCH-5
|
||||
(events de-dup — защита от дублей; reconciler — обратная защита от потерь),
|
||||
ORCH-045 (`ci_poll`).
|
||||
@@ -8,7 +8,6 @@
|
||||
|
||||
1. **Захват текущего образа** — до рестарта записывает ID образа работающего контейнера в `$PREV_IMAGE_FILE` (best-effort, не падает если сервис не запущен).
|
||||
2. **git pull** — обновляет код репозитория.
|
||||
2b. **Build-once retag** (ORCH-036, BR-6) — если задан `$SOURCE_IMAGE`, хук ретегает его на `$TARGET_IMAGE` (`docker tag $SOURCE_IMAGE $TARGET_IMAGE`) и поднимает контейнер на этом образе через `up -d --no-build`. Это деплой РОВНО того образа, что прошёл staging, **без `docker build`**. Если `$SOURCE_IMAGE` не задан (дефолт) — шаг пропускается (обратная совместимость).
|
||||
3. **Рестарт контейнера** — `docker compose --profile $COMPOSE_PROFILE up -d --no-build $TARGET_SERVICE`.
|
||||
4. **Health-цикл** — 10 попыток × 6с = до 60с. Критерий: HTTP 200 + тело содержит `"status":"ok"`.
|
||||
- **Успех** → `exit 0`, лог "Deploy SUCCESS".
|
||||
@@ -30,7 +29,6 @@
|
||||
| `TARGET_IMAGE` | `orchestrator-orchestrator-staging` | Имя образа для retag при rollback |
|
||||
| `COMPOSE_PROFILE`| `staging` | Docker compose profile (пусто = без профиля) |
|
||||
| `PREV_IMAGE_FILE`| `$REPO/.deploy-prev-image-staging`| Файл для сохранения предыдущего образа |
|
||||
| `SOURCE_IMAGE` | _(unset)_ | Build-once (ORCH-036): провалидированный образ для retag на `$TARGET_IMAGE` перед рестартом (без rebuild). Не задан → шаг пропущен. |
|
||||
| `LOG` | `/var/log/orchestrator/deploy-hook.log` | Лог-файл (fallback: `$REPO/deploy-hook.log`) |
|
||||
|
||||
> ⚠️ **Дефолт — всегда STAGING**. Прод активируется только явным переопределением env.
|
||||
@@ -57,20 +55,6 @@ PREV_IMAGE_FILE=/home/slin/repos/orchestrator/.deploy-prev-image-prod \
|
||||
bash scripts/orchestrator-deploy-hook.sh --deploy
|
||||
```
|
||||
|
||||
### Прод build-once (ORCH-036) — ретег staging-образа, без rebuild
|
||||
|
||||
Так прод-деплой запускается **автоматически** исполняемым самодеплоем (Фаза B: `ssh + setsid`, см. `INFRA.md`). Ключевое отличие — `SOURCE_IMAGE` указывает на провалидированный staging-образ, который ретегается на прод-тег:
|
||||
|
||||
```bash
|
||||
SOURCE_IMAGE=orchestrator-orchestrator-staging \
|
||||
TARGET_SERVICE=orchestrator \
|
||||
TARGET_PORT=8500 \
|
||||
TARGET_IMAGE=orchestrator-orchestrator \
|
||||
COMPOSE_PROFILE="" \
|
||||
PREV_IMAGE_FILE=/home/slin/repos/orchestrator/.deploy-prev-image-prod \
|
||||
bash scripts/orchestrator-deploy-hook.sh --deploy
|
||||
```
|
||||
|
||||
### Ручной rollback staging
|
||||
|
||||
```bash
|
||||
|
||||
@@ -75,14 +75,13 @@ ADR `docs/work-items/ORCH-040/06-adr/ADR-001-run-agents-as-host-uid.md` и гл
|
||||
| `ORCH_AGENT_EFFORT_DEFAULT` | режим работы `--effort` по умолчанию (ORCH-41): low\|medium\|high\|xhigh\|max; дефолт `high` |
|
||||
| `ORCH_AGENT_EFFORT_<AGENT>` | per-agent effort; дефолт: думающие → high, tester/deployer → medium |
|
||||
| `ORCH_AGENT_FALLBACK_MODEL` | опц. фолбэк-модель при overloaded (`--fallback-model`); пусто → без флага |
|
||||
| `ORCH_SELF_DEPLOY_ENABLED` | ORCH-036 kill-switch исполняемого самодеплоя (true); false → legacy-путь для всех |
|
||||
| `ORCH_SELF_DEPLOY_REPOS` | CSV репозиториев с реальным самодеплоем; пусто → только self-hosting `orchestrator` |
|
||||
| `ORCH_DEPLOY_REQUIRE_MANUAL_APPROVE` | требовать человеческий Plane «Approved» для прод-деплоя (true, безопасно) |
|
||||
| `ORCH_DEPLOY_FINALIZE_DELAY_S` / `_MAX_ATTEMPTS` | задержка и бюджет defer'ов finalizer'а (Фаза C; 90 / 10) |
|
||||
| `ORCH_DEPLOY_SSH_USER` / `_SSH_HOST` | куда запускается detached хост-деплой (Фаза B, `ssh user@host`) |
|
||||
| `ORCH_DEPLOY_HOOK_SCRIPT` / `_HOST_REPO_PATH` | путь к хук-скрипту (отн. репо) и чекаут orchestrator на хосте |
|
||||
| `ORCH_DEPLOY_PROD_SOURCE_IMAGE` | staging-образ для build-once retag на прод-тег (без rebuild) |
|
||||
| `ORCH_DEPLOY_PROD_TARGET_SERVICE` / `_TARGET_PORT` / `_TARGET_IMAGE` / `_COMPOSE_PROFILE` / `_PREV_IMAGE_FILE` | прод-цель хука + снапшот для авто-rollback |
|
||||
| `ORCH_RECONCILE_ENABLED` | kill-switch sweeper потерянных webhook (ORCH-053); дефолт `true`. **При инциденте/раскатке** — `false` глушит весь фоновый reconciler |
|
||||
| `ORCH_RECONCILE_PLANE_ENABLED` | отдельный флаг F-2 (опрос Plane API); `false` гасит только plane-ветку, F-1 продолжает работать; дефолт `true` |
|
||||
| `ORCH_RECONCILE_INTERVAL_S` | период фонового прохода reconciler, сек; дефолт `120` |
|
||||
| `ORCH_RECONCILE_GRACE_DEFAULT_S` | порог «застряла» по `tasks.updated_at`, сек; дефолт `600` |
|
||||
| `ORCH_RECONCILE_GRACE_OVERRIDES_JSON` | per-stage пороги, напр. `{"development":300}`; невалидный JSON → дефолт |
|
||||
| `ORCH_RECONCILE_NOTIFY_UNBLOCK` | слать Telegram при разблокировке застрявшей задачи; дефолт `true` |
|
||||
| `DEPLOY_SSH_USER` / `_HOST` / `DEPLOY_HOOK_SCRIPT` | параметры деплой-хука |
|
||||
|
||||
**Секреты — только в `.env` / `.env.staging` на хосте, в гит НЕ коммитятся.** Канон — `.env.example`, `.env.staging.example`.
|
||||
|
||||
|
||||
@@ -1,7 +0,0 @@
|
||||
# Business Request: ORCH-36: Исполняемый самодеплой — стадия deploy дёргает хост-хук (Вариант B)
|
||||
|
||||
Work Item ID: ORCH-036
|
||||
|
||||
## Description
|
||||
|
||||
TBD
|
||||
@@ -1,109 +0,0 @@
|
||||
# BRD — ORCH-36: Исполняемый самодеплой (стадия deploy дёргает хост-хук, Вариант B)
|
||||
|
||||
Work Item: ORCH-036
|
||||
Stage: analysis
|
||||
Автор: analyst
|
||||
Дата: 2026-06-06
|
||||
|
||||
## 1. Контекст и проблема
|
||||
|
||||
Стадия `deploy` конвейера сейчас **«бумажная»**. На ней deployer-агент (LLM) только
|
||||
пишет `docs/work-items/<wi>/14-deploy-log.md` с `deploy_status: SUCCESS|FAILED`, а QG
|
||||
`check_deploy_status` (`src/qg/checks.py:464`) парсит этот вердикт и пускает `deploy → done`.
|
||||
**Реального docker-деплоя нет** — продакшен орка катается руками (Стрим).
|
||||
|
||||
Хост-хук `scripts/orchestrator-deploy-hook.sh` **уже существует** (ORCH-34) и умеет:
|
||||
захват PREV_IMG → `git pull` → рестарт сервиса → health-check (10×6с = 60с) →
|
||||
авто-rollback при провале health, с корректным exit-code. Дефолты — STAGING-безопасные;
|
||||
прод включается через override env (`TARGET_SERVICE`, `TARGET_PORT`, `TARGET_IMAGE`,
|
||||
`COMPOSE_PROFILE`).
|
||||
|
||||
**Главная мина (self-hosting):** прод-контейнер `orchestrator` (8500) — ОДИН на все
|
||||
проекты, и в нём же бежит сам deployer-агент. Deployer не может синхронно рестартить
|
||||
контейнер, в котором живёт (`docker compose up -d orchestrator` убьёт его процесс на
|
||||
середине). Реальный рестарт self-репо обязан делать ВНЕШНИЙ хост-хук (вне контейнера),
|
||||
который срабатывает ПОСЛЕ выхода агента. Рубильник — снаружи; орк только ИНИЦИИРУЕТ.
|
||||
|
||||
## 2. Цель
|
||||
|
||||
Превратить стадию `deploy` в РЕАЛЬНЫЙ самодеплой: после зелёного `deploy-staging`-гейта
|
||||
конвейер вызывает хост-хук с прод-параметрами, хук промоутит образ в прод (8500) с
|
||||
health-чеком и авто-rollback. Результат хука (exit-code) маппится в `deploy_status`.
|
||||
**На старте — с ОБЯЗАТЕЛЬНЫМ ручным approve** (`DEPLOY_REQUIRE_MANUAL_APPROVE=true`):
|
||||
прод не трогается без явного «go» Владельца.
|
||||
|
||||
## 3. Ценность для бизнеса
|
||||
|
||||
- Уходит последний ручной шаг конвейера (прод-деплой Стрим) → шаг к автономному внедрению (эпик ORCH-54).
|
||||
- `deploy_status: SUCCESS` становится **доказанным** (реальный health-ok), а не декларацией LLM.
|
||||
- Гарантия build-once: «что протестировали на staging — то и в проде» (тот же образ, без пересборки).
|
||||
- Прод никогда не остаётся в нерабочем состоянии: авто-rollback + health-таймаут.
|
||||
|
||||
## 4. Заинтересованные стороны
|
||||
|
||||
| Роль | Интерес |
|
||||
|------|---------|
|
||||
| Владелец (Слава/Стрим) | Контроль через ручной approve; уведомления о каждом промоуте/откате |
|
||||
| Проект enduro-trails | Прод-орк не должен падать (общий инстанс) — групповой риск |
|
||||
| Конвейер ORCH | Стадия `deploy` исполняемая, гейты не сломаны |
|
||||
|
||||
## 5. Объём (scope)
|
||||
|
||||
### В объёме
|
||||
1. Исполнение реального прод-деплоя из стадии `deploy` через хост-хук (ssh / detached на хосте).
|
||||
2. Обязательный ручной approve-гейт ПОСЛЕ зелёного staging и ДО прод-рестарта (флаг включён).
|
||||
3. Маппинг exit-code хука → `deploy_status: SUCCESS|FAILED` (реальный, не бумажный).
|
||||
4. Уведомления (Plane-коммент + Telegram) на каждый промоут и откат.
|
||||
5. Build-once: перетегирование образа, прошедшего staging, без пересборки.
|
||||
6. Обновление `deployer.md` и `INFRA.md` (документация = golden source).
|
||||
7. Для НЕ-self репо (enduro-trails и др.) — деплой по ssh на их хост (поведение не ломается).
|
||||
|
||||
### Вне объёма (явно)
|
||||
- **Включение полного авто** (`DEPLOY_REQUIRE_MANUAL_APPROVE: true → false`) — отдельная задача,
|
||||
ТОЛЬКО после набора метрик доверия (см. §7). В этой задаче флаг НЕ выключается.
|
||||
- Изменение `docker-compose.yml` без явной необходимости.
|
||||
- Изменение стадий `STAGE_TRANSITIONS`, реестра QG, terminal-sync `deploy → done`.
|
||||
- Прод-деплой в реальный бой во время разработки задачи (отладка — только на staging-цели хука).
|
||||
|
||||
## 6. Бизнес-требования
|
||||
|
||||
- **BR-1.** После зелёного `deploy-staging`-гейта стадия `deploy` РЕАЛЬНО собирает/перетегирует
|
||||
образ, рестартит целевой сервис и проверяет health — не пишет бумажный SUCCESS.
|
||||
- **BR-2.** Для self-репо `orchestrator` рестарт 8500 выполняется ВНЕШНИМ (detached/host)
|
||||
процессом; deployer-агент НЕ убивает контейнер, в котором работает.
|
||||
- **BR-3.** `deploy_status: SUCCESS` пишется ТОЛЬКО при health-ok хука; провал/health-fail →
|
||||
`deploy_status: FAILED` → откат на `development` (как ORCH-35 staging-rollback, БАГ-8).
|
||||
- **BR-4.** Ручной approve обязателен (флаг `true`): без явного «go» прод НЕ трогается.
|
||||
- **BR-5.** Каждый промоут и откат уведомляет Владельца: Plane-коммент в задачу + Telegram.
|
||||
«Молчаливых» деплоев нет.
|
||||
- **BR-6.** Build-once: в прод идёт тот образ, что прошёл staging-гейт (перетег, не пересборка).
|
||||
- **BR-7.** Staging-гейт (`check_staging_status`) остаётся обязательным предусловием прод-деплоя.
|
||||
- **BR-8.** Прод никогда не остаётся в нерабочем состоянии — авто-rollback при провале health.
|
||||
- **BR-9.** Существующие гейты и инварианты не ломаются: `check_deploy_status`,
|
||||
`_parse_deploy_status`, rollback `deploy → development` (БАГ-8), terminal-sync `deploy → done`,
|
||||
merge-gate (ORCH-43).
|
||||
- **BR-10.** Документация (`deployer.md`, `INFRA.md`, `CHANGELOG.md`) обновлена в том же PR.
|
||||
|
||||
## 7. Критерии готовности к включению ПОЛНОГО авто (вне этой задачи)
|
||||
|
||||
Переключать `DEPLOY_REQUIRE_MANUAL_APPROVE: true → false` можно ТОЛЬКО когда закрыты ВСЕ 5:
|
||||
1. ≥10 успешных промоутов подряд (staging зелёный → approve → прод поднялся, откат не нужен).
|
||||
2. Zero false-negative: staging-гейт ни разу не пропустил битый деплой как «зелёный».
|
||||
3. Авто-rollback проверен в бою (≥2–3 реальных срабатывания), recovery 100%, MTTR < 60с.
|
||||
4. Ни одного «молчаливого» деплоя (каждый промоут/откат уведомил Владельца).
|
||||
5. Период наблюдения ≥10 деплоев ИЛИ ≥2 недели без инцидентов в режиме manual-approve.
|
||||
|
||||
## 8. Риски
|
||||
|
||||
| Риск | Влияние | Митигация |
|
||||
|------|---------|-----------|
|
||||
| Падение прод-орка 8500 при self-деплое | Встаёт конвейер ВСЕХ проектов | Detached host-хук + health + авто-rollback; отладка на staging-цели |
|
||||
| Deployer рестартит сам себя синхронно | Процесс агента убит на середине | BR-2: рестарт только внешним detached-процессом |
|
||||
| Преждевременный `deploy_status: SUCCESS` (хук ещё не закончил) | Задача уходит в done при незавершённом деплое | Гейт читает РЕАЛЬНЫЙ исход хука (механизм — на дизайне) |
|
||||
| Деплой без approve | Неконтролируемый прод-деплой | BR-4: approve-гейт блокирует до «go» |
|
||||
| Пересборка вместо перетега | В прод уезжает не то, что тестировали | BR-6: build-once, `--no-build` + retag |
|
||||
|
||||
## 9. Связанные задачи
|
||||
ORCH-7 (self-hosting), ORCH-21 (auto-rollback), ORCH-34 (хук готов), ORCH-35 (staging-гейт),
|
||||
ORCH-43 (merge-gate в проде), ORCH-54 (эпик автономного внедрения).
|
||||
Дизайн-референс: `tasks/orchestrator/DESIGN_STAGING_ENV.md §4/§7`.
|
||||
@@ -1,136 +0,0 @@
|
||||
# ТЗ — ORCH-36: Исполняемый самодеплой (стадия deploy дёргает хост-хук, Вариант B)
|
||||
|
||||
Work Item: ORCH-036
|
||||
Stage: analysis
|
||||
Автор: analyst
|
||||
Дата: 2026-06-06
|
||||
|
||||
> Документ фиксирует ТРЕБОВАНИЯ к изменениям (что и где). Конкретный механизм
|
||||
> (ssh vs docker.sock vs detached nohup/systemd-run; механизм approve) выбирает
|
||||
> архитектор в ADR (`06-adr/`). ТЗ задаёт границы и контракты, не реализацию.
|
||||
|
||||
## 1. Текущее устройство (as-is, разведано в коде)
|
||||
|
||||
- **Стадии** (`src/stages.py`): `… testing → deploy-staging → deploy → done`.
|
||||
- `deploy-staging`: `agent=deployer`, `qg=check_staging_status` (запускается deployer при
|
||||
выходе из `deploy-staging`, входе в `deploy`).
|
||||
- `deploy`: `agent=None`, `qg=check_deploy_status` (агент НЕ запускается при выходе из `deploy`).
|
||||
- **Вывод:** реальную работу стадии `deploy` делает deployer-агент, запущенный на переходе
|
||||
`deploy-staging → deploy`. Он пишет `14-deploy-log.md`. Когда он завершается, `advance_stage`
|
||||
с `current_stage=deploy` прогоняет `check_deploy_status` и двигает `deploy → done`.
|
||||
- **QG** (`src/qg/checks.py`):
|
||||
- `check_deploy_status:464` → `_parse_deploy_status:406` читает ТОЛЬКО `deploy_status:` из
|
||||
YAML-frontmatter `14-deploy-log.md` (worktree → origin/main fallback → not found).
|
||||
- `check_staging_status:580` — условный (реален только для self-hosting `orchestrator`).
|
||||
- `is_self_hosting_repo()` (`:511`) — детектор self-репо.
|
||||
- **Откаты/диспетчеризация** (`src/stage_engine.py`):
|
||||
- `_handle_qg_failure_rollbacks:585` — ветка `deployer` + `check_deploy_status` FAILED →
|
||||
откат `deploy → development`, `set_issue_blocked`, release merge-lease, Plane+Telegram.
|
||||
- Terminal-sync `deploy → done` (`:281`) → `set_issue_done`, release merge-lease.
|
||||
- merge-gate (ORCH-43) на ребре `deploy-staging → deploy` — НЕ трогать.
|
||||
- **Launcher** (`src/agents/launcher.py`):
|
||||
- deployer-агент конфиг: `.task-deploy.md` / `.openclaw/agents/deployer.md` (`:180`).
|
||||
- Пост-обработка: commit+push артефактов в worktree (`:506-558`).
|
||||
- `exit_code != 0 && agent == deployer` → откат `deploy → development` (`:560-581`).
|
||||
- **Хост-хук** (`scripts/orchestrator-deploy-hook.sh`, ORCH-34) — ГОТОВ: `--deploy`/`--rollback`,
|
||||
параметризован env, дефолты STAGING; health 10×6с; авто-rollback; exit 0/1/2.
|
||||
- **Agent (deployer.md)**: на стадии `deploy` сейчас пишет «бумажный» вердикт; в промпте маркер
|
||||
«Real docker/SSH deploys are handled by scripts/orchestrator-deploy-hook.sh (ORCH-36)».
|
||||
- **Топология** (`docs/operations/INFRA.md`): prod=8500 (`.env`), staging=8501 (`.env.staging`,
|
||||
profile staging). Контейнер под uid 1000, доступ к docker.sock через gid 999.
|
||||
|
||||
## 2. Изменения по модулям (to-be)
|
||||
|
||||
### 2.1 `scripts/orchestrator-deploy-hook.sh` (донастройка прод-режима)
|
||||
- Хук уже параметризован; требуется обеспечить **корректный прод-профиль вызова**:
|
||||
`TARGET_SERVICE=orchestrator`, `TARGET_PORT=8500`, `TARGET_IMAGE=orchestrator-orchestrator`,
|
||||
`COMPOSE_PROFILE` (для прод-сервиса — пустой/дефолтный, т.к. prod стартует без profile).
|
||||
- **Build-once (BR-6):** деплой должен использовать образ, прошедший staging (перетег
|
||||
staging-образа → прод-тег + `docker compose up -d --no-build`), а НЕ пересобирать. Если
|
||||
текущий хук всегда `--no-build` и тянет `git pull` — уточнить в ADR, как гарантируется
|
||||
идентичность артефакта staging↔prod (retag staging image, либо общий build-once шаг).
|
||||
- `PREV_IMAGE_FILE` для прод — отдельный путь (например `.deploy-prev-image` без `-staging`),
|
||||
чтобы не путать снапшоты prod/staging.
|
||||
- Поведение `--rollback`, health-loop, exit-code (0=ok, 1=rolled back, 2=rollback тоже упал) —
|
||||
НЕ менять контракт.
|
||||
|
||||
### 2.2 Approve-гейт (новое; место — на дизайне)
|
||||
- Ввести флаг конфигурации `DEPLOY_REQUIRE_MANUAL_APPROVE` (bool, дефолт `true`).
|
||||
- При `true`: перед вызовом прод-хука (после зелёного `deploy-staging`) конвейер ОСТАНАВЛИВАЕТСЯ
|
||||
и ждёт явного «go» Владельца. Без «go» прод-хук НЕ вызывается.
|
||||
- Механизм approve (выбрать ОДИН в ADR): Plane-коммент-триггер (по образцу `:approved:`
|
||||
в `check_analysis_approved`) / Telegram-кнопка / signal-файл. Требование к механизму:
|
||||
рестарт-safe (переживает перезапуск инстанса), идемпотентный, аудируемый.
|
||||
- При `false` (вне этой задачи): approve-шаг пропускается — НЕ реализовывать выключение здесь,
|
||||
только заложить ветку по флагу.
|
||||
|
||||
### 2.3 Триггер реального деплоя из стадии `deploy`
|
||||
- На стадии `deploy` (для self-репо `orchestrator`) вместо/в дополнение к записи вердикта
|
||||
агентом — ИНИЦИИРОВАТЬ внешний detached-процесс (host-хук), который выполнит
|
||||
build-once+restart+health ПОСЛЕ выхода агента (BR-2: агент не рестартит сам себя).
|
||||
- Маршрут вызова (на дизайне): ssh на хост (`DEPLOY_SSH_USER`/`DEPLOY_HOOK_SCRIPT`) ИЛИ
|
||||
detached через docker.sock/nohup/systemd-run. Требование: процесс хука переживает выход
|
||||
агента и завершение его сессии.
|
||||
- Для **не-self** репо (enduro-trails): деплой по ssh на их хост (как раньше) — поведение не ломать.
|
||||
|
||||
### 2.4 Маппинг результата хука → `deploy_status`
|
||||
- `deploy_status: SUCCESS` пишется в `14-deploy-log.md` ТОЛЬКО при exit-code хука = 0 (health-ok).
|
||||
- exit-code ≠ 0 (1 = rolled back; 2 = rollback тоже упал) → `deploy_status: FAILED`.
|
||||
- **Контракт `_parse_deploy_status` НЕ меняется** (читает `deploy_status: SUCCESS|FAILED` из
|
||||
frontmatter). Меняется только КТО и КОГДА пишет этот вердикт — на основе реального исхода.
|
||||
- **Гонка чтения гейта:** т.к. self-рестарт асинхронный (detached), гейт `check_deploy_status`
|
||||
не должен прочитать вердикт ДО завершения хука. Механизм синхронизации (post-factum запись
|
||||
лога/мердж в main / отложенный гейт) — спроектировать в ADR так, чтобы гейт читал РЕАЛЬНЫЙ
|
||||
итог. Контракт чтения из worktree→origin/main (`_deploy_log_from_main`) можно переиспользовать.
|
||||
|
||||
### 2.5 Уведомления (BR-5)
|
||||
- На промоут (старт прод-деплоя + успех) и на откат → `plane_add_comment(work_item_id, …)` +
|
||||
`send_telegram(…)`. Переиспользовать существующие хелперы (`src/notifications.py`,
|
||||
`src/plane_sync.py`). Никаких «молчаливых» деплоев.
|
||||
|
||||
### 2.6 Конфигурация (`src/config.py` / `.env.example` / `.env.staging.example`)
|
||||
- Новый: `deploy_require_manual_approve: bool = True` (env `ORCH_DEPLOY_REQUIRE_MANUAL_APPROVE`).
|
||||
- Прод-параметры хука: `DEPLOY_SSH_USER`, `DEPLOY_SSH_HOST`, `DEPLOY_HOOK_SCRIPT` (уже есть в
|
||||
INFRA-карте) + прод-override `TARGET_SERVICE/PORT/IMAGE`. Прописать дескрипторы в `.env.example`
|
||||
(значения — только на хосте, не коммитить).
|
||||
- Условность по репо: реальный прод-деплой — только для self-hosting (`is_self_hosting_repo`),
|
||||
как ORCH-35; прочие репо идут прежним ssh-путём.
|
||||
|
||||
### 2.7 Документация (BR-10, golden source)
|
||||
- `.openclaw/agents/deployer.md` — раздел «Stage: deploy»: переписать с «бумажного SUCCESS» на
|
||||
«стадия ВЫЗЫВАЕТ хук»; зафиксировать запрет синхронного рестарта 8500 и detached-путь self.
|
||||
- `docs/operations/INFRA.md` — процедура прод-деплоя орка через хук + approve.
|
||||
- `docs/operations/DEPLOY_HOOK.md` — обновить, если затронут контракт хука.
|
||||
- `CHANGELOG.md` — запись о включении исполняемого деплоя (manual-approve).
|
||||
- ADR в `docs/work-items/ORCH-036/06-adr/ADR-NNN-*.md` (создаёт архитектор).
|
||||
|
||||
## 3. API
|
||||
- Изменений публичного HTTP API (`/health`, `/status`, `/queue`, `/webhook/*`) **не требуется**.
|
||||
- Если approve реализуется через Plane-коммент — переиспользуется существующий webhook-путь
|
||||
(`POST /webhook/plane`), новый endpoint не вводится. Если через signal-файл/Telegram —
|
||||
внешний по отношению к HTTP API механизм. Решение — ADR.
|
||||
|
||||
## 4. Схема БД
|
||||
- Изменения схемы **не требуются** для базового сценария (вердикт — в `14-deploy-log.md`;
|
||||
approve-состояние желательно хранить рестарт-safe — допустимо через jobs/task_content или
|
||||
signal-файл, без новой таблицы). Если архитектор сочтёт нужным поле статуса approve —
|
||||
обосновать в ADR; по умолчанию — без миграции.
|
||||
|
||||
## 5. Требования к Quality Gates
|
||||
- `check_deploy_status` и `_parse_deploy_status` — контракт чтения НЕ менять (frontmatter only).
|
||||
- Откат `deploy → development` при `deploy_status: FAILED` (`stage_engine` БАГ-8) — сохранить.
|
||||
- Terminal-sync `deploy → done` и release merge-lease — сохранить.
|
||||
- merge-gate (`check_branch_mergeable`) на ребре `deploy-staging → deploy` — не затрагивать.
|
||||
- `check_staging_status` остаётся обязательным предусловием (BR-7).
|
||||
|
||||
## 6. Артефакты pipeline
|
||||
- Создаётся/обновляется: `docs/work-items/ORCH-036/14-deploy-log.md` (с РЕАЛЬНЫМ `deploy_status`).
|
||||
- Обновляются по pipeline: `06-adr/ADR-NNN-*.md`, `12-review.md`, `13-test-report.md`,
|
||||
`15-staging-log.md` (последующими агентами).
|
||||
|
||||
## 7. Нефункциональные требования
|
||||
- **Безопасность self-deploy:** рестарт 8500 — только внешним рубильником; орк не может
|
||||
необратимо убить себя.
|
||||
- **Идемпотентность** хука и approve-механизма; **рестарт-safe** approve-состояние.
|
||||
- **MTTR < 60с** при авто-rollback (health-loop хука 10×6с уже укладывается).
|
||||
- **Отладка только на staging-цели** хука; реальный прод — лишь после approve.
|
||||
@@ -1,97 +0,0 @@
|
||||
# Критерии приёмки — ORCH-36: Исполняемый самодеплой (Вариант B)
|
||||
|
||||
Work Item: ORCH-036
|
||||
Stage: analysis
|
||||
Автор: analyst
|
||||
Дата: 2026-06-06
|
||||
|
||||
Формат: каждый критерий — проверяемое условие PASS/FAIL. Отладка и проверки
|
||||
выполняются на **staging-цели хука** (8501); реальный прод (8500) — только после approve.
|
||||
|
||||
---
|
||||
|
||||
## AC-1. Стадия deploy исполняет реальный деплой (не бумажный)
|
||||
- **PASS:** на стадии `deploy` (после зелёного `deploy-staging`) вызывается хост-хук,
|
||||
который реально перетегирует образ, рестартит целевой сервис и выполняет health-check;
|
||||
`deploy_status` отражает РЕАЛЬНЫЙ исход хука.
|
||||
- **FAIL:** `deploy_status: SUCCESS` пишется без фактического рестарта/health (бумажный лог).
|
||||
- **Проверка:** прогон на staging-цели хука; в логе хука видны retag + `up -d` + health-loop;
|
||||
exit-code хука соответствует записанному `deploy_status`.
|
||||
|
||||
## AC-2. Self-репо: рестарт 8500 — внешним detached-процессом, агент себя не убивает
|
||||
- **PASS:** для `orchestrator` рестарт 8500 выполняет процесс ВНЕ контейнера агента; deployer-агент
|
||||
завершается штатно (exit 0), его процесс не убит рестартом контейнера.
|
||||
- **FAIL:** deployer синхронно делает `docker compose up -d orchestrator` из контейнера и/или
|
||||
агент падает/обрывается на середине из-за рестарта собственного контейнера.
|
||||
- **Проверка:** симуляция на staging-цели; убедиться, что detached-процесс переживает выход агента.
|
||||
|
||||
## AC-3. deploy_status маппится из exit-code хука
|
||||
- **PASS:** exit-code хука 0 → `deploy_status: SUCCESS`; exit-code ≠ 0 (1/2) → `deploy_status: FAILED`.
|
||||
- **FAIL:** любой иной маппинг (например SUCCESS при exit 1).
|
||||
- **Проверка:** unit-тест маппинга exit-code → вердикт; интеграционный прогон с искусственным
|
||||
кодом возврата хука.
|
||||
|
||||
## AC-4. Провал деплоя → откат на development
|
||||
- **PASS:** при `deploy_status: FAILED` задача откатывается `deploy → development`
|
||||
(`set_issue_blocked`, Plane+Telegram), как в существующей ветке БАГ-8.
|
||||
- **FAIL:** при FAILED задача уходит в `done` или зависает.
|
||||
- **Проверка:** существующий контракт `stage_engine._handle_qg_failure_rollbacks` для
|
||||
`deployer`+`check_deploy_status` сохранён и срабатывает.
|
||||
|
||||
## AC-5. Ручной approve обязателен и реально тормозит прод
|
||||
- **PASS:** при `DEPLOY_REQUIRE_MANUAL_APPROVE=true` прод-хук НЕ вызывается до явного «go»;
|
||||
после «go» — вызывается.
|
||||
- **FAIL:** прод-хук дёргается без approve.
|
||||
- **Проверка:** прогон без «go» — целевой сервис НЕ перезапущен (нет записи рестарта в логе хука,
|
||||
не сменился uptime/контейнер); прогон с «go» — рестарт состоялся.
|
||||
|
||||
## AC-6. Уведомления о каждом промоуте и откате
|
||||
- **PASS:** на старт/успех прод-деплоя и на откат приходят и Plane-коммент в задачу, и Telegram.
|
||||
- **FAIL:** хотя бы один промоут/откат прошёл «молчаливо».
|
||||
- **Проверка:** в Plane-задаче и в Telegram-чате присутствуют сообщения для каждого исхода.
|
||||
|
||||
## AC-7. Build-once: в прод идёт образ, прошедший staging
|
||||
- **PASS:** прод-деплой использует тот же образ, что прошёл staging-гейт (retag + `--no-build`),
|
||||
без пересборки.
|
||||
- **FAIL:** прод-деплой пересобирает образ заново (артефакт может отличаться от протестированного).
|
||||
- **Проверка:** sha/тег образа прод == образ, валидированный на staging; в логе нет `build`.
|
||||
|
||||
## AC-8. Staging-гейт остаётся обязательным предусловием
|
||||
- **PASS:** прод-деплой недостижим без зелёного `check_staging_status` (`staging_status: SUCCESS`).
|
||||
- **FAIL:** прод-хук можно вызвать при FAILED/отсутствующем staging-вердикте.
|
||||
- **Проверка:** при `staging_status: FAILED` задача откатывается на development, до `deploy` не доходит.
|
||||
|
||||
## AC-9. Авто-rollback восстанавливает прод (симуляция битого деплоя)
|
||||
- **PASS:** при симуляции битого деплоя на staging-цели health не проходит → хук авто-откатывает
|
||||
на предыдущий образ → сервис снова healthy; exit-code = 1 (rolled back); MTTR < 60с.
|
||||
- **FAIL:** сервис остаётся нерабочим после провала деплоя.
|
||||
- **Проверка:** искусственно сломать health, прогнать хук, убедиться в восстановлении и exit 1.
|
||||
|
||||
## AC-10. Существующие инварианты не сломаны
|
||||
- **PASS:** не изменены контракты `check_deploy_status` / `_parse_deploy_status`,
|
||||
`STAGE_TRANSITIONS`, terminal-sync `deploy → done`, merge-gate (ORCH-43), rollback БАГ-8.
|
||||
- **FAIL:** любой из перечисленных контрактов изменён/сломан.
|
||||
- **Проверка:** существующие тесты deploy/staging/merge-gate зелёные; регресс-прогон `pytest tests/`.
|
||||
|
||||
## AC-11. Условность по репо (не-self не ломается)
|
||||
- **PASS:** для не-self репо (enduro-trails) деплой идёт прежним ssh-путём; self-логика (detached,
|
||||
approve, 8500) применяется только для `orchestrator`.
|
||||
- **FAIL:** не-self репо затронуты self-специфичной логикой и ломаются.
|
||||
- **Проверка:** `is_self_hosting_repo` корректно разводит пути; тест на не-self репо.
|
||||
|
||||
## AC-12. Флаг полного авто НЕ выключен в этой задаче
|
||||
- **PASS:** `DEPLOY_REQUIRE_MANUAL_APPROVE` остаётся `true`; переключение в `false` не делается.
|
||||
- **FAIL:** флаг выставлен в `false` в рамках задачи.
|
||||
- **Проверка:** дефолт конфигурации = `true`; в коде/`.env.example` нет принудительного `false`.
|
||||
|
||||
## AC-13. Документация обновлена (golden source)
|
||||
- **PASS:** обновлены `deployer.md` (стадия deploy = вызов хука), `INFRA.md` (процедура),
|
||||
`CHANGELOG.md`; заведён ADR в `06-adr/`.
|
||||
- **FAIL:** функционал изменён, документация — нет (Reviewer обязан вернуть REQUEST_CHANGES).
|
||||
- **Проверка:** диффы документации присутствуют в том же PR.
|
||||
|
||||
---
|
||||
|
||||
## Definition of Done
|
||||
Все AC-1…AC-13 в статусе PASS; `pytest tests/` зелёный; артефакты pipeline на месте;
|
||||
прод (8500) во время разработки НЕ тронут (вся проверка — на staging-цели хука).
|
||||
@@ -1,122 +0,0 @@
|
||||
work_item: ORCH-036
|
||||
title: "Исполняемый самодеплой — стадия deploy дёргает хост-хук (Вариант B)"
|
||||
stage: analysis
|
||||
notes: >
|
||||
Все тесты — на изолированном уровне (unit/integration с моками subprocess/ssh
|
||||
и хука). Реальный прод (8500) НЕ трогается. Интеграционные прогоны хука — на
|
||||
staging-цели. Хост-хук (bash) проверяется отдельным интеграционным сценарием с
|
||||
поддельным health/exit-code; в pytest вызов хука мокается.
|
||||
|
||||
tests:
|
||||
# --- exit-code -> deploy_status mapping (AC-1, AC-3) ---
|
||||
- id: TC-01
|
||||
type: unit
|
||||
description: "Маппинг exit-code хука 0 -> deploy_status: SUCCESS"
|
||||
module: tests/test_deploy_hook_mapping.py
|
||||
expected: PASS
|
||||
- id: TC-02
|
||||
type: unit
|
||||
description: "Маппинг exit-code хука 1 (rolled back) -> deploy_status: FAILED"
|
||||
module: tests/test_deploy_hook_mapping.py
|
||||
expected: PASS
|
||||
- id: TC-03
|
||||
type: unit
|
||||
description: "Маппинг exit-code хука 2 (rollback тоже упал) -> deploy_status: FAILED"
|
||||
module: tests/test_deploy_hook_mapping.py
|
||||
expected: PASS
|
||||
|
||||
# --- approve gate (AC-5, AC-12) ---
|
||||
- id: TC-04
|
||||
type: unit
|
||||
description: "DEPLOY_REQUIRE_MANUAL_APPROVE дефолт == true в settings"
|
||||
module: tests/test_deploy_approve.py
|
||||
expected: PASS
|
||||
- id: TC-05
|
||||
type: integration
|
||||
description: "Флаг true и нет 'go' -> прод-хук НЕ вызывается (subprocess/ssh не дёрнут)"
|
||||
module: tests/test_deploy_approve.py
|
||||
expected: PASS
|
||||
- id: TC-06
|
||||
type: integration
|
||||
description: "Флаг true и есть 'go' -> прод-хук вызывается ровно один раз"
|
||||
module: tests/test_deploy_approve.py
|
||||
expected: PASS
|
||||
|
||||
# --- self vs non-self routing (AC-2, AC-11) ---
|
||||
- id: TC-07
|
||||
type: unit
|
||||
description: "is_self_hosting_repo('orchestrator') == True; иной репо -> False (не регрессировал)"
|
||||
module: tests/test_deploy_routing.py
|
||||
expected: PASS
|
||||
- id: TC-08
|
||||
type: integration
|
||||
description: "self-репо orchestrator: рестарт инициируется detached/host-процессом, не синхронно из агента"
|
||||
module: tests/test_deploy_routing.py
|
||||
expected: PASS
|
||||
- id: TC-09
|
||||
type: integration
|
||||
description: "не-self репо (enduro-trails): деплой идёт прежним ssh-путём, self-логика не применяется"
|
||||
module: tests/test_deploy_routing.py
|
||||
expected: PASS
|
||||
|
||||
# --- rollback on FAILED (AC-4) ---
|
||||
- id: TC-10
|
||||
type: integration
|
||||
description: "deploy_status: FAILED -> откат deploy->development, set_issue_blocked, release merge-lease"
|
||||
module: tests/test_deploy_rollback.py
|
||||
expected: PASS
|
||||
|
||||
# --- staging precondition preserved (AC-8) ---
|
||||
- id: TC-11
|
||||
type: integration
|
||||
description: "staging_status: FAILED -> до стадии deploy не доходит (откат на development)"
|
||||
module: tests/test_staging_precondition.py
|
||||
expected: PASS
|
||||
|
||||
# --- notifications (AC-6) ---
|
||||
- id: TC-12
|
||||
type: integration
|
||||
description: "Успешный промоут -> и Plane-коммент, и Telegram отправлены"
|
||||
module: tests/test_deploy_notifications.py
|
||||
expected: PASS
|
||||
- id: TC-13
|
||||
type: integration
|
||||
description: "Откат -> и Plane-коммент, и Telegram отправлены (нет молчаливого деплоя)"
|
||||
module: tests/test_deploy_notifications.py
|
||||
expected: PASS
|
||||
|
||||
# --- build-once (AC-7) ---
|
||||
- id: TC-14
|
||||
type: integration
|
||||
description: "Прод-деплой использует образ staging (retag, без build) — нет шага docker build"
|
||||
module: tests/test_deploy_build_once.py
|
||||
expected: PASS
|
||||
|
||||
# --- regression: unchanged gate contracts (AC-10) ---
|
||||
- id: TC-15
|
||||
type: unit
|
||||
description: "_parse_deploy_status: SUCCESS->(True), FAILED->(False), нет frontmatter->(False) — контракт цел"
|
||||
module: tests/test_qg_checks.py
|
||||
expected: PASS
|
||||
- id: TC-16
|
||||
type: unit
|
||||
description: "STAGE_TRANSITIONS deploy->done и agent/qg deploy не изменены"
|
||||
module: tests/test_stages.py
|
||||
expected: PASS
|
||||
- id: TC-17
|
||||
type: integration
|
||||
description: "terminal-sync deploy->done (set_issue_done + release merge-lease) сохранён"
|
||||
module: tests/test_deploy_terminal_sync.py
|
||||
expected: PASS
|
||||
- id: TC-18
|
||||
type: integration
|
||||
description: "merge-gate на ребре deploy-staging->deploy не затронут (регресс ORCH-43 зелёный)"
|
||||
module: tests/test_merge_gate.py
|
||||
expected: PASS
|
||||
|
||||
# --- auto-rollback hook behavior (AC-9) ---
|
||||
- id: TC-19
|
||||
type: integration
|
||||
description: "Симуляция битого деплоя на staging-цели: health fail -> авто-rollback -> healthy, exit 1, MTTR<60с"
|
||||
module: tests/test_deploy_hook_rollback_sim.py
|
||||
expected: PASS
|
||||
@@ -1,184 +0,0 @@
|
||||
# ADR-001: Исполняемый самодеплой — стадия `deploy` дёргает хост-хук (Вариант B)
|
||||
|
||||
Work Item: ORCH-036
|
||||
Stage: architecture
|
||||
Автор: architect
|
||||
Дата: 2026-06-06
|
||||
|
||||
## Статус
|
||||
Accepted
|
||||
|
||||
## Контекст
|
||||
|
||||
Стадия `deploy` сейчас «бумажная»: deployer-агент (LLM) пишет в `14-deploy-log.md`
|
||||
`deploy_status: SUCCESS|FAILED`, а гейт `check_deploy_status` (`src/qg/checks.py:464`)
|
||||
парсит этот вердикт и двигает `deploy → done`. Реального docker-деплоя нет (прод
|
||||
катается руками). BRD ORCH-36 требует превратить стадию в РЕАЛЬНЫЙ самодеплой с
|
||||
обязательным ручным approve, build-once и авто-rollback (BR-1…BR-10).
|
||||
|
||||
Три твёрдых ограничения, разведанных в коде, определяют дизайн:
|
||||
|
||||
1. **Self-restart (BR-2).** Прод-контейнер `orchestrator` (8500) — ОДИН на все
|
||||
проекты, и в нём же исполняется deployer. `docker compose up -d orchestrator`
|
||||
из контейнера убьёт процесс агента/воркера на середине. Реальный рестарт обязан
|
||||
делать ВНЕШНИЙ процесс на хосте, переживающий гибель контейнера.
|
||||
2. **Status-only verdict model.** Комментарии Plane НЕ управляют конвейером —
|
||||
механизм `:approved:`/`:rejected:` был удалён (`src/webhooks/plane.py:544`,
|
||||
bug-3 «echo self-hit»). Единственный человеческий гейт — **смена статуса Plane
|
||||
на `Approved`** (`handle_verdict` → `_try_advance_stage` → `advance_stage`).
|
||||
3. **Гонка чтения гейта.** Так как реальный рестарт асинхронный и убивает контейнер,
|
||||
`check_deploy_status` нельзя выполнять на выходе агента — вердикта ещё нет; его
|
||||
преждевременное чтение → ложный FAILED → ложный откат.
|
||||
|
||||
Контракты, которые НЕ меняются (BR-9, AC-10): `STAGE_TRANSITIONS`,
|
||||
`check_deploy_status` / `_parse_deploy_status` (frontmatter only), откат БАГ-8
|
||||
(`deploy → development`), terminal-sync `deploy → done`, merge-gate (ORCH-43),
|
||||
exit-code-контракт хука (0/1/2).
|
||||
|
||||
## Решение
|
||||
|
||||
Деплой стадии `deploy` для self-hosting (`orchestrator`) разбивается на **три фазы**,
|
||||
оркеструемые детерминированным кодом (без LLM в критическом пути self-restart). Для
|
||||
НЕ-self репо (enduro-trails и пр.) поведение НЕ меняется — прежний синхронный
|
||||
ssh-деплой агентом.
|
||||
|
||||
### Условность по репо
|
||||
Вся новая логика гейтится `is_self_hosting_repo(repo)` (как ORCH-35). Не-self репо
|
||||
идут существующим путём: deployer-агент на стадии `deploy` делает ssh-деплой
|
||||
синхронно, пишет `14-deploy-log.md`, гейт срабатывает на выходе агента.
|
||||
|
||||
### Фаза A — запрос approve (вход в `deploy`)
|
||||
В `advance_stage` на ребре `deploy-staging → deploy` (ПОСЛЕ зелёного
|
||||
`check_staging_status` и merge-gate ORCH-43), для self-hosting + `deploy_require_
|
||||
manual_approve=true`:
|
||||
- **НЕ** ставить в очередь прод-deployer (перехватить штатный
|
||||
`enqueue_job(get_agent_for_stage("deploy-staging"))`);
|
||||
- выставить issue в approval-pending статус (паттерн `set_issue_in_review`),
|
||||
написать Plane-коммент «approve для прод-деплоя» + Telegram (BR-5);
|
||||
- записать restart-safe маркер `approve-requested` (sentinel-файл, см. ниже).
|
||||
|
||||
Задача остаётся на стадии `deploy` и ждёт человека. `STAGE_TRANSITIONS` не меняется.
|
||||
|
||||
При `deploy_require_manual_approve=false` (вне объёма, флаг НЕ выключается в ORCH-36 —
|
||||
AC-12) Фаза A сразу переходит к Фазе B без человеческого гейта. Структурная ветка
|
||||
закладывается, но дефолт `true`.
|
||||
|
||||
### Фаза B — инициация деплоя (смена статуса Plane → Approved)
|
||||
Человек ставит issue в `Approved`. `handle_verdict(approved=True)` →
|
||||
`_try_advance_stage` → `advance_stage(current_stage="deploy", finished_agent=None)`.
|
||||
Новая ветка-перехват в `advance_stage`:
|
||||
- условие: `current_stage=="deploy"` И `finished_agent is None` (человеческий путь)
|
||||
И self-hosting И approve-флаг И маркер `initiated` ОТСУТСТВУЕТ;
|
||||
- действие: запустить **внешний detached host-процесс** (см. ниже) и поставить в
|
||||
очередь детерминированный **finalizer-job** с задержкой; записать маркер
|
||||
`initiated` (идемпотентность: повторный Approved не запускает деплой дважды);
|
||||
Plane-коммент «прод-деплой стартовал» + Telegram (BR-5);
|
||||
- **вернуться БЕЗ advance** (НЕ запускать `check_deploy_status` — вердикта ещё нет).
|
||||
|
||||
Дискриминатор `finished_agent` разводит Фазу B (человек, `None`) и Фазу C
|
||||
(finalizer, `"deployer"`), поэтому повторное использование `advance_stage` безопасно.
|
||||
|
||||
### Фаза C — фиксация вердикта (детерминированный finalizer)
|
||||
Finalizer-job (claim'ится воркером уже в НОВОМ контейнере после рестарта):
|
||||
- читает sentinel `result` (exit-code хука, записан host-процессом);
|
||||
- если `result` ещё нет и бюджет попыток не исчерпан → **defer** (повторный
|
||||
finalizer-job с `available_at_delay_s`, как merge-gate defer); бюджет считается
|
||||
из `jobs` (`LIKE '%deploy-finalize%'`, restart-safe);
|
||||
- если `result` есть → **маппинг exit-code → deploy_status** (детерминированный,
|
||||
unit-тестируемый): `0 → SUCCESS`, `1|2|иное → FAILED`; записать
|
||||
`14-deploy-log.md` (frontmatter `deploy_status:`), смержить в `main` (паттерн
|
||||
лога), затем вызвать `advance_stage(current_stage="deploy", finished_agent="deployer")`;
|
||||
- далее срабатывают СУЩЕСТВУЮЩИЕ контракты: `SUCCESS` → terminal-sync `deploy → done`
|
||||
+ release merge-lease; `FAILED` → откат БАГ-8 `deploy → development` +
|
||||
`set_issue_blocked` + Plane/Telegram (BR-3, AC-4). `_parse_deploy_status` НЕ меняется.
|
||||
|
||||
### Механизм detached-запуска: ssh + setsid
|
||||
Выбор: **ssh на хост (`slin@DEPLOY_SSH_HOST`) с setsid-detached исполнением** хука.
|
||||
Обоснование: ssh-ключи уже смонтированы (INFRA P-2), не-self репо уже деплоятся по
|
||||
ssh (единый путь), хук живёт на хосте и под `slin` имеет полный доступ к docker вне
|
||||
контейнера → переживает рестарт 8500 (BR-2). `setsid`/`nohup` + redirect отвязывает
|
||||
удалённый процесс от ssh-канала, чтобы он пережил гибель ssh-клиента при рестарте
|
||||
контейнера. Отвергнуто: вызов через docker.sock изнутри контейнера = ровно мина
|
||||
«убей себя на середине вызова».
|
||||
|
||||
Эскиз (точная сборка — за разработчиком):
|
||||
```
|
||||
ssh -o StrictHostKeyChecking=no slin@$DEPLOY_SSH_HOST \
|
||||
"setsid bash -c 'cd /home/slin/repos/orchestrator && \
|
||||
SOURCE_IMAGE=orchestrator-orchestrator-staging \
|
||||
TARGET_SERVICE=orchestrator TARGET_PORT=8500 \
|
||||
TARGET_IMAGE=orchestrator-orchestrator COMPOSE_PROFILE= \
|
||||
PREV_IMAGE_FILE=.deploy-prev-image-prod \
|
||||
bash scripts/orchestrator-deploy-hook.sh --deploy; \
|
||||
echo \$? > <result-sentinel>' >> <hook.log> 2>&1 </dev/null &"
|
||||
```
|
||||
ssh-команда возвращается сразу; remote-процесс detached. Запись sentinel `result`
|
||||
делает **обёртка** (`echo $? > result`), а НЕ хук — контракт хука нетронут.
|
||||
|
||||
### Build-once (BR-6, AC-7)
|
||||
Прод обязан подняться на ОБРАЗЕ, прошедшем staging (а не на пересборке). Решение:
|
||||
расширить хук **опциональным** `SOURCE_IMAGE` (обратно совместимо: не задан →
|
||||
текущее поведение). При заданном `SOURCE_IMAGE` хук ПЕРЕД `up -d --no-build`
|
||||
делает `docker tag $SOURCE_IMAGE $TARGET_IMAGE`. Для прод-self:
|
||||
`SOURCE_IMAGE=orchestrator-orchestrator-staging` → `TARGET_IMAGE=orchestrator-orchestrator`.
|
||||
Это единственное допустимое изменение хука; exit-code-контракт и дефолтное
|
||||
staging-поведение не меняются. `git pull` хука обновляет рабочее дерево хоста для
|
||||
будущих сборок, но РАЗВЁРНУТЫЙ артефакт = перетегированный staging-образ.
|
||||
|
||||
### Restart-safe состояние: sentinel-файлы (без миграции БД)
|
||||
По образцу merge-lease (`<repos_dir>/.merge-lease-<repo>.json`) состояние деплоя
|
||||
хранится в файлах под `<repos_dir>/.deploy-state-<repo>/<work_item_id>/` (вне git,
|
||||
видны и хосту, и контейнеру через mount `/home/slin/repos ↔ /repos`):
|
||||
- `approve-requested` — Фаза A выполнена;
|
||||
- `initiated` — Фаза B запущена (idempotency-guard);
|
||||
- `result` — exit-code хука (пишет host-обёртка).
|
||||
Бюджет finalize-defer считается из `jobs` (restart-safe), новых таблиц/колонок НЕТ
|
||||
(TRZ §4).
|
||||
|
||||
## Последствия
|
||||
|
||||
### Плюсы
|
||||
- `deploy_status: SUCCESS` становится ДОКАЗАННЫМ (реальный health-ok хука), не
|
||||
декларацией LLM (BR-1).
|
||||
- Self-restart безопасен: рестарт 8500 делает внешний host-процесс; орк себя не
|
||||
убивает (BR-2). Вердикт фиксирует НОВЫЙ контейнер после рестарта.
|
||||
- Критический путь self-restart **детерминирован** (без LLM) — главный выигрыш по
|
||||
безопасности self-hosting; зеркалит детерминизм merge-gate ORCH-43.
|
||||
- Approve вписан в существующую status-only модель — restart-safe, аудируемо в Plane,
|
||||
идемпотентно (маркер `initiated`).
|
||||
- Гонка чтения гейта закрыта: гейт читает РЕАЛЬНЫЙ итог через finalizer-defer.
|
||||
- Build-once гарантирует «что тестировали — то в проде».
|
||||
- Нетронуты: `STAGE_TRANSITIONS`, реестр QG, `_parse_deploy_status`, БАГ-8,
|
||||
terminal-sync, merge-gate, контракт хука (exit-code).
|
||||
|
||||
### Минусы / ограничения
|
||||
- Вводится **новый детерминированный job-handler** в очереди (reserved-agent
|
||||
`deploy-finalizer`, не-LLM) — расширение dispatch воркера/лаунчера. Контейнированное,
|
||||
но это новая под-компонента → задача помечается `arch:major-change`.
|
||||
- Перехваты в `advance_stage` усложняют стадию `deploy` (три ветки по
|
||||
`finished_agent`/маркерам). Требуется аккуратное покрытие тестами (TC-04…TC-09).
|
||||
- Build-once зависит от того, что deploy-staging оставил валидный образ
|
||||
`orchestrator-orchestrator-staging`; при rebase merge-gate возможен дрейф
|
||||
образ↔main (см. 10-tech-risks R-3).
|
||||
- Approve = смена статуса Plane на `Approved`; человек должен понимать, что на
|
||||
стадии `deploy` `Approved` означает «деплой в прод» (документируется в deployer.md
|
||||
и INFRA.md).
|
||||
|
||||
### Что обязан сделать developer
|
||||
1. `src/config.py`: `deploy_require_manual_approve: bool = True` + прод-параметры
|
||||
хука/ssh + `deploy_finalize_delay_s` / `deploy_finalize_max_attempts`.
|
||||
2. `src/stage_engine.py`: перехваты Фазы A/B + ветка finalizer (Фаза C через
|
||||
`advance_stage(..., finished_agent="deployer")`).
|
||||
3. Очередь: reserved-agent `deploy-finalizer` (детерминированный handler:
|
||||
read-result | defer | map+write+advance). Маппинг exit→status — отдельная
|
||||
чистая функция (unit TC-01/02/03).
|
||||
4. `scripts/orchestrator-deploy-hook.sh`: опциональный `SOURCE_IMAGE` retag
|
||||
(обратно совместимо) + прод `PREV_IMAGE_FILE`.
|
||||
5. Уведомления (Plane+Telegram) на initiate/success/rollback (BR-5).
|
||||
6. Документация: `deployer.md`, `INFRA.md`, `DEPLOY_HOOK.md`, `CHANGELOG.md`.
|
||||
7. Отладка — только на staging-цели хука; прод 8500 в разработке не трогать.
|
||||
|
||||
## Связанные решения
|
||||
- Глобальный ADR: `docs/architecture/adr/adr-0007-executable-self-deploy.md`.
|
||||
- ORCH-35 staging-gate (`adr-0003`), ORCH-43 merge-gate (`adr-0006`),
|
||||
ORCH-21 auto-rollback, ORCH-34 хук, ORCH-40 run-as-host-uid (`adr-0005`).
|
||||
@@ -1,48 +0,0 @@
|
||||
# Инфраструктурные требования — ORCH-036
|
||||
|
||||
Work Item: ORCH-036
|
||||
Stage: architecture
|
||||
Автор: architect
|
||||
|
||||
> Топология не меняется (та же mva154, те же два контейнера). Меняется ПРОЦЕДУРА
|
||||
> прод-деплоя орка: из ручной → исполняемая через хост-хук с ручным approve.
|
||||
|
||||
## 1. Контейнеры / порты — без изменений
|
||||
- prod `orchestrator` (8500), staging `orchestrator-staging` (8501) — как в INFRA.md.
|
||||
- Образы (имена для build-once): prod `orchestrator-orchestrator`,
|
||||
staging `orchestrator-orchestrator-staging`.
|
||||
|
||||
## 2. Хост-предусловия (Owner, в git не коммитятся)
|
||||
- **HP-1.** ssh-доступ из контейнера на хост: `ssh slin@$DEPLOY_SSH_HOST` работает
|
||||
под uid 1000 ключом из `~/.orchestrator-ssh` (INFRA P-2). Без него detached-запуск
|
||||
Фазы B невозможен.
|
||||
- **HP-2.** `<repos_dir>/.deploy-state-<repo>/` доступен на запись и хосту (host-обёртка
|
||||
пишет `result`), и контейнеру (finalizer читает) — обеспечивается mount
|
||||
`/home/slin/repos ↔ /repos` (как merge-lease).
|
||||
- **HP-3.** `PREV_IMAGE_FILE` для прод — отдельный путь
|
||||
(`.deploy-prev-image-prod`), чтобы не путать снапшоты prod/staging.
|
||||
- **HP-4 (P-4 из INFRA).** Прод-рестарт self — только в окно тишины; общий инстанс
|
||||
с enduro-trails. На старте — под ручным approve (флаг `true`).
|
||||
|
||||
## 3. Переменные окружения (карта; значения — на хосте, в git только дескрипторы)
|
||||
| Переменная | Назначение | Дефолт |
|
||||
|-----------|-----------|--------|
|
||||
| `ORCH_DEPLOY_REQUIRE_MANUAL_APPROVE` | ручной approve перед прод-деплоем | `true` |
|
||||
| `DEPLOY_SSH_USER` / `DEPLOY_SSH_HOST` | ssh-цель хост-хука | — (INFRA-карта) |
|
||||
| `DEPLOY_HOOK_SCRIPT` | путь к хуку на хосте | `scripts/orchestrator-deploy-hook.sh` |
|
||||
| прод `TARGET_SERVICE/PORT/IMAGE`, `COMPOSE_PROFILE` | override прод-профиля хука | `orchestrator`/`8500`/`orchestrator-orchestrator`/пусто |
|
||||
| `SOURCE_IMAGE` (новый параметр хука) | образ для build-once retag | пусто → текущее поведение |
|
||||
| `ORCH_DEPLOY_FINALIZE_DELAY_S` | задержка перед первым finalize-поллом | > 60с (health-loop хука) |
|
||||
| `ORCH_DEPLOY_FINALIZE_MAX_ATTEMPTS` | бюджет finalize-defer | bounded (anti-livelock) |
|
||||
|
||||
Прописать дескрипторы в `.env.example` / INFRA.md. Реальные значения не коммитить.
|
||||
|
||||
## 4. Сетевые / процессные требования
|
||||
- Detached host-процесс (ssh + setsid) обязан пережить рестарт прод-контейнера 8500.
|
||||
- Finalizer-job исполняется в НОВОМ контейнере после рестарта (очередь restart-safe).
|
||||
- MTTR авто-rollback < 60с (health-loop хука 10×6с уже укладывается, BR-8/AC-9).
|
||||
|
||||
## 5. Что НЕ требуется
|
||||
- Новых контейнеров/портов/сервисов — нет.
|
||||
- Изменений `docker-compose.yml` — не требуется (build-once через retag, не профиль).
|
||||
- Multi-node / облако / message-queue — нет (принципы проекта).
|
||||
@@ -1,34 +0,0 @@
|
||||
# Требования к данным / схеме БД — ORCH-036
|
||||
|
||||
Work Item: ORCH-036
|
||||
Stage: architecture
|
||||
Автор: architect
|
||||
|
||||
## Решение: миграция БД НЕ требуется
|
||||
|
||||
Схема SQLite (`events`, `tasks`, `agent_runs`, `jobs`) не меняется. Обоснование:
|
||||
|
||||
1. **Вердикт деплоя** — в `14-deploy-log.md` (frontmatter `deploy_status:`), как
|
||||
сейчас. `_parse_deploy_status` не трогаем (AC-10).
|
||||
2. **Approve / initiated / result-состояние** — restart-safe через **sentinel-файлы**
|
||||
под `<repos_dir>/.deploy-state-<repo>/<work_item_id>/` (паттерн merge-lease
|
||||
`<repos_dir>/.merge-lease-<repo>.json`), а не через новую таблицу/колонку:
|
||||
- `approve-requested` — Фаза A;
|
||||
- `initiated` — Фаза B (idempotency-guard);
|
||||
- `result` — exit-code хука (пишет host-обёртка).
|
||||
3. **Бюджет finalize-defer** считается из существующей таблицы `jobs`
|
||||
(`task_content LIKE '%deploy-finalize%'`), как `_merge_defer_count` для merge-gate
|
||||
— restart-safe, без новых полей.
|
||||
4. **Finalizer-job** использует существующую структуру `jobs` (agent, repo,
|
||||
task_content, task_id, available_at). Reserved-agent `deploy-finalizer` — это
|
||||
значение в колонке `agent`, схема не меняется.
|
||||
|
||||
## Почему файлы, а не БД
|
||||
- Sentinel должен быть виден И хосту (пишет `result`), И контейнеру (читает finalizer);
|
||||
файл на общем mount это обеспечивает, SQLite-запись из host-обёртки — нет.
|
||||
- Зеркалит уже принятый паттерн merge-lease (ORCH-43) — единообразие, restart-safe,
|
||||
crash-реклейм по возрасту файла.
|
||||
|
||||
Если разработчик при реализации сочтёт необходимым поле статуса approve в БД —
|
||||
это требует обновления данного ADR с обоснованием; по умолчанию — без миграции
|
||||
(согласовано с TRZ §4).
|
||||
@@ -1,23 +0,0 @@
|
||||
# Технические риски — ORCH-036
|
||||
|
||||
Work Item: ORCH-036
|
||||
Stage: architecture
|
||||
Автор: architect
|
||||
|
||||
| ID | Риск | Влияние | Вероятность | Митигация |
|
||||
|----|------|---------|-------------|-----------|
|
||||
| R-1 | Detached host-процесс не пережил рестарт 8500 (ssh-канал убит вместе с контейнером) | Деплой не завершён, `result` не записан, finalizer вечно defer'ит | Средняя | `setsid`/`nohup` + redirect отвязывает remote-процесс от ssh; интеграционная проверка на staging-цели (TC-08); finalize-defer bounded → по исчерпании `set_issue_blocked` + Telegram |
|
||||
| R-2 | Преждевременное чтение `check_deploy_status` (вердикта ещё нет) | Ложный FAILED → ложный откат на development | Средняя | Фаза B возвращается БЕЗ advance; гейт запускает только finalizer (Фаза C) после появления `result`; defer пока `result` отсутствует |
|
||||
| R-3 | Дрейф образ↔main: merge-gate сделал rebase, но staging-образ собран до rebase → build-once тегирует «не тот» код | В прод уезжает не точно то, что в `main` | Низкая | merge-gate (ORCH-43) делает re-test после rebase; build-once = «что валидировано на staging», что и есть контракт; задокументировано как осознанное ограничение; усиление (rebuild+revalidate staging после rebase) — отдельная задача |
|
||||
| R-4 | Двойной Approved (человек кликнул дважды / дубль webhook) запускает деплой дважды | Двойной рестарт прода, гонка | Средняя | Маркер `initiated` (idempotency-guard); event-dedup webhook'ов Plane уже есть |
|
||||
| R-5 | exit 2 хука (rollback тоже упал) → 8500 лежит → finalizer/новый контейнер не поднялся | Конвейер всех проектов встал | Низкая | health-loop + авто-rollback хука минимизируют; `restart: unless-stopped` поднимет контейнер на ПРЕДЫДУЩЕМ образе если retag не случился; exit 2 → `deploy_status: FAILED` + откат + Telegram-алерт; ручной `--rollback` хука как backstop |
|
||||
| R-6 | Reserved-agent `deploy-finalizer` ошибочно уйдёт в LLM-путь лаунчера (`_spawn` → ValueError) | Finalizer не отработает | Низкая | Перехват ДО `_spawn` в `launch_job`; unit-тест маршрутизации |
|
||||
| R-7 | sentinel-файлы не видны контейнеру/хосту (mount/uid) | Фазы B/C не синхронизируются | Низкая | Тот же mount и uid-модель, что у merge-lease (ORCH-40/43); HP-2 в 07-infra |
|
||||
| R-8 | Approve через смену статуса Plane конфликтует с auto-advance других стадий | Случайный `Approved` на `deploy` ничего не ломает, но семантика неочевидна | Низкая | Перехват по `current_stage=="deploy"` + `finished_agent is None` + маркеры; задокументировать в deployer.md/INFRA, что `Approved` на `deploy` = «деплой в прод» |
|
||||
| R-9 | Самодеплой ORCH ломает прод во время разработки самой ORCH-36 | Групповой простой (enduro-trails) | Низкая | Вся отладка — на staging-цели хука (8501); прод 8500 не трогать (AC: DoD); флаг approve=true |
|
||||
|
||||
## Сводный приоритет
|
||||
- **Блокеры дизайна:** R-1, R-2 — закрыты архитектурой (setsid-detached + finalizer-defer).
|
||||
- **Безопасность self-hosting:** R-5, R-9 — закрыты обязательным approve + staging-отладкой
|
||||
+ авто-rollback + `restart: unless-stopped`.
|
||||
- **Корректность:** R-3, R-4 — осознанные ограничения / idempotency-guard.
|
||||
@@ -1,64 +0,0 @@
|
||||
---
|
||||
type: review
|
||||
work_item_id: ORCH-036
|
||||
verdict: APPROVED
|
||||
version: 2
|
||||
---
|
||||
|
||||
# Review ORCH-036 — Исполняемый самодеплой стадии `deploy` (Вариант B)
|
||||
|
||||
## Summary
|
||||
|
||||
Re-review после фикса двух P1 из версии 1. Оба блокера устранены:
|
||||
|
||||
1. **Stale deploy-state маркеры** — добавлен `self_deploy.clear_state(repo, work_item_id)`
|
||||
(never-raise, idempotent, рекурсивное удаление `<repos_dir>/.deploy-state-<repo>/<wi>/`)
|
||||
в ветке БАГ-8-отката `check_deploy_status` FAILED (`_handle_qg_failure_rollbacks`,
|
||||
`src/stage_engine.py`) и дополнительно в начале Фазы A (`_handle_self_deploy_phase_a`)
|
||||
как belt-and-suspenders. Добавлен регрессионный тест
|
||||
`tests/test_deploy_rollback.py::test_tc11_re_deploy_after_rollback_not_wedged`,
|
||||
доказывающий, что после FAILED → откат → фикс → повторный заход на `deploy` Фаза B
|
||||
РЕАЛЬНО инициирует деплой (нет no-op по устаревшему `initiated`), плюс
|
||||
`tests/test_deploy_hook_mapping.py::test_clear_state_removes_all_markers_and_is_idempotent`.
|
||||
2. **`.env.example`** — добавлен полный блок дескрипторов `ORCH_SELF_DEPLOY_*` /
|
||||
`ORCH_DEPLOY_*` (14 настроек, плейсхолдеры, секреты не коммитятся) по образцу
|
||||
merge-gate ORCH-043, с подробными комментариями.
|
||||
|
||||
Реализация трёхфазного исполняемого самодеплоя соответствует ADR-001 и закрывает
|
||||
критерии приёмки AC-1…AC-13. Контракты `STAGE_TRANSITIONS` / `QG_CHECKS` /
|
||||
`_parse_deploy_status` / БАГ-8 / terminal-sync / merge-gate (ORCH-43) НЕ тронуты;
|
||||
условность по репо (`self_deploy_applies`) корректна; перехваты упорядочены верно
|
||||
(Phase B после terminal-check, Phase A после merge-gate); `deploy-finalizer` —
|
||||
детерминированный no-LLM reserved-agent, перехвачен в launcher до `_spawn`. Все
|
||||
импорты (`set_issue_in_review`, `plane_add_comment`, `set_issue_blocked`,
|
||||
`send_telegram`) присутствуют. `pytest tests/` — **568 passed**.
|
||||
|
||||
## Findings
|
||||
|
||||
### P0 — Blocker
|
||||
- (нет)
|
||||
|
||||
### P1 — Must fix
|
||||
- (нет — оба P1 из версии 1 устранены и покрыты тестами)
|
||||
|
||||
### P2 — Should fix
|
||||
- (нет блокирующих; прежний P2 про сквозную процедуру оператора частично закрыт:
|
||||
env-карта новых настроек добавлена в INFRA.md, пошаговый approve→deploy описан в
|
||||
deployer.md и DEPLOY_HOOK.md)
|
||||
|
||||
## Документация
|
||||
|
||||
Обновлена содержательно и в том же PR:
|
||||
- `.openclaw/agents/deployer.md` — стадия `deploy` переписана: self-hosting путь
|
||||
(Фазы A/B/C, явный запрет рестарта 8500 изнутри агента) vs прежний синхронный
|
||||
ssh-путь для не-self репо;
|
||||
- `docs/operations/INFRA.md` — env-карта всех новых `ORCH_SELF_DEPLOY_*` / `ORCH_DEPLOY_*`;
|
||||
- `docs/operations/DEPLOY_HOOK.md` — `SOURCE_IMAGE` build-once + прод-пример;
|
||||
- `docs/architecture/README.md` — раздел «Исполняемый самодеплой стадии `deploy`»;
|
||||
- `CHANGELOG.md` — запись Added (фича) + запись Fixed (review-fix: clear_state + .env.example);
|
||||
- ADR `docs/work-items/ORCH-036/06-adr/ADR-001-executable-self-deploy.md` + глобальный
|
||||
`docs/architecture/adr/adr-0007-executable-self-deploy.md`;
|
||||
- **`.env.example`** — канонический шаблон (CLAUDE.md №8, ТЗ §2.6) дополнен (был пробел в v1).
|
||||
|
||||
Документация = golden source: изменения `src/` сопровождены синхронным обновлением
|
||||
доки в том же PR. Ось документации — PASS.
|
||||
@@ -1,90 +0,0 @@
|
||||
---
|
||||
type: test-report
|
||||
work_item_id: ORCH-036
|
||||
result: PASS
|
||||
---
|
||||
|
||||
# Test Report — ORCH-036
|
||||
|
||||
Исполняемый самодеплой стадии `deploy` (Вариант B) — дёргает хост-хук
|
||||
`scripts/orchestrator-deploy-hook.sh`, три фазы (A/B/C), условность по self-hosting репо.
|
||||
|
||||
## Окружение
|
||||
- Python: 3.12.13
|
||||
- pytest: 8.3.3 (pluggy 1.6.0, anyio 4.13.0, asyncio 0.23.8 — mode AUTO)
|
||||
- Worktree: `feature/ORCH-036-orch-36-deploy-b`
|
||||
- Дата: 2026-06-06
|
||||
- Prod (8500) во время тестов НЕ тронут: вся проверка изолированная (моки subprocess/ssh/хука).
|
||||
Smoke выполнялся read-only GET-запросами.
|
||||
|
||||
## Smoke test API (prod 8500, read-only)
|
||||
| Endpoint | Результат |
|
||||
|----------|-----------|
|
||||
| GET /health | `{"status":"ok","service":"orchestrator"}` — OK |
|
||||
| GET /status | OK (отдаёт активные задачи) |
|
||||
| GET /queue | OK (counts/max_concurrency/resilience; breaker=closed, preflight_ok=true) |
|
||||
|
||||
`curl` в окружении отсутствует — smoke выполнен через `urllib.request` (эквивалент GET).
|
||||
|
||||
## Результаты по тест-плану (04-test-plan.yaml)
|
||||
|
||||
| TC ID | Описание | Тест | Результат |
|
||||
|-------|----------|------|-----------|
|
||||
| TC-01 | exit 0 → deploy_status: SUCCESS | test_tc01_exit0_maps_to_success | PASS |
|
||||
| TC-02 | exit 1 (rolled back) → FAILED | test_tc02_exit1_rolled_back_maps_to_failed | PASS |
|
||||
| TC-03 | exit 2 (rollback тоже упал) → FAILED | test_tc03_exit2_rollback_also_failed_maps_to_failed | PASS |
|
||||
| TC-04 | DEPLOY_REQUIRE_MANUAL_APPROVE дефолт == true | test_tc04_manual_approve_default_true | PASS |
|
||||
| TC-05 | true и нет approve → прод-хук НЕ вызван | test_tc05_no_approve_does_not_call_prod_hook | PASS |
|
||||
| TC-06 | true и approve → прод-хук вызван ровно 1 раз | test_tc06_approved_calls_prod_hook_exactly_once | PASS |
|
||||
| TC-07 | is_self_hosting_repo: только orchestrator True | test_tc07_is_self_hosting_repo_only_orchestrator | PASS |
|
||||
| TC-08 | self-репо: рестарт detached host-процессом | test_tc08_self_repo_launches_detached_host_process | PASS |
|
||||
| TC-09 | не-self репо: прежний ssh-путь | test_tc09_non_self_repo_uses_legacy_path | PASS |
|
||||
| TC-10 | FAILED → откат deploy→development, blocked, release lease | test_tc10_failed_deploy_rolls_back_to_development | PASS |
|
||||
| TC-11 | staging_status FAILED → до deploy не доходит | test_tc11_staging_failed_never_reaches_deploy | PASS |
|
||||
| TC-12 | успех → Plane-коммент + Telegram | test_tc12_success_notifies_plane_and_telegram | PASS |
|
||||
| TC-13 | откат → Plane-коммент + Telegram | test_tc13_rollback_notifies_plane_and_telegram | PASS |
|
||||
| TC-14 | build-once: retag staging-образа, без build | test_tc14_deploy_command_retags_staging_image_no_build | PASS |
|
||||
| TC-15 | _parse_deploy_status контракт цел (проза не проходит) | test_qg_checks::test_tc15_* (5 кейсов) | PASS |
|
||||
| TC-16 | STAGE_TRANSITIONS deploy/deploy-staging не изменены | test_stages::test_tc16_* | PASS |
|
||||
| TC-17 | terminal-sync deploy→done сохранён | test_tc17_success_deploy_syncs_terminal_done | PASS |
|
||||
| TC-18 | merge-gate (ORCH-43) на ребре не затронут | test_merge_gate (14 кейсов) | PASS |
|
||||
| TC-19 | симуляция битого деплоя: авто-rollback → healthy, exit 1 | test_tc19_unhealthy_deploy_auto_rolls_back_exit1 | PASS |
|
||||
|
||||
Доп. регрессионные тесты (review-fix): `test_clear_state_removes_all_markers_and_is_idempotent`,
|
||||
`test_tc11_re_deploy_after_rollback_not_wedged` — оба PASS (stale deploy-state очищается, повторный
|
||||
заход на deploy после отката не зависает).
|
||||
|
||||
## Покрытие критериев приёмки
|
||||
|
||||
| AC | Покрыт тестами | Статус |
|
||||
|----|----------------|--------|
|
||||
| AC-1 реальный деплой (не бумажный) | TC-01..03, TC-14, TC-19 | PASS |
|
||||
| AC-2 self-репо рестарт detached, агент себя не убивает | TC-08 | PASS |
|
||||
| AC-3 deploy_status из exit-code | TC-01..03 | PASS |
|
||||
| AC-4 FAILED → откат на development | TC-10 | PASS |
|
||||
| AC-5 ручной approve реально тормозит прод | TC-05, TC-06 | PASS |
|
||||
| AC-6 уведомления о промоуте и откате | TC-12, TC-13 | PASS |
|
||||
| AC-7 build-once (образ из staging) | TC-14 | PASS |
|
||||
| AC-8 staging-гейт обязателен | TC-11 | PASS |
|
||||
| AC-9 авто-rollback восстанавливает прод (MTTR<60с) | TC-19 | PASS |
|
||||
| AC-10 инварианты не сломаны | TC-15..18 + полный регресс | PASS |
|
||||
| AC-11 условность по репо (не-self не ломается) | TC-07, TC-09 | PASS |
|
||||
| AC-12 флаг авто НЕ выключен (остаётся true) | TC-04 | PASS |
|
||||
| AC-13 документация обновлена | проверено reviewer (12-review.md, APPROVED) | PASS |
|
||||
|
||||
## Вывод pytest
|
||||
|
||||
Полный регресс:
|
||||
```
|
||||
======================= 568 passed, 1 warning in 15.25s ========================
|
||||
```
|
||||
(единственный warning — PydanticDeprecatedSince20 в `src/config.py`, не связан с задачей)
|
||||
|
||||
Целевые модули тест-плана:
|
||||
```
|
||||
======================== 46 passed, 1 warning in 2.17s =========================
|
||||
```
|
||||
|
||||
## Итог
|
||||
**PASS** — все 19 TC зелёные, все критерии приёмки AC-1…AC-13 покрыты, полный регресс
|
||||
568/568 passed, smoke API OK, прод (8500) не тронут. Задача готова к стадии deploy-staging.
|
||||
@@ -1,39 +0,0 @@
|
||||
---
|
||||
staging_status: SUCCESS
|
||||
timestamp: 2026-06-06T21:06:37Z
|
||||
base_url: http://localhost:8501
|
||||
---
|
||||
|
||||
# Staging Gate Log
|
||||
|
||||
Staging test suite completed against the live `orchestrator-staging` instance (port 8501).
|
||||
Executed canonically inside the container (ORCH-048, ADR-001):
|
||||
|
||||
```
|
||||
docker exec orchestrator-staging \
|
||||
python3 /repos/orchestrator/scripts/staging_check.py \
|
||||
--base-url http://localhost:8501 --mode stub
|
||||
```
|
||||
|
||||
(The agent container has no `docker` CLI; the canonical `docker exec` was invoked via the
|
||||
Docker Engine API over the mounted `/var/run/docker.sock`, which is equivalent — the command
|
||||
ran inside `orchestrator-staging` so the B6 registry-isolation check read the staging
|
||||
process-env `.env.staging`.)
|
||||
|
||||
**Result: 10/10 checks PASS — exit code 0.**
|
||||
|
||||
| Block | Check | Verdict |
|
||||
|-------|-------|---------|
|
||||
| A SMOKE | A1 `GET /health` → 200 status=ok | PASS |
|
||||
| A SMOKE | A2 `GET /queue` → 200 (counts/max_concurrency/resilience) | PASS |
|
||||
| A SMOKE | A3 `ORCH_STAGING=true` (not prod) | PASS |
|
||||
| B ACCESS | B4 Plane sandbox project accessible | PASS |
|
||||
| B ACCESS | B5 Gitea `orchestrator-sandbox` accessible, push=true | PASS |
|
||||
| B ACCESS | B6 Registry: sandbox present, prod ET/ORCH absent | PASS |
|
||||
| C E2E | C7 Create issue in Plane SANDBOX | PASS |
|
||||
| C E2E | C8 Trigger pipeline via `/webhook/plane` | PASS |
|
||||
| C E2E | C9a Branch appears in `orchestrator-sandbox` | PASS |
|
||||
| C E2E | C9b Analyst job enqueued in staging queue | PASS |
|
||||
|
||||
CLEANUP: test branch deleted, Plane SANDBOX issue deleted, staging DB job/task rows removed
|
||||
(`try/finally` guaranteed). No prod (8500) container was touched.
|
||||
7
docs/work-items/ORCH-053/00-business-request.md
Normal file
7
docs/work-items/ORCH-053/00-business-request.md
Normal file
@@ -0,0 +1,7 @@
|
||||
# Business Request: Sweeper потерянных webhook: реконсиляция застрявших стадий (stuck-task)
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
|
||||
## Description
|
||||
|
||||
TBD
|
||||
128
docs/work-items/ORCH-053/01-brd.md
Normal file
128
docs/work-items/ORCH-053/01-brd.md
Normal file
@@ -0,0 +1,128 @@
|
||||
# BRD — ORCH-053: Sweeper потерянных webhook (реконсиляция застрявших стадий)
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
Стадия: analysis → (architecture)
|
||||
Тип: надёжность конвейера (проектирование + реализация). Self-hosting (ORCH).
|
||||
|
||||
## 1. Проблема (бизнес-контекст)
|
||||
|
||||
Продвижение задач между стадиями конвейера завязано **исключительно** на входящие
|
||||
webhook-события:
|
||||
- **Plane** (`work_item.updated` → статус In Progress / Approved / Rejected) — единственный
|
||||
триггер старта задачи, advance и rollback (`src/webhooks/plane.py`).
|
||||
- **Gitea** (CI-status `success`/`failure`, push, PR reviewed/merged) — триггер
|
||||
development→review, architecture→development, review→testing, deploy→done
|
||||
(`src/webhooks/gitea.py`).
|
||||
|
||||
Если входящее событие **потеряно** (502 на падающем/ребилдящемся инстансе, Plane/Gitea
|
||||
не повторяют доставку, сетевой сбой, sha→branch не разрезолвился, вебхук был временно
|
||||
выключен) — статус в источнике истины (Plane / зелёный CI) уже изменился, **а задача в
|
||||
оркестраторе не сдвинулась**. Задача висит молча, без какого-либо механизма восстановления.
|
||||
|
||||
**Живой инцидент (ORCH-044, 06.06):** dev-агент отработал (exit 0, CI позеленел), но
|
||||
Gitea webhook о CI-success не продвинул задачу (не дошёл / не сматчился sha→branch).
|
||||
Задача висела бы на `development` молча навсегда — спасли только ручным дёрганьем гейта
|
||||
`check_ci_green`. Это **системная дыра**, а не разовый сбой; сейчас её ловит ручной
|
||||
heartbeat-watchdog Стрима (костыль).
|
||||
|
||||
### Что уже есть и почему недостаточно
|
||||
| Механизм | Что покрывает | Почему не закрывает дыру |
|
||||
|----------|---------------|--------------------------|
|
||||
| `requeue_running_jobs()` (startup) | зависшие **jobs** при рестарте | про jobs, не про застрявший **stage-переход** |
|
||||
| orphan-recovery (`main.py`) | `agent_runs` без `finished_at` | job-уровень, не stage |
|
||||
| ORCH-5 events de-dup (`delivery_id`) | защита от **дублей** webhook | обратной защиты от **потери** нет |
|
||||
| ORCH-045 `ci_poll` в `check_ci_green` | поллит CI 12×10с | только **если гейт уже вызван** webhook'ом; не пришёл webhook → гейт не вызывается |
|
||||
|
||||
Общий принцип всех существующих механизмов — restart-safe resilience на уровне jobs.
|
||||
**Нет ни одного механизма, реконсилирующего рассинхрон «источник истины ≠ стадия задачи».**
|
||||
|
||||
## 2. Цель
|
||||
|
||||
Задача **не должна застревать молча** из-за потерянного входящего события. Ввести
|
||||
фоновый периодический **sweeper / reconciler**, который сам находит «зависшие» задачи
|
||||
и доигрывает пропущенный переход — через **те же штатные гейты и обработчики**, что и
|
||||
webhook (никакой параллельной логики продвижения). Убрать необходимость в ручном
|
||||
heartbeat-watchdog.
|
||||
|
||||
## 3. Заинтересованные стороны
|
||||
- **Owner / Стрим (Слава)** — перестаёт ловить зависания вручную.
|
||||
- **Все проекты на инстансе** (enduro-trails + orchestrator) — конвейер не встаёт молча.
|
||||
- **Self-hosting (ORCH)** — особенно при ребилде прода (ORCH-51): вебхуки, прилетевшие
|
||||
на падающий инстанс, подбираются реконсиляцией после старта.
|
||||
|
||||
## 4. Объём (Scope)
|
||||
|
||||
В объёме — **две взаимодополняющие ветки реконсиляции** (обе обязательны):
|
||||
|
||||
### F-1. Gate-side sweeper (реконсиляция застрявшей стадии по локальной БД)
|
||||
Периодический проход по таблице `tasks`: найти задачи, у которых
|
||||
(а) `stage != done`, (б) нет активных job'ов в очереди, (в) с момента `updated_at`
|
||||
прошло больше **per-stage порога** → пере-проверить QG текущей стадии и, если passed —
|
||||
продвинуть **штатным путём** (`stage_engine.advance_stage(..., finished_agent=None)`,
|
||||
тот же путь, что использует webhook). Закрывает потерю Gitea CI/PR-вебхуков (ORCH-044).
|
||||
|
||||
### F-2. Plane-side reconciler (реконсиляция потерянного Plane status-webhook)
|
||||
Периодический опрос Plane API по проектам реестра (`projects.py`): issues в статусах,
|
||||
требующих действия (In Progress / Approved / Rejected). Сверить с локальной `tasks` и
|
||||
доиграть **через существующие обработчики `webhooks/plane.py`**:
|
||||
- **In Progress + нет задачи в БД** → создать+запустить (`handle_status_start`/`start_pipeline`);
|
||||
- **Approved + стадия не сдвинута** → advance (`handle_verdict(approved=True)`);
|
||||
- **Rejected + не откатана** → rollback (`handle_verdict(approved=False)`).
|
||||
|
||||
### F-3. Усиление sha→branch резолва в Gitea-вебхуке
|
||||
В `handle_ci_status` добавить надёжный fallback (поиск task по БД), чтобы исходный
|
||||
webhook реже терялся из-за неразрезолвленного branch. Sweeper работает от задачи
|
||||
(repo+branch известны из БД) и обходит эту хрупкость по определению.
|
||||
|
||||
### F-4. Наблюдаемость
|
||||
Лог (и опц. Telegram) каждый раз, когда sweeper **разблокировал** застрявшую задачу —
|
||||
чтобы видеть частоту срабатывания дыры (метрика потерянных webhook). Опц. вывод
|
||||
счётчика в `/queue` или `/reconcile`. Не спамить, когда всё синхронно.
|
||||
|
||||
### Вне объёма
|
||||
- Буфер недоставленных webhook (это ORCH-51; sweeper — резервная сетка к нему).
|
||||
- Изменение состава стадий/гейтов (`STAGE_TRANSITIONS`, `QG_CHECKS`).
|
||||
- Изменение логики самих гейтов и обработчиков (только переиспользование).
|
||||
- Новый исполняемый деплой (ORCH-36).
|
||||
|
||||
## 5. Ключевые требования (бизнес-уровень)
|
||||
|
||||
1. **Источник истины — гейт/Plane, а не событие.** Sweeper дёргает ровно те же функции
|
||||
продвижения, что и webhook. Параллельной логики продвижения быть не должно.
|
||||
2. **Идемпотентность (критично).** Задержавшийся или дублированный webhook + sweeper
|
||||
НЕ создают двойную задачу / двойной запуск / двойной advance. Тот же guard, что у
|
||||
webhook: нет активного job + стадия совпадает + atomic claim как в `queue_worker`.
|
||||
3. **Безопасность активной работы.** Sweeper НЕ трогает задачи с активными
|
||||
(`queued`/`running`) job'ами — они легитимно в работе, не потеряны.
|
||||
4. **Per-stage grace.** Разные стадии имеют разное нормальное время (analysis ~8–15 мин
|
||||
vs deploy). Порог застревания настраивается, чтобы не дёргать гейт у задачи, где агент
|
||||
законно работает.
|
||||
5. **Restart-safe.** Sweeper — фоновый поток, стартует с приложением, переживает рестарт
|
||||
(как `queue_worker`). Без потери состояния.
|
||||
6. **Self-hosting safety.** Sweeper не должен ронять/рестартить прод-контейнер; kill-switch
|
||||
в конфиге для поэтапного раската и аварийного отключения.
|
||||
7. **Без шума.** Когда всё синхронно — никаких действий и нотификаций.
|
||||
8. **Документация = golden source.** README/architecture, ADR, CHANGELOG обновляются в
|
||||
том же PR.
|
||||
|
||||
## 6. Эффект
|
||||
- Потерянный webhook больше не = молча застрявшая задача.
|
||||
- Ручной heartbeat-watchdog Стрима больше не нужен для ловли зависаний (AC-5 в эпике).
|
||||
- Резервная сетка к ORCH-51 при ребилде прода.
|
||||
|
||||
## 7. Связи
|
||||
- **Дополняет ORCH-51** (потеря webhook при рестарте — буфер; sweeper — реконсиляция).
|
||||
- **Дополняет ORCH-36** (если deploy-webhook потеряется — sweeper добьёт deploy→done).
|
||||
- **ORCH-1b** — та же философия resilience: транзиентный сбой не убивает задачу.
|
||||
- Эпик: звено **ORCH-54** (автономное внедрение). Параллельна ORCH-36 (разные файлы),
|
||||
но `max_concurrency=1` → встанет в очередь.
|
||||
|
||||
## 8. Риски (кратко; подробно — 10-tech-risks архитектора)
|
||||
- **Гонка sweeper ↔ живой webhook** → двойной запуск. Митигируется atomic claim +
|
||||
active-job guard + grace-период (не конкурировать с задержавшимся webhook).
|
||||
- **Spam нотификаций** при персистентно красном гейте на каждом тике. Митигируется:
|
||||
действие/нотификация только на изменении состояния (advance), не на каждый тик.
|
||||
- **Нагрузка на Plane API** при опросе каждые N сек. Митигируется интервалом + фильтром
|
||||
по статусам + per-project.
|
||||
- **Self-hosting:** sweeper правит инструмент, обслуживающий и другие проекты. Kill-switch
|
||||
обязателен.
|
||||
170
docs/work-items/ORCH-053/02-trz.md
Normal file
170
docs/work-items/ORCH-053/02-trz.md
Normal file
@@ -0,0 +1,170 @@
|
||||
# ТЗ — ORCH-053: Sweeper потерянных webhook (реконсиляция застрявших стадий)
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
Базовая ветка: `feature/ORCH-053-sweeper-webhook-stuck-task`
|
||||
|
||||
> Это ТЗ фиксирует **конкретные изменения кода/конфига/доки**. Архитектурные развилки
|
||||
> (потокобезопасность, точная схема дампинга нотификаций, способ вызова async-обработчиков
|
||||
> из sync-потока) фиксирует архитектор в `06-adr/`. Если ТЗ окажется негодным — возврат в
|
||||
> Анализ (не комментировать задним числом).
|
||||
|
||||
## 0. Живая разведка ПЕРЕД реализацией (обязательна)
|
||||
Перед кодом разработчик обязан вживую проверить (как сейчас webhook продвигает стадию):
|
||||
- `src/webhooks/gitea.py::handle_ci_status` (success-ветка ~стр.199–217) и `handle_pr`;
|
||||
- `src/webhooks/plane.py::handle_issue_updated / handle_status_start / handle_verdict / start_pipeline`;
|
||||
- `src/stage_engine.py::advance_stage` (унифицированный путь, `finished_agent=None` = webhook-путь);
|
||||
- `src/queue_worker.py` (образец фонового daemon-потока + `threading.Event` + atomic claim);
|
||||
- `src/db.py::has_active_job_for_task / claim_next_job / update_task_stage` (`updated_at`).
|
||||
|
||||
## 1. Задействованные модули `src/`
|
||||
|
||||
| Модуль | Изменение |
|
||||
|--------|-----------|
|
||||
| `src/reconciler.py` | **НОВЫЙ.** Фоновый sweeper/reconciler (класс + module-singleton, паттерн `queue_worker`). Обе ветки F-1 (gate-side) и F-2 (plane-side). |
|
||||
| `src/config.py` | Новые настройки `reconcile_*` (интервал, kill-switch, per-stage grace, plane-poll flag). |
|
||||
| `src/main.py` | Старт/стоп reconciler в `lifespan` (после `worker.start()` / перед `worker.stop()`). |
|
||||
| `src/stage_engine.py` | Тонкий хелпер `advance_if_gate_passed(...)` (или `reconcile_advance`) — обёртка над `advance_stage(..., finished_agent=None)`, **подавляющая повторный спам нотификаций** при провале гейта (продвижение — переиспользуется как есть). |
|
||||
| `src/plane_sync.py` | НОВЫЙ хелпер `list_issues_by_state(project_id, state_uuids) -> list[dict]` (GET issues с пагинацией, фильтр по state). Используется F-2. |
|
||||
| `src/webhooks/gitea.py` | F-3: усилить sha→branch резолв в `handle_ci_status` (fallback на БД-поиск task), логировать неразрезолв на уровне INFO (видимость). |
|
||||
| `src/webhooks/plane.py` | F-2 переиспользует `handle_issue_updated` / `handle_status_start` / `handle_verdict` **без дублирования** логики (возможно, лёгкий рефактор для вызова из reconciler). |
|
||||
| `src/main.py` (API) | F-4 (опц.): расширить `/queue` блоком reconcile-метрик или добавить `GET /reconcile`. |
|
||||
|
||||
## 2. F-1 — Gate-side sweeper (реконсиляция по локальной БД)
|
||||
|
||||
### Алгоритм одного прохода (`reconcile_gate_once()`)
|
||||
```
|
||||
для каждой task где stage NOT IN ('done',) :
|
||||
если has_active_job_for_task(task.id): continue # в работе — не трогаем
|
||||
если get_qg_for_stage(task.stage) is None: continue # created/done — нет гейта
|
||||
grace = grace_for_stage(task.stage)
|
||||
если age(task.updated_at) < grace: continue # ещё не «застряла»
|
||||
# источник истины — гейт; путь продвижения — штатный
|
||||
advance_if_gate_passed(task.id, task.stage, task.repo, task.work_item_id, task.branch)
|
||||
```
|
||||
- **Продвижение** идёт через `stage_engine.advance_stage(task_id, stage, repo, work_item_id,
|
||||
branch, finished_agent=None)` — это **тот же** путь, которым пользуется Plane Approved-webhook
|
||||
(`webhooks/plane._try_advance_stage`). Никакой параллельной логики advance.
|
||||
- Для `development` → `advance_stage` прогонит `check_ci_green`; passed → `review` + enqueue
|
||||
`reviewer`. Для `review` → `check_reviewer_verdict` (канонический гейт стадии из
|
||||
`STAGE_TRANSITIONS`, читает `verdict:` из `12-review.md`). Для `testing` → `check_tests_passed`.
|
||||
Для `deploy` → `check_deploy_status`. Для `deploy-staging` → `check_staging_status`
|
||||
(+ merge-gate sub-gate отрабатывает внутри `advance_stage` как обычно).
|
||||
- **Стадия `analysis`** (gQG `check_analysis_approved`): это **человеческий** гейт. В
|
||||
`advance_stage` при `finished_agent=None` он трактуется как `approved-via-status` и
|
||||
продвинет задачу — чего при потере именно **Approved**-webhka мы и хотим **только** если
|
||||
Plane реально в статусе Approved. Поэтому **F-1 НЕ реконсилирует `analysis`** (advance
|
||||
для analysis отдаётся F-2, которая сверяется с реальным статусом Plane). Архитектор
|
||||
фиксирует это решение в ADR (защита от ложного продвижения неодобренного BRD).
|
||||
|
||||
### Подавление спама нотификаций (`advance_if_gate_passed`)
|
||||
- Если гейт **passed** → `advance_stage` продвигает и шлёт штатные нотификации advance.
|
||||
- Если гейт **failed** → НЕ повторять `notify_qg_failure`/`plane_notify_qg` на каждом тике.
|
||||
Хелпер вызывает `advance_stage` так, чтобы при провале была **тишина** (лог `INFO`/`DEBUG`),
|
||||
либо реализует продвижение, минуя ветку нотификации провала. Точную форму (флаг в
|
||||
`advance_stage` vs отдельный путь оценки гейта) выбирает архитектор; контракт:
|
||||
**на застрявшей-но-красной задаче sweeper не спамит**.
|
||||
|
||||
### Защита от гонки
|
||||
- `has_active_job_for_task` + `update_task_stage` обновляет `updated_at` → следующий тик
|
||||
увидит свежий `updated_at` и не сработает повторно.
|
||||
- Если в момент тика прилетел живой webhook и поставил job — sweeper увидит активный job и
|
||||
пропустит задачу.
|
||||
- `max_concurrency=1`: новый enqueued job встанет в общую очередь (без двойного запуска).
|
||||
|
||||
## 3. F-2 — Plane-side reconciler (опрос Plane API)
|
||||
|
||||
### Алгоритм одного прохода (`reconcile_plane_once()`)
|
||||
```
|
||||
для каждого проекта p в projects.PROJECTS:
|
||||
states = get_project_states(p.plane_project_id)
|
||||
for issue in list_issues_by_state(p.plane_project_id,
|
||||
[states['in_progress'], states['approved'], states['rejected']]):
|
||||
task = get_task_by_plane_id(issue.id)
|
||||
new_state = issue.state
|
||||
# идемпотентность: пропускаем, если есть активный job (живой webhook вот-вот придёт/в работе)
|
||||
если task and has_active_job_for_task(task.id): continue
|
||||
# доигрываем потерянный переход ЧЕРЕЗ существующие обработчики plane.py
|
||||
if new_state == in_progress and task is None: -> handle_status_start(issue_data, p.plane_project_id)
|
||||
elif new_state == approved and task and stage не сдвинут: -> handle_verdict(issue_data, ..., approved=True)
|
||||
elif new_state == rejected and task and не откатана: -> handle_verdict(issue_data, ..., approved=False)
|
||||
else: continue # всё синхронно — тишина
|
||||
```
|
||||
- **Переиспользовать** `handle_issue_updated`/`handle_status_start`/`handle_verdict` из
|
||||
`webhooks/plane.py`. Они `async` → reconciler (sync-поток) вызывает их через
|
||||
`asyncio.run(...)` либо собственный event loop. Способ — на усмотрение архитектора;
|
||||
**дублировать логику запрещено**.
|
||||
- `issue_data` собирается в форму, ожидаемую обработчиками (`{"id", "state": {"id":...},
|
||||
"project", "name", "description_stripped"}`). Недостающие поля (name/description)
|
||||
обработчики сами дотягивают через `fetch_issue_fields` (как сейчас для status-only вебхука).
|
||||
- **Grace для F-2:** не реагировать на issue, чей статус сменился совсем недавно (вебхук мог
|
||||
просто задержаться). Источник «давности» — поле времени из Plane (`updated_at`) и/или
|
||||
локальный grace по `tasks.updated_at`. Архитектор фиксирует точный критерий «потерян, а не
|
||||
задержан».
|
||||
- **Идемпотентность создания (In Progress без задачи):** `start_pipeline` уже защищён
|
||||
(`handle_status_start` создаёт только если `get_task_by_plane_id` пуст). Гонка sweeper↔webhook
|
||||
на создании: оба пройдут проверку «нет задачи» одновременно → возможен дубль. Требование:
|
||||
использовать тот же claim-механизм / уникальность (как `ensure_unique_work_item_id` +
|
||||
проверка существования под защитой). Архитектор обязан описать atomic-claim на создании в ADR.
|
||||
|
||||
### `list_issues_by_state` (новый в `plane_sync.py`)
|
||||
- `GET {PLANE_BASE}/workspaces/{WORKSPACE}/projects/{pid}/issues/` с фильтром по state
|
||||
(через query-параметр Plane, либо постфильтрация результата по `issue.state`).
|
||||
- Пагинация (`results` + cursor/next) — обойти все страницы.
|
||||
- Never-raise: при ошибке API/сети → `[]` + лог `warning` (Plane outage деградирует мягко,
|
||||
не роняет тик).
|
||||
|
||||
## 4. F-3 — Усиление sha→branch резолва (`webhooks/gitea.py::handle_ci_status`)
|
||||
- Текущая цепочка: `branches[0].name` → `git branch -r --contains <sha>`. Добавить
|
||||
fallback **на БД**: если branch не определён, найти task по `repo` среди активных
|
||||
(`stage='development'`) и, при однозначности, использовать её branch; иначе — оставить
|
||||
неразрезолвленным.
|
||||
- Заменить `logger.debug("could not determine branch...")` на `logger.info(...)` (видимость
|
||||
потери). Sweeper (F-1) всё равно подберёт такую задачу — это defense-in-depth, не критпуть.
|
||||
- **Не менять** success/failure-семантику гейта.
|
||||
|
||||
## 5. Конфигурация (`src/config.py`, env-prefix `ORCH_`)
|
||||
|
||||
| Поле | Дефолт | Назначение |
|
||||
|------|--------|-----------|
|
||||
| `reconcile_enabled` | `True` | глобальный kill-switch sweeper'а (self-hosting safety, поэтапный раскат). |
|
||||
| `reconcile_interval_s` | `120` | период фонового прохода (сек). |
|
||||
| `reconcile_plane_enabled` | `True` | отдельный флаг для F-2 (опрос Plane API), чтобы можно было гасить только plane-ветку. |
|
||||
| `reconcile_grace_default_s` | `600` | дефолтный порог «застревания» по `tasks.updated_at`. |
|
||||
| `reconcile_grace_overrides_json` | `""` | JSON-объект per-stage порогов, напр. `{"analysis": 1800, "development": 300, "deploy": 900}`. Невалидный JSON → дефолт (как `agent_timeout_overrides_json`). |
|
||||
| `reconcile_notify_unblock` | `True` | слать Telegram при разблокировке (F-4). |
|
||||
|
||||
`grace_for_stage(stage)` = override из JSON, иначе `reconcile_grace_default_s`.
|
||||
|
||||
## 6. БД
|
||||
- **Изменения схемы НЕ требуются** (предпочтительно, по образцу merge-gate ORCH-043).
|
||||
Стуковость определяется по существующим `tasks.updated_at`, `tasks.stage` и таблице `jobs`
|
||||
(`has_active_job_for_task`). `update_task_stage` уже обновляет `updated_at`.
|
||||
- Если архитектор сочтёт необходимым анти-дребезг (`tasks.last_reconcile_at`) — допускается
|
||||
идемпотентная миграция через `_ensure_column` (как остальные ALTER в `db.py`). По умолчанию
|
||||
— **без новых колонок**.
|
||||
|
||||
## 7. API (опционально, F-4)
|
||||
- Расширить `GET /queue` блоком `"reconcile": {...}` (enabled, interval, last_run_ts,
|
||||
unblocked_total, last_unblocked) — по образцу `worker.status()`.
|
||||
- ИЛИ добавить `GET /reconcile` с теми же метриками. Выбор — архитектор. Не обязательно для
|
||||
прохождения AC, но крайне желательно для наблюдаемости.
|
||||
|
||||
## 8. Новые QG checks
|
||||
- **Нет.** Sweeper переиспускает существующие гейты из `QG_CHECKS` через `advance_stage`.
|
||||
Реестр `QG_CHECKS` и `STAGE_TRANSITIONS` не меняются.
|
||||
|
||||
## 9. Артефакты pipeline / документация (обязательно в ЭТОМ PR)
|
||||
- `docs/architecture/README.md` — раздел про reconciler (компонент + место в resilience-слое).
|
||||
- `docs/work-items/ORCH-053/06-adr/ADR-001-*.md` — архитектурное решение (потоки, гонки,
|
||||
async-вызов обработчиков, подавление спама, grace-критерий, atomic-claim на создании).
|
||||
- `CHANGELOG.md` — запись `feat: ORCH-053 stuck-task reconciler`.
|
||||
- При желании архитектора — global ADR в `docs/architecture/adr/` (сквозной resilience).
|
||||
- `docs/operations/INFRA.md` — упомянуть kill-switch `ORCH_RECONCILE_ENABLED` (self-hosting).
|
||||
|
||||
## 10. Нефункциональные требования
|
||||
- **Never-raise в тике:** исключение в обработке одной задачи/issue не должно ронять весь
|
||||
проход (изолировать try/except на единицу работы, как `queue_worker._drain_once`).
|
||||
- **Идемпотентность** — см. §2/§3.
|
||||
- **Restart-safe** — daemon-поток + `threading.Event`, чистый `stop()` в `lifespan.finally`.
|
||||
- **Тишина при синхронности** — нет действий → нет логов уровня INFO/нотификаций.
|
||||
- **Тесты** — см. `04-test-plan.yaml` (моки Plane/Gitea API и QG, без реальной сети).
|
||||
116
docs/work-items/ORCH-053/03-acceptance-criteria.md
Normal file
116
docs/work-items/ORCH-053/03-acceptance-criteria.md
Normal file
@@ -0,0 +1,116 @@
|
||||
# Acceptance Criteria — ORCH-053
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
Формат: каждый критерий имеет явное условие PASS/FAIL. Критерий считается выполненным,
|
||||
только если соответствующие тесты из `04-test-plan.yaml` зелёные.
|
||||
|
||||
## AC-1 — Реконсиляция застрявшей стадии (gate-side, F-1)
|
||||
- **Дано:** task на стадии `development`, без активных job'ов, `updated_at` старше grace,
|
||||
гейт `check_ci_green` для её branch — зелёный (CI прошёл, но webhook потерян, как ORCH-044).
|
||||
- **Когда:** срабатывает фоновый проход `reconcile_gate_once()`.
|
||||
- **PASS:** задача продвинута `development → review`, заenqueuen `reviewer` (через
|
||||
`advance_stage(..., finished_agent=None)`), `tasks.updated_at` обновлён.
|
||||
- **FAIL:** задача осталась на `development`, либо продвижение пошло параллельной логикой
|
||||
(не через `advance_stage`).
|
||||
|
||||
## AC-2 — Источник истины — гейт, не событие
|
||||
- **PASS:** продвижение в F-1 выполняется исключительно вызовом
|
||||
`stage_engine.advance_stage(...)`; в `reconciler.py` НЕТ собственного
|
||||
`update_task_stage`+`enqueue_job` для advance стадии (только переиспользование).
|
||||
- **FAIL:** в reconciler продублирована логика advance/rollback.
|
||||
|
||||
## AC-3 — Идемпотентность: sweeper не трогает задачи с активным job
|
||||
- **Дано:** task с `queued` или `running` job (`has_active_job_for_task == True`).
|
||||
- **PASS:** sweeper пропускает задачу — ни advance, ни enqueue, ни нотификации.
|
||||
- **FAIL:** sweeper дёргает гейт / создаёт второй job для такой задачи.
|
||||
|
||||
## AC-4 — Идемпотентность: задержавшийся/дублированный webhook + sweeper не двоят
|
||||
- **Дано:** issue в Plane = In Progress, задержавшийся Plane-webhook ещё не обработан.
|
||||
- **Когда:** F-2 реконсилирует И затем (или одновременно) приходит реальный webhook.
|
||||
- **PASS:** создаётся **ровно одна** задача (один task row, один branch/worktree, один
|
||||
стартовый analyst-job). Повторный путь видит существующую задачу/активный job и не двоит.
|
||||
- **FAIL:** созданы две задачи / два стартовых job / два worktree на один `plane_id`.
|
||||
|
||||
## AC-5 — Per-stage grace соблюдается
|
||||
- **Дано:** task на стадии, чей `updated_at` свежее grace этой стадии (агент легитимно
|
||||
работает, напр. analysis 8 мин при grace 1800с).
|
||||
- **PASS:** sweeper НЕ трогает задачу (не дёргает гейт).
|
||||
- **PASS (граница):** как только `age(updated_at) >= grace_for_stage(stage)` и нет активного
|
||||
job — задача становится кандидатом.
|
||||
- **FAIL:** sweeper дёргает гейт у задачи в пределах grace.
|
||||
|
||||
## AC-6 — Plane In Progress без задачи → запуск (F-2)
|
||||
- **Дано:** issue в Plane = In Progress (статус сменён руками, webhook потерян), в `tasks`
|
||||
задачи нет, прошёл grace.
|
||||
- **PASS:** sweeper вызывает `handle_status_start`/`start_pipeline` → задача создана,
|
||||
заenqueuen analyst — как если бы пришёл webhook.
|
||||
- **FAIL:** задача не создана; либо создана дублирующей логикой, минуя `handle_status_start`.
|
||||
|
||||
## AC-7 — Plane Approved без advance → advance (F-2)
|
||||
- **Дано:** issue = Approved, task существует и стадия НЕ сдвинута, нет активного job, прошёл grace.
|
||||
- **PASS:** sweeper вызывает `handle_verdict(approved=True)` → штатный advance.
|
||||
- **FAIL:** нет advance, либо advance вне `handle_verdict`/`advance_stage`.
|
||||
|
||||
## AC-8 — Plane Rejected без rollback → rollback (F-2)
|
||||
- **Дано:** issue = Rejected, task существует и не откатана, нет активного job, прошёл grace.
|
||||
- **PASS:** sweeper вызывает `handle_verdict(approved=False)` → штатный rollback на предыдущую стадию.
|
||||
- **FAIL:** нет rollback, либо rollback вне штатного пути.
|
||||
|
||||
## AC-9 — Нет спама нотификаций на красном гейте
|
||||
- **Дано:** застрявшая задача, у которой гейт стабильно **красный** (напр. CI failure),
|
||||
нет активного job, прошёл grace.
|
||||
- **Когда:** sweeper проходит несколько тиков подряд.
|
||||
- **PASS:** `notify_qg_failure`/Telegram НЕ вызывается на каждом тике (≤1 раз / без
|
||||
повторов); задача не продвигается.
|
||||
- **FAIL:** на каждом тике летит нотификация о провале гейта.
|
||||
|
||||
## AC-10 — Тишина при синхронности
|
||||
- **Дано:** все задачи синхронны (нет застрявших; статусы Plane совпадают с локальными).
|
||||
- **PASS:** проход не выполняет действий, не пишет INFO-логов о разблокировке, не шлёт нотификаций.
|
||||
- **FAIL:** sweeper генерирует шум/действия при полностью синхронном состоянии.
|
||||
|
||||
## AC-11 — Restart-safe фоновый поток
|
||||
- **PASS:** reconciler стартует в `main.lifespan` (daemon-поток), корректно
|
||||
останавливается (`stop()`), переживает рестарт сервиса без потери (нет состояния в памяти,
|
||||
критичного для корректности; всё перечитывается из БД/Plane).
|
||||
- **FAIL:** reconciler не стартует автоматически, висит при shutdown, или дублирует действия
|
||||
после рестарта.
|
||||
|
||||
## AC-12 — Наблюдаемость разблокировки (F-4)
|
||||
- **Дано:** sweeper разблокировал застрявшую задачу.
|
||||
- **PASS:** в лог пишется явная строка вида
|
||||
`reconciler: <work_item_id> <stage> разблокирована (потерян webhook)`;
|
||||
при `reconcile_notify_unblock=True` — Telegram-уведомление.
|
||||
- **FAIL:** разблокировка происходит молча (невозможно измерить частоту дыры).
|
||||
|
||||
## AC-13 — Kill-switch
|
||||
- **Дано:** `reconcile_enabled=False` (env `ORCH_RECONCILE_ENABLED=false`).
|
||||
- **PASS:** фоновый поток reconciler не выполняет проходов (или не стартует); система
|
||||
работает как до ORCH-053. `reconcile_plane_enabled=False` гасит только F-2, F-1 работает.
|
||||
- **FAIL:** sweeper активен при выключенном флаге.
|
||||
|
||||
## AC-14 — Усиленный sha→branch резолв (F-3)
|
||||
- **Дано:** Gitea CI-status webhook без `branches` и со `sha`, не разрезолвившимся
|
||||
через `git branch -r --contains`.
|
||||
- **PASS:** добавленный БД-fallback однозначно находит task (по repo + активной
|
||||
development-стадии) и продвигает; неоднозначность логируется на уровне INFO; существующая
|
||||
success/failure-семантика гейта не изменена.
|
||||
- **FAIL:** регресс существующего резолва, либо ложный матч при неоднозначности.
|
||||
|
||||
## AC-15 — Never-raise в тике
|
||||
- **Дано:** обработка одной задачи/issue кидает исключение (битые данные, ошибка API).
|
||||
- **PASS:** исключение изолировано, проход продолжает остальные задачи; поток не падает.
|
||||
- **FAIL:** одно исключение роняет весь проход / поток reconciler.
|
||||
|
||||
## AC-16 — F-1 не продвигает analysis по локальному состоянию
|
||||
- **Дано:** task на `analysis`, артефакты на диске присутствуют, но Plane НЕ в статусе
|
||||
Approved (BRD не одобрен человеком), нет активного job, прошёл grace.
|
||||
- **PASS:** F-1 (gate-side) НЕ продвигает analysis→architecture (advance стадии analysis
|
||||
отдан F-2, которая сверяется с реальным статусом Plane Approved).
|
||||
- **FAIL:** sweeper автопродвинул неодобренный BRD.
|
||||
|
||||
## AC-17 — Документация обновлена (golden source)
|
||||
- **PASS:** в PR обновлены `docs/architecture/README.md`, заведён
|
||||
`docs/work-items/ORCH-053/06-adr/ADR-001-*.md`, обновлён `CHANGELOG.md`, упомянут
|
||||
kill-switch в `docs/operations/INFRA.md`.
|
||||
- **FAIL:** код изменён, документация — нет (Reviewer обязан вернуть REQUEST_CHANGES).
|
||||
200
docs/work-items/ORCH-053/04-test-plan.yaml
Normal file
200
docs/work-items/ORCH-053/04-test-plan.yaml
Normal file
@@ -0,0 +1,200 @@
|
||||
work_item: ORCH-053
|
||||
description: >
|
||||
Тесты sweeper/reconciler потерянных webhook. Вся сеть (Plane API, Gitea API, QG)
|
||||
мокируется (monkeypatch), как в существующих tests/. Telegram заглушён autouse-фикстурой
|
||||
conftest. Используется временная SQLite БД (ORCH_DB_PATH / фикстура setup_db по образцу
|
||||
test_webhooks.py / test_queue.py). Реальные агенты/CLI не запускаются.
|
||||
|
||||
tests:
|
||||
# ---- F-1: gate-side sweeper -------------------------------------------------
|
||||
- id: TC-01
|
||||
type: unit
|
||||
description: >
|
||||
reconcile_gate_once продвигает застрявшую development-задачу: нет активных job,
|
||||
updated_at старше grace, check_ci_green замокан в (True, "CI green") →
|
||||
advance_stage вызван, стадия стала review, заenqueuen reviewer.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-02
|
||||
type: unit
|
||||
description: >
|
||||
Источник истины — гейт: reconciler НЕ содержит собственного update_task_stage/
|
||||
enqueue_job для advance — продвижение идёт строго через stage_engine.advance_stage
|
||||
(проверка через мок/spy advance_stage, вызван с finished_agent=None).
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-03
|
||||
type: unit
|
||||
description: >
|
||||
Задача с активным job (has_active_job_for_task=True) пропускается: гейт не дёргается,
|
||||
advance_stage не вызывается, нотификаций нет.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-04
|
||||
type: unit
|
||||
description: >
|
||||
Per-stage grace: задача с updated_at свежее grace своей стадии не трогается;
|
||||
ровно на границе age>=grace и без активного job — становится кандидатом.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-05
|
||||
type: unit
|
||||
description: >
|
||||
grace_for_stage читает reconcile_grace_overrides_json (per-stage), при отсутствии
|
||||
ключа — reconcile_grace_default_s; невалидный JSON → дефолт, не падает.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-06
|
||||
type: unit
|
||||
description: >
|
||||
Нет спама: при стабильно красном гейте (check_ci_green=(False,...)) несколько проходов
|
||||
подряд НЕ вызывают notify_qg_failure повторно на каждом тике; задача не продвигается.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-07
|
||||
type: unit
|
||||
description: >
|
||||
Тишина при синхронности: когда все задачи done / имеют активный job / в пределах grace —
|
||||
проход не вызывает advance_stage и не пишет INFO-логов о разблокировке.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-08
|
||||
type: unit
|
||||
description: >
|
||||
AC-16: задача на analysis с артефактами на диске, но Plane НЕ Approved — F-1
|
||||
(reconcile_gate_once) НЕ продвигает analysis→architecture.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-09
|
||||
type: unit
|
||||
description: >
|
||||
Never-raise: если обработка одной задачи кидает исключение (advance_stage замокан на
|
||||
raise), проход ловит его и продолжает обрабатывать остальные задачи; поток не падает.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-10
|
||||
type: unit
|
||||
description: >
|
||||
Kill-switch: при reconcile_enabled=False reconcile_gate_once/plane_once не выполняют
|
||||
действий (no-op); при reconcile_plane_enabled=False гасится только F-2.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
# ---- F-2: plane-side reconciler --------------------------------------------
|
||||
- id: TC-11
|
||||
type: unit
|
||||
description: >
|
||||
In Progress без задачи: list_issues_by_state возвращает issue в In Progress, в БД задачи
|
||||
нет → reconcile_plane_once вызывает handle_status_start (мок) ровно один раз с корректным
|
||||
issue_data (id/state/project).
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-12
|
||||
type: unit
|
||||
description: >
|
||||
Approved без advance: issue=Approved, task существует, нет активного job → вызван
|
||||
handle_verdict(approved=True) (мок) один раз.
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-13
|
||||
type: unit
|
||||
description: >
|
||||
Rejected без rollback: issue=Rejected, task существует, нет активного job → вызван
|
||||
handle_verdict(approved=False) (мок) один раз.
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-14
|
||||
type: unit
|
||||
description: >
|
||||
Идемпотентность F-2: issue в требующем-действия статусе, но у task есть активный job →
|
||||
handle_status_start/handle_verdict НЕ вызываются (живой webhook в работе).
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-15
|
||||
type: integration
|
||||
description: >
|
||||
AC-4 анти-дубль на создании: одновременная реконсиляция + обработка реального In Progress
|
||||
webhook для одного plane_id создают ровно ОДИН task row и один стартовый analyst-job
|
||||
(реальная временная БД, мок Gitea/Plane сетевых вызовов).
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-16
|
||||
type: unit
|
||||
description: >
|
||||
list_issues_by_state never-raise: при ошибке Plane API (httpx бросает / non-2xx) →
|
||||
возвращает [], тик не падает; при успехе — обходит пагинацию и фильтрует по state.
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-17
|
||||
type: unit
|
||||
description: >
|
||||
F-2 опрашивает все проекты реестра projects.PROJECTS и резолвит state-uuid через
|
||||
get_project_states per-project (enduro + orchestrator), не хардкодит uuid.
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
# ---- F-3: sha→branch резолв -------------------------------------------------
|
||||
- id: TC-18
|
||||
type: unit
|
||||
description: >
|
||||
handle_ci_status: при отсутствии branches и неразрезолвленном sha срабатывает БД-fallback
|
||||
и однозначно находит единственную development-задачу repo; продвижение идёт штатно.
|
||||
module: tests/test_gitea_sha_resolve.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-19
|
||||
type: unit
|
||||
description: >
|
||||
handle_ci_status: при неоднозначности (несколько development-задач repo) БД-fallback не
|
||||
делает ложный матч (branch остаётся неразрезолвленным, лог INFO), success/failure-семантика
|
||||
гейта не изменена.
|
||||
module: tests/test_gitea_sha_resolve.py
|
||||
expected: PASS
|
||||
|
||||
# ---- F-4 / интеграция фонового потока --------------------------------------
|
||||
- id: TC-20
|
||||
type: unit
|
||||
description: >
|
||||
Наблюдаемость: при разблокировке reconciler пишет явную лог-строку с work_item_id и
|
||||
stage; при reconcile_notify_unblock=True вызывается send_telegram (замокан).
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-21
|
||||
type: integration
|
||||
description: >
|
||||
Restart-safe поток: Reconciler.start() поднимает daemon-поток, stop() завершает его
|
||||
в пределах таймаута; повторный start идемпотентен (не плодит второй поток).
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-22
|
||||
type: unit
|
||||
description: >
|
||||
Конфиг: новые поля reconcile_* присутствуют в Settings с заявленными дефолтами и
|
||||
читаются из env с префиксом ORCH_ (по образцу tests/test_config.py).
|
||||
module: tests/test_config.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-23
|
||||
type: unit
|
||||
description: >
|
||||
Регресс реестров: STAGE_TRANSITIONS и QG_CHECKS не изменены ORCH-053
|
||||
(snapshot-тест проходит как раньше).
|
||||
module: tests/test_qg_registry_snapshot.py
|
||||
expected: PASS
|
||||
221
docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md
Normal file
221
docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md
Normal file
@@ -0,0 +1,221 @@
|
||||
# ADR-001: Sweeper/reconciler потерянных webhook (реконсиляция застрявших стадий)
|
||||
|
||||
- **Статус:** Proposed
|
||||
- **Дата:** 2026-06-06
|
||||
- **Задача:** ORCH-053
|
||||
- **Сквозной ADR:** `docs/architecture/adr/adr-0007-reconciler.md`
|
||||
- **Связи:** adr-0001 (реестр проектов), adr-0002 (очередь / `available_at`),
|
||||
adr-0003 (условный staging-гейт — образец условности), adr-0006 (merge-gate как
|
||||
под-гейт ребра), ORCH-5 (events de-dup), ORCH-045 (`ci_poll`).
|
||||
|
||||
## Контекст
|
||||
|
||||
Продвижение задач по конвейеру завязано **исключительно** на входящие webhook
|
||||
(Plane status / Gitea CI/PR). Потерянное событие (502 на ребилдящемся инстансе,
|
||||
Plane/Gitea не ретраят, `sha→branch` не разрезолвился) → источник истины (Plane /
|
||||
зелёный CI) изменился, а задача в оркестраторе застряла молча (живой инцидент
|
||||
ORCH-044). Ни один существующий механизм resilience (`requeue_running_jobs`,
|
||||
orphan-recovery, events de-dup, `ci_poll`) не реконсилирует рассинхрон
|
||||
**«источник истины ≠ стадия задачи»** — все они работают на уровне jobs/agent_runs,
|
||||
а не stage-перехода.
|
||||
|
||||
ТЗ (`02-trz.md`) фиксирует объём; данный ADR фиксирует архитектурные развилки,
|
||||
явно отданные архитектору: (1) потокобезопасность и подавление спама нотификаций,
|
||||
(2) способ вызова `async`-обработчиков `plane.py` из sync-потока, (3) atomic-claim
|
||||
на создании задачи (анти-дубль), (4) критерий «потерян, а не задержан» (grace),
|
||||
(5) отсутствие изменений схемы БД.
|
||||
|
||||
## Решение
|
||||
|
||||
### 1. Компонент: `src/reconciler.py` — фоновый daemon-поток
|
||||
|
||||
Новый модуль по образцу `queue_worker.py`: класс `Reconciler` + module-singleton
|
||||
`reconciler`. Plain `threading.Thread(daemon=True)` + `threading.Event` для
|
||||
остановки. Стартует в `main.lifespan` **после** `worker.start()`, останавливается в
|
||||
`finally` **перед** `worker.stop()`. Цикл:
|
||||
|
||||
```
|
||||
while not stop:
|
||||
try:
|
||||
if settings.reconcile_enabled:
|
||||
reconcile_gate_once() # F-1
|
||||
if settings.reconcile_plane_enabled:
|
||||
reconcile_plane_once() # F-2
|
||||
except Exception: log.error(...) # outer never-raise
|
||||
stop.wait(settings.reconcile_interval_s)
|
||||
```
|
||||
|
||||
`start()` идемпотентен (как `QueueWorker.start`: если поток жив — no-op), что
|
||||
покрывает AC-11 (повторный start не плодит второй поток). Никакого критичного
|
||||
состояния в памяти — всё перечитывается из БД/Plane на каждом тике; метрики
|
||||
наблюдаемости (`last_run_ts`, `unblocked_total`) — best-effort, теряются при
|
||||
рестарте (AC-11 это явно допускает).
|
||||
|
||||
### 2. Источник истины — гейт, не событие. Продвижение строго через `advance_stage`
|
||||
|
||||
F-1 НЕ дублирует логику advance. Вводится тонкий хелпер в `stage_engine.py`:
|
||||
|
||||
```python
|
||||
def advance_if_gate_passed(task_id, stage, repo, work_item_id, branch) -> AdvanceResult | None
|
||||
```
|
||||
|
||||
Алгоритм:
|
||||
1. `stage == "analysis"` → немедленный возврат `None` (см. §6, AC-16).
|
||||
2. `qg = get_qg_for_stage(stage)`; если `None` (created/done) → возврат `None`.
|
||||
3. **Read-only пред-оценка гейта** тем же диспетчером, что использует webhook-путь:
|
||||
`passed, reason = _run_qg(qg, repo, work_item_id, branch)`.
|
||||
4. **passed** → вызвать `advance_stage(task_id, stage, repo, work_item_id, branch,
|
||||
finished_agent=None)` — это **тот же** путь, которым продвигает Plane
|
||||
Approved-webhook (`webhooks/plane._try_advance_stage`). Он повторно прогонит
|
||||
гейт (гейты идемпотентны/read-only), продвинет стадию, отправит **штатные**
|
||||
advance-нотификации и поставит следующего агента.
|
||||
5. **not passed** → **тишина**: `logger.debug(...)`, возврат `None`. Никаких
|
||||
`notify_qg_failure` / `plane_notify_qg`.
|
||||
|
||||
Это даёт оба контракта одновременно:
|
||||
- **AC-2 / TC-02:** в `reconciler.py` нет собственного `update_task_stage` +
|
||||
`enqueue_job` для advance — продвижение исключительно через `advance_stage(...,
|
||||
finished_agent=None)`.
|
||||
- **AC-9 / TC-06:** на застрявшей-но-красной задаче `advance_stage` **не
|
||||
вызывается вовсе**, поэтому ветка нотификации провала (`agent is None` →
|
||||
`notify_qg_failure`+`plane_notify_qg`, `stage_engine.py:228-230`) не
|
||||
срабатывает ни на одном тике. Спам структурно невозможен.
|
||||
|
||||
**Подавление спама = «не вызывать advance_stage на красном гейте»**, а не флаг
|
||||
внутри `advance_stage`. Это сохраняет унифицированный критический путь
|
||||
(`advance_stage`) **без изменений** — минимальный blast-radius для self-hosting.
|
||||
|
||||
> **Цена (осознанная):** на «зелёной» задаче гейт оценивается дважды (пред-оценка
|
||||
> в хелпере + повтор внутри `advance_stage`). Гейты — чистые read-only проверки
|
||||
> (`check_ci_green`, `check_*_status` из `12/13/14/15`), на реально-застрявшей-но-
|
||||
> готовой задаче (целевой кейс ORCH-044) возвращаются быстро (CI уже зелёный →
|
||||
> `ci_poll` отдаёт результат на первой итерации). Двойная оценка приемлема ради
|
||||
> неизменности `advance_stage`.
|
||||
|
||||
#### Отклонённая альтернатива: флаг `suppress_qg_failure_notify` в `advance_stage`
|
||||
Однократная оценка гейта, но изменяет сигнатуру и поведение общего
|
||||
критического пути (риск для self-hosting, обслуживающего все проекты). Отклонено
|
||||
в пользу неизменности `advance_stage` (Option A выше).
|
||||
|
||||
### 3. F-2: вызов `async`-обработчиков `plane.py` из sync-потока
|
||||
|
||||
Reconciler — sync daemon-поток; `handle_status_start` / `handle_verdict` —
|
||||
`async`. Решение: вызывать через **`asyncio.run(coro)`** на каждую единицу работы
|
||||
внутри per-issue `try/except`. `asyncio.run` создаёт свежий event loop на вызов,
|
||||
что необходимо, т.к. `handle_verdict → _try_advance_stage` использует
|
||||
`asyncio.to_thread` (требует running loop). Логику **не дублировать** —
|
||||
переиспользуются ровно `handle_status_start` / `handle_verdict` /
|
||||
`list_issues_by_state`.
|
||||
|
||||
`issue_data` собирается в форму, ожидаемую обработчиками (`{"id", "state":{"id":..},
|
||||
"project", "name", "description_stripped"}`); недостающие name/description
|
||||
обработчики сами дотянут через `fetch_issue_fields` (как для status-only webhook).
|
||||
|
||||
### 4. Идемпотентность создания (анти-дубль, AC-4) — atomic-claim в БД
|
||||
|
||||
Гонка: F-2 видит `In Progress` + нет задачи; одновременно реальный webhook тоже
|
||||
видит `In Progress` + нет задачи → оба проходят `get_task_by_plane_id() is None`
|
||||
→ два `start_pipeline` → два task-row / branch / worktree / стартовых analyst-job
|
||||
(events de-dup тут НЕ помогает: reconciler — не webhook-доставка).
|
||||
|
||||
Решение: **atomic-claim создания, защищённый process-wide `threading.Lock`**.
|
||||
Новый хелпер `db.create_task_atomic(plane_id, ...)` выполняет
|
||||
`SELECT-exists → INSERT` под module-level `Lock`, возвращая `(row, created: bool)`:
|
||||
только победитель (`created=True`) продолжает branch/docs/analyst; проигравший
|
||||
видит существующую задачу и выходит. `start_pipeline` рефакторится так, чтобы
|
||||
**первым** DB-действием был этот claim; reconciler идёт тем же путём через
|
||||
`handle_status_start` → `start_pipeline`.
|
||||
|
||||
**Обоснование выбора Lock, а не UNIQUE-индекса:**
|
||||
- Прод — **один процесс** uvicorn на одну БД (staging/prod изолированы своими БД);
|
||||
webhook исполняется в asyncio-треде uvicorn, reconciler — в своём треде того же
|
||||
процесса → `threading.Lock` покрывает обе стороны гонки.
|
||||
- **Без миграции схемы** (соответствует §6 ТЗ и образцу merge-gate ORCH-043).
|
||||
`CREATE UNIQUE INDEX` на `tasks.plane_id` рискует упасть на проде, если там уже
|
||||
существуют дубли `plane_id` (исторические) — а проверить это вживую нельзя.
|
||||
- Дешёвый fast-path `get_task_by_plane_id` сохраняется до claim.
|
||||
|
||||
> **Граница применимости:** гарантия верна для single-process деплоя (текущая
|
||||
> топология). Многопроцессный запуск (`uvicorn --workers N`) потребовал бы
|
||||
> DB-native UNIQUE-индекса — задокументировано как будущее упрочнение в
|
||||
> `08-data-requirements.md`. Очередь (`queue_worker`) уже опирается на ту же
|
||||
> single-process-singleton модель, так что допущение не новое.
|
||||
|
||||
### 5. Анти-гонка с живым webhook (AC-3) — active-job guard + grace
|
||||
|
||||
- **Active-job guard:** `has_active_job_for_task(task.id) == True` → задача
|
||||
легитимно в работе или живой webhook только что поставил job → **skip** (ни
|
||||
пред-оценки гейта, ни advance, ни нотификаций). И в F-1, и в F-2.
|
||||
- **Самозатухание повторов:** `advance_stage → update_task_stage` обновляет
|
||||
`tasks.updated_at` → следующий тик увидит свежий `updated_at` и не сработает
|
||||
повторно (grace).
|
||||
- `max_concurrency=1`: новый enqueued job встаёт в общую очередь — двойного
|
||||
запуска нет (atomic `claim_next_job`).
|
||||
|
||||
### 6. F-1 НЕ реконсилирует `analysis` (AC-16)
|
||||
|
||||
Гейт `check_analysis_approved` — **человеческий**. В `advance_stage` при
|
||||
`finished_agent=None` он трактуется как `approved-via-status` и продвинул бы
|
||||
задачу. Но при потере именно **Approved**-webhka продвигать analysis допустимо
|
||||
**только** если Plane реально в статусе Approved — этого локальная БД не знает.
|
||||
Поэтому advance стадии `analysis` отдан **F-2** (сверяется с реальным статусом
|
||||
Plane). `advance_if_gate_passed` для `stage == "analysis"` — ранний возврат
|
||||
`None`. Защита от автопродвижения неодобренного человеком BRD.
|
||||
|
||||
### 7. Grace: критерий «потерян, а не задержан»
|
||||
|
||||
- **F-1:** кандидат, если `has_active_job_for_task == False` **и**
|
||||
`age(tasks.updated_at) >= grace_for_stage(stage)`.
|
||||
`grace_for_stage(stage)` = per-stage override из `reconcile_grace_overrides_json`,
|
||||
иначе `reconcile_grace_default_s`. Невалидный JSON → дефолт (паттерн
|
||||
`agent_timeout_overrides_json`, never-raise).
|
||||
- **F-2:** источник «давности» — поле `updated_at` **issue из Plane** (когда статус
|
||||
реально сменился). Реагировать только если `age(issue.updated_at) >=
|
||||
reconcile_grace_default_s` — отсекает просто задержавшийся webhook. Для
|
||||
существующей задачи дополнительно требуется отсутствие активного job.
|
||||
|
||||
### 8. F-3: усиление `sha→branch` в `handle_ci_status`
|
||||
|
||||
При неразрезолвленном branch (нет `branches`, `git branch -r --contains` пуст) —
|
||||
fallback на БД: найти task'и repo со `stage='development'`; при **однозначности**
|
||||
(ровно одна) использовать её branch; при неоднозначности — оставить
|
||||
неразрезолвленным + `logger.info`. `logger.debug → logger.info` для видимости.
|
||||
Success/failure-семантика гейта не меняется. Defense-in-depth: F-1 всё равно
|
||||
подберёт такую задачу.
|
||||
|
||||
### 9. БД и реестры — без изменений
|
||||
|
||||
- Схема **не меняется** (§6 ТЗ). Стуковость — по `tasks.updated_at`/`tasks.stage`
|
||||
+ `has_active_job_for_task`. Анти-дребезг колонкой `last_reconcile_at` **не
|
||||
нужен**: на красном гейте действий/нотификаций нет вовсе (§2), а после advance
|
||||
`updated_at` обновляется → повтор невозможен.
|
||||
- `STAGE_TRANSITIONS` и `QG_CHECKS` **не меняются** (AC / TC-23). Новых QG нет.
|
||||
|
||||
### 10. Наблюдаемость (F-4)
|
||||
|
||||
- При **разблокировке** (произошёл advance) — явная лог-строка
|
||||
`reconciler: <work_item_id> <stage> разблокирована (потерян webhook)`; при
|
||||
`reconcile_notify_unblock=True` — `send_telegram(...)`. Только на изменении
|
||||
состояния, не на каждый тик (AC-12, не конфликтует с AC-9/AC-10).
|
||||
- `/queue` расширяется блоком `"reconcile": {enabled, plane_enabled, interval,
|
||||
last_run_ts, unblocked_total, last_unblocked}` по образцу `worker.status()`.
|
||||
|
||||
## Альтернативы (сводно)
|
||||
- **Флаг подавления нотификаций в `advance_stage`** — отклонён (§2): изменяет общий
|
||||
критический путь.
|
||||
- **UNIQUE-индекс на `tasks.plane_id`** — отклонён как primary (§4): риск падения
|
||||
миграции на проде; задокументирован как будущее упрочнение для multi-process.
|
||||
- **Отдельная стадия/QG для реконсиляции** — вне объёма; нарушило бы «источник
|
||||
истины — существующий гейт».
|
||||
- **Реконсиляция analysis по локальным артефактам** — отклонена (§6): риск
|
||||
автопродвижения неодобренного BRD.
|
||||
|
||||
## Последствия
|
||||
- Потерянный webhook больше не = молча застрявшая задача; ручной heartbeat-watchdog
|
||||
Стрима не нужен; резервная сетка к ORCH-51/ORCH-36.
|
||||
- Плата: фоновый поток + периодический опрос Plane API (нагрузка — митигируется
|
||||
интервалом + фильтром по статусам + per-project); двойная оценка гейта на зелёной
|
||||
задаче; анти-дубль на создании опирается на single-process-допущение.
|
||||
- Self-hosting: kill-switch `reconcile_enabled` обязателен; reconciler не
|
||||
рестартит/не роняет прод-контейнер; раскат поэтапный (флаги).
|
||||
- Сквозной resilience-механизм → сопровождается global `adr-0007`.
|
||||
45
docs/work-items/ORCH-053/07-infra-requirements.md
Normal file
45
docs/work-items/ORCH-053/07-infra-requirements.md
Normal file
@@ -0,0 +1,45 @@
|
||||
# 07 — Требования к инфраструктуре — ORCH-053
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
|
||||
## Топология
|
||||
**Без изменений.** Новых контейнеров/портов/сервисов нет. Reconciler — фоновый
|
||||
daemon-поток **внутри** существующего процесса orchestrator (как `queue_worker`).
|
||||
Стартует/останавливается в `main.lifespan`. Деплой ORCH-053 — строго через
|
||||
staging-гейт (8501) перед прод-деплоем (self-hosting, см. `docs/operations/INFRA.md`).
|
||||
|
||||
## Новые переменные окружения (`.env` / `.env.staging` на хосте, префикс `ORCH_`)
|
||||
|
||||
| Env | Поле `Settings` | Дефолт | Назначение |
|
||||
|-----|-----------------|--------|-----------|
|
||||
| `ORCH_RECONCILE_ENABLED` | `reconcile_enabled` | `true` | **Kill-switch** всего sweeper'а (self-hosting safety, поэтапный раскат, аварийное отключение). |
|
||||
| `ORCH_RECONCILE_INTERVAL_S` | `reconcile_interval_s` | `120` | Период фонового прохода (сек). |
|
||||
| `ORCH_RECONCILE_PLANE_ENABLED` | `reconcile_plane_enabled` | `true` | Отдельный флаг F-2 (опрос Plane API); `false` гасит только plane-ветку, F-1 работает. |
|
||||
| `ORCH_RECONCILE_GRACE_DEFAULT_S` | `reconcile_grace_default_s` | `600` | Дефолтный порог «застревания» по `tasks.updated_at` / `issue.updated_at`. |
|
||||
| `ORCH_RECONCILE_GRACE_OVERRIDES_JSON` | `reconcile_grace_overrides_json` | `""` | Per-stage пороги, напр. `{"analysis":1800,"development":300,"deploy":900}`. Невалидный JSON → дефолт (never-raise). |
|
||||
| `ORCH_RECONCILE_NOTIFY_UNBLOCK` | `reconcile_notify_unblock` | `true` | Telegram при разблокировке (F-4). |
|
||||
|
||||
Секреты не добавляются. `.env.example` (канон) обновляется в PR реализации.
|
||||
|
||||
## Нагрузка / сеть
|
||||
- **Plane API (F-2):** GET issues per-project каждые `reconcile_interval_s`, с
|
||||
фильтром по статусам (In Progress / Approved / Rejected) и пагинацией. Митигация
|
||||
нагрузки — интервал (120с), фильтр, per-project, never-raise (Plane outage →
|
||||
`[]`, тик не падает). `get_project_states` уже кэширует state-uuid per-project.
|
||||
- **Gitea API (F-1):** только косвенно — внутри переоценки гейтов (`check_ci_green`
|
||||
и т.п.), которые и так вызываются webhook-путём. Дополнительных постоянных
|
||||
вызовов reconciler не вносит сверх момента реальной разблокировки.
|
||||
- **CPU/RAM:** один спящий daemon-поток; всплеск только при наличии застрявших
|
||||
задач.
|
||||
|
||||
## Self-hosting
|
||||
- Reconciler **не** рестартит/не роняет прод-контейнер `orchestrator` (8500),
|
||||
обслуживающий все проекты с общей БД.
|
||||
- `docs/operations/INFRA.md` дополняется упоминанием kill-switch
|
||||
`ORCH_RECONCILE_ENABLED` (выполняется в PR реализации, §9 ТЗ).
|
||||
- Раскат: при первом деплое допустимо стартовать с `ORCH_RECONCILE_PLANE_ENABLED=false`
|
||||
(только F-1, минимальный риск), затем включить F-2.
|
||||
|
||||
## Конфиги/деплой
|
||||
Дополнительных томов, портов, healthcheck'ов, изменений `docker-compose`/Dockerfile
|
||||
**не требуется**.
|
||||
38
docs/work-items/ORCH-053/08-data-requirements.md
Normal file
38
docs/work-items/ORCH-053/08-data-requirements.md
Normal file
@@ -0,0 +1,38 @@
|
||||
# 08 — Требования к данным / схеме БД — ORCH-053
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
|
||||
## Изменения схемы: НЕТ
|
||||
|
||||
Реконсиляция строится исключительно на существующих структурах (по образцу
|
||||
merge-gate ORCH-043 — «без новых колонок»):
|
||||
|
||||
| Структура | Использование reconciler |
|
||||
|-----------|--------------------------|
|
||||
| `tasks.stage` | Кандидаты F-1: `stage NOT IN ('done')`; `created`/`analysis` отфильтровываются (нет QG / человеческий гейт). |
|
||||
| `tasks.updated_at` | Критерий «застряла»: `age(updated_at) ≥ grace_for_stage(stage)`. `update_task_stage` уже штампует `updated_at` → самозатухание повторов. |
|
||||
| `tasks.repo`, `tasks.branch`, `tasks.work_item_id`, `tasks.plane_id` | Аргументы `advance_stage` / резолв задачи. |
|
||||
| `jobs` (`has_active_job_for_task`) | Active-job guard (AC-3): задача с `queued`/`running` job не трогается. |
|
||||
|
||||
## Анти-дребезг (`last_reconcile_at`): НЕ вводится
|
||||
На красном гейте reconciler не делает ни advance, ни нотификаций (см. ADR-001 §2),
|
||||
поэтому спама нет структурно; после успешного advance обновляется `updated_at` →
|
||||
повтор невозможен. Дополнительная колонка для дебаунса не нужна.
|
||||
|
||||
## Идемпотентность создания (анти-дубль, AC-4)
|
||||
Гонка reconciler↔webhook на создании задачи закрывается **process-wide
|
||||
`threading.Lock`** вокруг `SELECT-exists → INSERT` (новый хелпер
|
||||
`db.create_task_atomic`), **без** изменения схемы. Гарантия верна для текущей
|
||||
**single-process** топологии (один uvicorn на одну БД; staging/prod изолированы) —
|
||||
тот же допущение, что у очереди `queue_worker` (ORCH-1).
|
||||
|
||||
### Будущее упрочнение (вне объёма ORCH-053)
|
||||
Для multi-process деплоя (`uvicorn --workers N`) потребуется DB-native гарантия:
|
||||
частичный UNIQUE-индекс `CREATE UNIQUE INDEX ... ON tasks(plane_id) WHERE plane_id
|
||||
IS NOT NULL` (паттерн `idx_events_delivery`) + `INSERT OR IGNORE` claim. Не вводим
|
||||
сейчас: миграция может упасть на проде при наличии исторических дублей `plane_id`
|
||||
(проверить вживую нельзя); требует отдельной задачи с аудитом данных.
|
||||
|
||||
## Миграции
|
||||
Не требуются. Если в будущем понадобится колонка — только идемпотентный
|
||||
`_ensure_column` (как все ALTER в `src/db.py`), безопасный на живой прод-БД.
|
||||
27
docs/work-items/ORCH-053/10-tech-risks.md
Normal file
27
docs/work-items/ORCH-053/10-tech-risks.md
Normal file
@@ -0,0 +1,27 @@
|
||||
# 10 — Технические риски — ORCH-053
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
Severity: 🔴 high / 🟡 medium / 🟢 low
|
||||
|
||||
| # | Риск | Sev | Митигация (где зафиксировано) |
|
||||
|---|------|-----|-------------------------------|
|
||||
| R-1 | **Гонка reconciler↔живой webhook → двойная задача** (оба видят «нет задачи» на `In Progress`). | 🔴 | Atomic-claim `db.create_task_atomic` под process-wide `threading.Lock` (ADR-001 §4, 08-data). AC-4 / TC-15. |
|
||||
| R-2 | **Двойной запуск агента** на стадии (reconciler дёргает гейт у задачи в работе). | 🔴 | `has_active_job_for_task` guard + `max_concurrency=1` + atomic `claim_next_job`; `update_task_stage` обновляет `updated_at` (ADR-001 §5). AC-3 / TC-03. |
|
||||
| R-3 | **Спам нотификаций** на стабильно красном гейте каждый тик. | 🔴 | «Не вызывать `advance_stage` на красном» → ветка `notify_qg_failure` не достигается (ADR-001 §2). AC-9 / TC-06. |
|
||||
| R-4 | **Автопродвижение неодобренного BRD** (F-1 продвинул `analysis` без Approved в Plane). | 🔴 | F-1 не реконсилирует `analysis`; advance стадии — только F-2 по реальному статусу Plane (ADR-001 §6). AC-16 / TC-08. |
|
||||
| R-5 | **Дублирование логики advance/rollback** в reconciler (расхождение с webhook-путём со временем). | 🟡 | Продвижение строго через `advance_stage(..., finished_agent=None)`; F-2 — через `handle_*` из `plane.py`; своего `update_task_stage`/`enqueue_job` для advance нет (ADR-001 §2-3). AC-2 / TC-02. |
|
||||
| R-6 | **Падение тика из-за одной битой задачи/issue** (битые данные, ошибка API). | 🟡 | Per-task / per-issue `try/except` + outer `try/except` в `_run` (паттерн `_drain_once`). AC-15 / TC-09. `list_issues_by_state` never-raise → `[]`. TC-16. |
|
||||
| R-7 | **Нагрузка/недоступность Plane API** при опросе каждые N сек. | 🟡 | Интервал 120с + фильтр по статусам + per-project + кэш `get_project_states`; never-raise → мягкая деградация (ADR-001 §3, 07-infra). |
|
||||
| R-8 | **`asyncio.run` из sync-потока** (event loop конфликты, зависание). | 🟡 | Свежий loop на единицу работы; внутри per-issue try/except; нет вложенного running loop (reconciler — не async). ADR-001 §3. |
|
||||
| R-9 | **Self-hosting: reconciler меняет инструмент всех проектов** / нежелательное срабатывание на проде. | 🔴 | Kill-switch `reconcile_enabled`; раздельный `reconcile_plane_enabled`; деплой через staging-гейт; не рестартит прод. ADR-001 §1, 07-infra. AC-13 / TC-10. |
|
||||
| R-10 | **Двойная оценка гейта** на зелёной задаче (пред-оценка + повтор в `advance_stage`); долгий `ci_poll` держит тик. | 🟢 | Гейты идемпотентны/read-only; на целевом кейсе (CI уже зелёный) возвращаются быстро; reconciler — отдельный daemon-поток. Осознанная цена за неизменность `advance_stage` (ADR-001 §2). |
|
||||
| R-11 | **Ложный `sha→branch` матч** в F-3 при неоднозначности. | 🟡 | БД-fallback срабатывает только при ровно одной `development`-задаче repo; иначе — неразрезолвлено + INFO; success/failure-семантика гейта не тронута (ADR-001 §8). AC-14 / TC-18, TC-19. |
|
||||
| R-12 | **Регресс реестров** (`STAGE_TRANSITIONS`/`QG_CHECKS`) или схемы. | 🟡 | Реестры/схема не меняются; snapshot-тест (ADR-001 §9). AC / TC-23. |
|
||||
| R-13 | **Дубль на стадии deploy-staging↔merge-gate** (reconciler триггерит advance, конкурируя с merge-lease). | 🟢 | F-1 продвигает только через `advance_stage`, который штатно прогоняет merge-gate (defer/rollback владеет исходом); active-job guard + `updated_at` — без гонки на тике (ADR-001 §2). |
|
||||
| R-14 | **Multi-process деплой ломает анти-дубль** (Lock — внутрипроцессный). | 🟢 | Текущая топология single-process (как очередь ORCH-1); ограничение задокументировано, DB UNIQUE-индекс — будущее упрочнение (08-data). |
|
||||
|
||||
## Сводно
|
||||
Самые острые (🔴) — анти-дубль на создании (R-1), двойной запуск (R-2), спам (R-3),
|
||||
автопродвижение analysis (R-4), self-hosting (R-9) — закрыты явными механизмами с
|
||||
покрытием в `04-test-plan.yaml`. Остаточные допущения: single-process топология
|
||||
(R-14) и осознанная двойная оценка гейта (R-10).
|
||||
88
docs/work-items/ORCH-053/12-review.md
Normal file
88
docs/work-items/ORCH-053/12-review.md
Normal file
@@ -0,0 +1,88 @@
|
||||
---
|
||||
type: review
|
||||
work_item_id: ORCH-053
|
||||
verdict: APPROVED
|
||||
version: 1
|
||||
---
|
||||
|
||||
# Review ORCH-053 — Sweeper потерянных webhook (реконсиляция застрявших стадий)
|
||||
|
||||
## Summary
|
||||
PR реализует фоновый reconciler застрявших стадий ровно в объёме ТЗ (`02-trz.md`) и
|
||||
ADR (`06-adr/ADR-001`, глобальный `adr-0007`). Все 17 acceptance-criteria покрыты
|
||||
кодом и тестами; полный прогон `pytest` — **563 passed**. Реализация строго следует
|
||||
ключевым инвариантам: продвижение только через неизменный `advance_stage(...,
|
||||
finished_agent=None)`, никакой дублирующей advance/rollback-логики в `reconciler.py`,
|
||||
структурная невозможность спама нотификаций, never-raise на единицу работы,
|
||||
restart-safe daemon-поток, kill-switch'и. Схема БД и реестры `STAGE_TRANSITIONS` /
|
||||
`QG_CHECKS` не тронуты. Документация обновлена в этом же PR. Рекомендация: **APPROVED**.
|
||||
|
||||
## Соответствие ТЗ
|
||||
- `src/reconciler.py` (НОВЫЙ): F-1 `reconcile_gate_once` + F-2 `reconcile_plane_once`, класс
|
||||
`Reconciler` + module-singleton по образцу `queue_worker`. ✓
|
||||
- `src/config.py`: все 6 `reconcile_*` настроек с дефолтами по таблице §5. ✓
|
||||
- `src/main.py`: старт после `worker.start()`, стоп перед `worker.stop()`, блок `reconcile`
|
||||
в `GET /queue`. ✓
|
||||
- `src/stage_engine.py`: тонкий `advance_if_gate_passed` — read-only пред-оценка гейта,
|
||||
advance только через `advance_stage`, на красном гейте `advance_stage` не вызывается
|
||||
вовсе (подавление спама без изменения общего критпути). ✓
|
||||
- `src/plane_sync.py`: `list_issues_by_state` с курсорной пагинацией и never-raise → `[]`. ✓
|
||||
- `src/webhooks/gitea.py`: F-3 БД-fallback `sha→branch` (`_resolve_branch_via_db`),
|
||||
однозначность обязательна, `debug→info`. ✓
|
||||
- `src/webhooks/plane.py` + `src/db.py`: F-2 переиспользует `handle_status_start` /
|
||||
`handle_verdict` без дублирования; анти-дубль `create_task_atomic` под process-wide Lock,
|
||||
`start_pipeline` рефакторен на atomic-claim первым DB-действием. ✓
|
||||
- Схема БД и реестры не менялись (§6/§8 ТЗ). ✓
|
||||
|
||||
## Соответствие ADR
|
||||
- §2 (источник истины — гейт; продвижение только через `advance_stage`): соблюдено —
|
||||
в `reconciler.py` нет собственного `update_task_stage`/`enqueue_job` для advance (AC-2).
|
||||
- §3 (async-обработчики из sync-потока через `asyncio.run`): реализовано в `_dispatch`.
|
||||
- §4 (atomic-claim под `threading.Lock`, без миграции): `db.create_task_atomic`.
|
||||
- §6 (F-1 не трогает `analysis`): ранний возврат в `advance_if_gate_passed` и в
|
||||
`_reconcile_gate_task` (AC-16).
|
||||
- §7 (grace «потерян, а не задержан»): F-1 по `tasks.updated_at` (SQL `age_s`), F-2 по
|
||||
`issue.updated_at` (`_age_seconds_iso`).
|
||||
- Нарушений глобальных ADR нет; `adr-0007` заведён и внесён в `docs/architecture/adr/README.md`.
|
||||
|
||||
## Качество кода
|
||||
- Контракт never-raise выдержан на всех уровнях: outer loop, per-task, per-project, per-issue,
|
||||
`_parse_grace_overrides`, `list_issues_by_state`, `_resolve_branch_via_db`, телеграм-нотификация.
|
||||
- Идемпотентность: active-job guard в F-1 и F-2; самозатухание через обновление `updated_at`
|
||||
после advance; `max_concurrency=1`. Подтверждено анализом — F-2 на approved/rejected всегда
|
||||
меняет состояние (analysis approved-via-status всегда проходит; rollback всегда срабатывает),
|
||||
поэтому петли спама нотификаций структурно не возникает.
|
||||
- Защита от ложного матча в F-3 (только при единственной development-задаче repo).
|
||||
- Docstrings содержательные на всех публичных функциях; тесты не тривиальные (мапятся на
|
||||
TC-01…TC-21 из `04-test-plan.yaml`).
|
||||
|
||||
## Документация
|
||||
Обновлена в этом же PR (AC-17 выполнен):
|
||||
- `docs/architecture/README.md` — компонент Reconciler, раздел resilience, строка в таблице API
|
||||
(`/queue` … + reconcile), footer-пометка. ✓
|
||||
- `docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md` — заведён. ✓
|
||||
- `docs/architecture/adr/adr-0007-reconciler.md` + строка в `adr/README.md`. ✓
|
||||
- `CHANGELOG.md` — запись в `[Unreleased]/Added`. ✓
|
||||
- `docs/operations/INFRA.md` — kill-switch'и и env-карта (self-hosting). ✓
|
||||
- `README.md` и `.env.example` — env-таблица `ORCH_RECONCILE_*`. ✓
|
||||
|
||||
## Findings
|
||||
|
||||
### P0 — Blocker
|
||||
- Нет.
|
||||
|
||||
### P1 — Must fix
|
||||
- Нет.
|
||||
|
||||
### P2 — Should fix
|
||||
- Нет.
|
||||
|
||||
### P3 — Nice-to-have
|
||||
- Несоответствие статуса ADR: `06-adr/ADR-001` помечен `Статус: Proposed`, тогда как
|
||||
`docs/architecture/adr/README.md` указывает `adr-0007` как `accepted`. Косметика —
|
||||
привести к одному значению при следующем касании.
|
||||
- `get_project_states(pid)` теоретически может вернуть словарь без ключей
|
||||
`approved`/`rejected` при частичном резолве состояний проекта → `KeyError` в
|
||||
`_reconcile_plane_project`. Сейчас изолировано per-project `try/except` (never-raise
|
||||
держится, эффект — пропуск F-2 для проекта). Можно усилить `.get(...)`-доступом ради
|
||||
явности; не блокер.
|
||||
74
docs/work-items/ORCH-053/13-test-report.md
Normal file
74
docs/work-items/ORCH-053/13-test-report.md
Normal file
@@ -0,0 +1,74 @@
|
||||
---
|
||||
type: test-report
|
||||
work_item_id: ORCH-053
|
||||
result: PASS
|
||||
---
|
||||
|
||||
# Test Report — ORCH-053 (Sweeper потерянных webhook / reconciler)
|
||||
|
||||
## Окружение
|
||||
- Python: 3.12.13
|
||||
- pytest: 8.3.3 (plugins: anyio-4.13.0, asyncio-0.23.8; asyncio mode=AUTO)
|
||||
- Ветка: `feature/ORCH-053-sweeper-webhook-stuck-task`
|
||||
- Дата: 2026-06-06
|
||||
- Review verdict: APPROVED (`12-review.md`)
|
||||
|
||||
## Команда прогона
|
||||
`python -m pytest tests/ -v --tb=short` → **563 passed, 1 warning, 12.09s**
|
||||
(warning — известный PydanticDeprecatedSince20 в `src/config.py`, не связан с ORCH-053).
|
||||
|
||||
## Результаты по тест-плану (`04-test-plan.yaml`)
|
||||
|
||||
| TC ID | Описание | Тест | Результат |
|
||||
|-------|----------|------|-----------|
|
||||
| TC-01 | F-1: продвижение застрявшей development-задачи | test_reconciler::test_tc01_advances_stuck_development_task | PASS |
|
||||
| TC-02 | Источник истины — гейт, advance только через advance_stage(finished_agent=None) | test_reconciler::test_tc02_advances_via_advance_stage_finished_agent_none | PASS |
|
||||
| TC-03 | Активный job → задача пропускается | test_reconciler::test_tc03_active_job_skipped | PASS |
|
||||
| TC-04 | Per-stage grace, граница age>=grace | test_reconciler::test_tc04_grace_boundary | PASS |
|
||||
| TC-05 | grace_for_stage: overrides + невалидный JSON → дефолт | test_reconciler::test_tc05_grace_for_stage_overrides / _invalid_json_falls_back | PASS |
|
||||
| TC-06 | Нет спама нотификаций на красном гейте | test_reconciler::test_tc06_red_gate_no_spam | PASS |
|
||||
| TC-07 | Тишина при синхронности | test_reconciler::test_tc07_silence_when_in_sync | PASS |
|
||||
| TC-08 | AC-16: F-1 не продвигает analysis | test_reconciler::test_tc08_analysis_not_advanced_by_f1 | PASS |
|
||||
| TC-09 | Never-raise изолирует сбой одной задачи | test_reconciler::test_tc09_never_raise_isolates_failure | PASS |
|
||||
| TC-10 | Kill-switch (reconcile_enabled / reconcile_plane_enabled) | test_reconciler::test_tc10_kill_switch_disables_gate / _plane_switch_mutes_only_f2 | PASS |
|
||||
| TC-11 | F-2: In Progress без задачи → handle_status_start | test_reconciler_plane::test_tc11_in_progress_without_task_starts_pipeline | PASS |
|
||||
| TC-12 | F-2: Approved → handle_verdict(approved=True) | test_reconciler_plane::test_tc12_approved_replays_verdict | PASS |
|
||||
| TC-13 | F-2: Rejected → handle_verdict(approved=False) | test_reconciler_plane::test_tc13_rejected_replays_verdict | PASS |
|
||||
| TC-14 | Идемпотентность F-2: активный job / в пределах grace | test_reconciler_plane::test_tc14_active_job_skips / test_tc14b_within_grace_skipped | PASS |
|
||||
| TC-15 | AC-4 анти-дубль на создании (create_task_atomic) | test_reconciler_plane::test_tc15_create_task_atomic_no_duplicate | PASS |
|
||||
| TC-16 | list_issues_by_state never-raise + пагинация/фильтр | test_reconciler_plane::test_tc16_list_issues_never_raises_on_error / _paginates_and_filters | PASS |
|
||||
| TC-17 | F-2 опрашивает все проекты, резолвит state per-project | test_reconciler_plane::test_tc17_polls_all_projects_resolves_states_per_project | PASS |
|
||||
| TC-18 | F-3: sha→branch БД-fallback однозначный матч | test_gitea_sha_resolve::test_tc18_db_fallback_unique_match_advances | PASS |
|
||||
| TC-19 | F-3: неоднозначность → нет ложного матча | test_gitea_sha_resolve::test_tc19_db_fallback_ambiguous_no_match | PASS |
|
||||
| TC-20 | F-4: лог-строка разблокировки + Telegram (вкл/выкл) | test_reconciler::test_tc20_unblock_logs_and_notifies / _no_telegram_when_disabled | PASS |
|
||||
| TC-21 | Restart-safe daemon-поток: start/stop/идемпотентный start | test_reconciler::test_tc21_daemon_thread_lifecycle | PASS |
|
||||
| TC-22 | Конфиг reconcile_* дефолты + env ORCH_ | test_config::test_reconcile_settings_defaults / _env_override | PASS |
|
||||
| TC-23 | Регресс реестров STAGE_TRANSITIONS / QG_CHECKS не изменены | test_qg_registry_snapshot::test_tc20_qg_registry_unchanged / _qg_callables_unchanged / _stage_transitions_unchanged | PASS |
|
||||
|
||||
Все 23 TC покрыты тестами и зелёные (целевые файлы: 36 passed).
|
||||
|
||||
## Smoke test API (прод-контейнер 8500, только read-only GET, без касания состояния)
|
||||
- `GET /health` → 200 `{"status":"ok","service":"orchestrator"}`
|
||||
- `GET /status` → 200 (active_tasks отдаётся; видна задача id=44 ORCH-053 на стадии testing)
|
||||
- `GET /queue` → 200 (counts/max_concurrency/resilience отдаются)
|
||||
- Блок `reconcile` в `/queue` на проде ОТСУТСТВУЕТ — ожидаемо: прод работает на старом коде,
|
||||
ORCH-053 ещё не задеплоен. В коде ветки блок реализован (`src/main.py:131` —
|
||||
`"reconcile": reconciler.status()`). Появится после deploy-staging/deploy.
|
||||
|
||||
## Покрытие Acceptance Criteria (`03-acceptance-criteria.md`)
|
||||
AC-1…AC-16 — покрыты соответствующими TC (см. таблицу) и зелёные.
|
||||
AC-17 (документация — golden source) — подтверждён на стадии review (APPROVED, секция
|
||||
«Документация»): README.md архитектуры, ADR-001, adr-0007, CHANGELOG.md, INFRA.md обновлены.
|
||||
|
||||
## Вывод pytest (хвост)
|
||||
```
|
||||
======================= 563 passed, 1 warning in 12.09s ========================
|
||||
```
|
||||
Целевые файлы ORCH-053:
|
||||
```
|
||||
======================== 36 passed, 1 warning in 1.20s =========================
|
||||
```
|
||||
|
||||
## Итог
|
||||
**PASS** — полный регресс зелёный (563 passed), все 23 TC из тест-плана выполнены,
|
||||
acceptance-criteria покрыты, smoke прод-API здоров. Задача готова к стадии `deploy-staging`.
|
||||
@@ -9,10 +9,6 @@
|
||||
# TARGET_IMAGE - image name for retag (default: orchestrator-orchestrator-staging)
|
||||
# COMPOSE_PROFILE - docker compose profile (default: staging)
|
||||
# PREV_IMAGE_FILE - path to prev-image snapshot (default: $REPO/.deploy-prev-image-staging)
|
||||
# SOURCE_IMAGE - build-once source image (default: unset; ORCH-36)
|
||||
# When set, the prevalidated (staging) image is retagged onto
|
||||
# TARGET_IMAGE instead of rebuilding — guarantees prod runs the
|
||||
# exact artefact that passed staging (no `docker build`).
|
||||
# LOG - log file path (default: /var/log/orchestrator/deploy-hook.log)
|
||||
#
|
||||
# Usage:
|
||||
@@ -29,9 +25,6 @@ TARGET_PORT="${TARGET_PORT:-8501}"
|
||||
TARGET_IMAGE="${TARGET_IMAGE:-orchestrator-orchestrator-staging}"
|
||||
COMPOSE_PROFILE="${COMPOSE_PROFILE:-staging}"
|
||||
PREV_IMAGE_FILE="${PREV_IMAGE_FILE:-$REPO/.deploy-prev-image-staging}"
|
||||
# Build-once (ORCH-36): optional prevalidated source image to retag onto
|
||||
# TARGET_IMAGE. Unset -> backward-compatible (no retag), exit-code contract intact.
|
||||
SOURCE_IMAGE="${SOURCE_IMAGE:-}"
|
||||
|
||||
# ---- Log setup -------------------------------------------------------------
|
||||
LOG_DIR=/var/log/orchestrator
|
||||
@@ -146,24 +139,10 @@ else
|
||||
log "No previous image captured (first deploy or service not running?)"
|
||||
fi
|
||||
|
||||
# 2. Pull latest code (keeps the host working tree current for future builds;
|
||||
# the DEPLOYED artefact is the retagged SOURCE_IMAGE below when build-once).
|
||||
# 2. Pull latest code
|
||||
log "git pull origin main"
|
||||
git pull origin main >> "$LOG" 2>&1
|
||||
|
||||
# 2b. Build-once (ORCH-36): retag the prevalidated staging image onto TARGET_IMAGE
|
||||
# instead of rebuilding, so prod runs the exact artefact that passed staging.
|
||||
# Backward compatible: skipped when SOURCE_IMAGE is unset.
|
||||
if [[ -n "$SOURCE_IMAGE" ]]; then
|
||||
if docker image inspect "$SOURCE_IMAGE" >/dev/null 2>&1; then
|
||||
log "BUILD-ONCE: retagging $SOURCE_IMAGE -> $TARGET_IMAGE (no rebuild)"
|
||||
docker tag "$SOURCE_IMAGE" "$TARGET_IMAGE" >> "$LOG" 2>&1
|
||||
else
|
||||
log "BUILD-ONCE: SOURCE_IMAGE '$SOURCE_IMAGE' not found locally - aborting (exit 1)"
|
||||
exit 1
|
||||
fi
|
||||
fi
|
||||
|
||||
# 3. Restart service
|
||||
log "Starting $TARGET_SERVICE (profile=$COMPOSE_PROFILE)"
|
||||
if [[ -n "$COMPOSE_PROFILE" ]]; then
|
||||
|
||||
@@ -214,14 +214,7 @@ class AgentLauncher:
|
||||
Same spawn path as launch(), but threads job['id'] through so the monitor
|
||||
can update the job's status (done / requeue / failed) and link jobs.run_id
|
||||
to the agent_runs row. Returns the agent_run_id.
|
||||
|
||||
ORCH-036: the reserved-agent ``deploy-finalizer`` is a DETERMINISTIC
|
||||
(no-LLM) job — intercept it BEFORE _spawn (which would raise
|
||||
"Unknown agent", R-6) and run the deploy finalizer synchronously, driving
|
||||
the jobs row status itself. Returns None (no agent_run row).
|
||||
"""
|
||||
if job.get("agent") == "deploy-finalizer":
|
||||
return self._run_deploy_finalizer_job(job)
|
||||
return self._spawn(
|
||||
job["agent"],
|
||||
job["repo"],
|
||||
@@ -230,27 +223,6 @@ class AgentLauncher:
|
||||
job_id=job["id"],
|
||||
)
|
||||
|
||||
def _run_deploy_finalizer_job(self, job: dict):
|
||||
"""ORCH-036 Phase C: run the deterministic deploy finalizer for a job.
|
||||
|
||||
Not an LLM spawn — there is no subprocess/monitor, so we mark the jobs row
|
||||
done/failed here. Any error is contained (the finalizer never-raises, but
|
||||
we guard anyway so a finalizer fault can't wedge the worker).
|
||||
"""
|
||||
from ..db import mark_job
|
||||
from .. import stage_engine
|
||||
try:
|
||||
stage_engine.run_deploy_finalizer(job)
|
||||
mark_job(job["id"], "done")
|
||||
logger.info(f"deploy-finalizer job {job['id']} done")
|
||||
except Exception as e:
|
||||
logger.error(f"deploy-finalizer job {job['id']} failed: {e}")
|
||||
try:
|
||||
mark_job(job["id"], "failed", error=f"deploy-finalizer error: {e}")
|
||||
except Exception:
|
||||
pass
|
||||
return None
|
||||
|
||||
def _spawn(self, agent: str, repo: str, task_content: str = None,
|
||||
task_id: int = None, job_id: int = None) -> int:
|
||||
"""Shared spawn implementation for launch() and launch_job().
|
||||
|
||||
@@ -152,49 +152,27 @@ class Settings(BaseSettings):
|
||||
merge_defer_delay_s: int = 60
|
||||
merge_defer_max_attempts: int = 5
|
||||
|
||||
# ORCH-036: executable self-deploy (deploy stage drives the host hook).
|
||||
# The `deploy` stage for the self-hosting repo is turned into a REAL prod
|
||||
# restart via a detached host process, gated by a manual approve. Three-phase
|
||||
# design (ADR-001): A=approve-request, B=initiate (human Approved), C=finalizer
|
||||
# maps the hook exit-code -> deploy_status. Non-self repos are unaffected.
|
||||
#
|
||||
# self_deploy_enabled -> global kill-switch; False -> no Phase A/B/C
|
||||
# interception (the legacy synchronous deployer
|
||||
# path runs for everyone, env ORCH_SELF_DEPLOY_ENABLED).
|
||||
# self_deploy_repos -> CSV of repos where executable self-deploy is
|
||||
# REAL; empty -> only the self-hosting repo
|
||||
# (orchestrator). Mirrors merge_gate_repos.
|
||||
# deploy_require_manual_approve -> require a human Approved before the prod
|
||||
# restart (BR-5). Default true; NOT toggled in
|
||||
# ORCH-36 (AC-12). false -> Phase A initiates
|
||||
# immediately (structural branch, off by default).
|
||||
# deploy_finalize_delay_s -> delay before the first finalize poll; must be
|
||||
# > the hook health-loop (~60s) so the verdict
|
||||
# usually exists on the first poll.
|
||||
# deploy_finalize_max_attempts -> bounded finalize-defer budget (anti-livelock).
|
||||
# ssh / hook target (detached prod restart; real values live on the host):
|
||||
# deploy_ssh_user / deploy_ssh_host -> ssh target for the host hook (INFRA P-2).
|
||||
# deploy_hook_script -> path to the hook ON THE HOST (relative to repo).
|
||||
# deploy_host_repo_path -> orchestrator clone path on the host.
|
||||
# prod overrides passed to the hook for build-once (retag staging image -> prod):
|
||||
# deploy_prod_source_image -> image validated on staging (retagged, no rebuild).
|
||||
# deploy_prod_target_service / _port / _image / _compose_profile -> prod profile.
|
||||
# deploy_prod_prev_image_file -> prod prev-image snapshot (separate from staging).
|
||||
self_deploy_enabled: bool = True
|
||||
self_deploy_repos: str = ""
|
||||
deploy_require_manual_approve: bool = True
|
||||
deploy_finalize_delay_s: int = 90
|
||||
deploy_finalize_max_attempts: int = 10
|
||||
deploy_ssh_user: str = "slin"
|
||||
deploy_ssh_host: str = ""
|
||||
deploy_hook_script: str = "scripts/orchestrator-deploy-hook.sh"
|
||||
deploy_host_repo_path: str = "/home/slin/repos/orchestrator"
|
||||
deploy_prod_source_image: str = "orchestrator-orchestrator-staging"
|
||||
deploy_prod_target_service: str = "orchestrator"
|
||||
deploy_prod_target_port: int = 8500
|
||||
deploy_prod_target_image: str = "orchestrator-orchestrator"
|
||||
deploy_prod_compose_profile: str = ""
|
||||
deploy_prod_prev_image_file: str = ".deploy-prev-image-prod"
|
||||
# ORCH-053: stuck-task reconciler (sweeper for lost webhooks). A background
|
||||
# daemon thread reconciles the "source of truth (gate / Plane) != task stage"
|
||||
# drift left behind by a dropped webhook (502 on rebuild, no Plane/Gitea
|
||||
# retries, unresolved sha->branch). See docs/architecture/adr/adr-0007-reconciler.md.
|
||||
# reconcile_enabled -> global kill-switch (self-hosting safety,
|
||||
# staged rollout, env ORCH_RECONCILE_ENABLED).
|
||||
# reconcile_interval_s -> background sweep period (seconds).
|
||||
# reconcile_plane_enabled -> separate flag for the F-2 Plane-API poll so
|
||||
# only the plane branch can be muted.
|
||||
# reconcile_grace_default_s -> default "stuck" threshold on tasks.updated_at.
|
||||
# reconcile_grace_overrides_json -> JSON object of per-stage thresholds, e.g.
|
||||
# {"analysis": 1800, "development": 300}. Invalid
|
||||
# JSON -> default (mirrors agent_timeout_overrides_json).
|
||||
# reconcile_notify_unblock -> send a Telegram message when a stuck task is
|
||||
# unblocked (F-4 observability).
|
||||
reconcile_enabled: bool = True
|
||||
reconcile_interval_s: int = 120
|
||||
reconcile_plane_enabled: bool = True
|
||||
reconcile_grace_default_s: int = 600
|
||||
reconcile_grace_overrides_json: str = ""
|
||||
reconcile_notify_unblock: bool = True
|
||||
|
||||
# Telegram notifications
|
||||
telegram_bot_token: str = ""
|
||||
|
||||
93
src/db.py
93
src/db.py
@@ -1,6 +1,15 @@
|
||||
import sqlite3
|
||||
import threading
|
||||
from .config import settings
|
||||
|
||||
# ORCH-053 (F-2 anti-dup): process-wide lock guarding the SELECT-exists -> INSERT
|
||||
# task-creation claim. The prod topology is a single uvicorn process per DB
|
||||
# (staging/prod isolated), with the webhook running in uvicorn's asyncio thread
|
||||
# and the reconciler in its own thread of the SAME process -> a threading.Lock
|
||||
# covers both sides of the create race without a schema migration. See
|
||||
# docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md §4.
|
||||
_CREATE_TASK_LOCK = threading.Lock()
|
||||
|
||||
|
||||
def get_db() -> sqlite3.Connection:
|
||||
conn = sqlite3.connect(settings.db_path)
|
||||
@@ -145,6 +154,90 @@ def get_task_by_repo_branch(repo: str, branch: str) -> dict | None:
|
||||
return None
|
||||
|
||||
|
||||
def get_active_tasks_for_reconcile() -> list[dict]:
|
||||
"""ORCH-053 (F-1): tasks eligible for the gate-side sweeper.
|
||||
|
||||
Returns every task whose stage is not terminal ('done'), each augmented with
|
||||
``age_s`` = seconds since ``tasks.updated_at`` (computed in SQL against UTC
|
||||
'now', matching how ``update_task_stage`` stamps ``updated_at``). The
|
||||
reconciler applies the per-stage grace and active-job guard on top.
|
||||
"""
|
||||
conn = get_db()
|
||||
try:
|
||||
rows = conn.execute(
|
||||
"SELECT *, "
|
||||
"CAST(strftime('%s','now') - strftime('%s', updated_at) AS INTEGER) AS age_s "
|
||||
"FROM tasks WHERE stage != 'done'"
|
||||
).fetchall()
|
||||
finally:
|
||||
conn.close()
|
||||
return [dict(r) for r in rows]
|
||||
|
||||
|
||||
def get_development_tasks_by_repo(repo: str) -> list[dict]:
|
||||
"""ORCH-053 (F-3): tasks of a repo currently on the 'development' stage.
|
||||
|
||||
Used as the sha->branch DB fallback in handle_ci_status: a CI-status webhook
|
||||
whose branch could not be resolved (no branches[], empty
|
||||
``git branch -r --contains``) is matched to the unique development task of
|
||||
the repo (ambiguity -> caller leaves it unresolved).
|
||||
"""
|
||||
conn = get_db()
|
||||
try:
|
||||
rows = conn.execute(
|
||||
"SELECT * FROM tasks WHERE repo = ? AND stage = 'development'", (repo,)
|
||||
).fetchall()
|
||||
finally:
|
||||
conn.close()
|
||||
return [dict(r) for r in rows]
|
||||
|
||||
|
||||
def create_task_atomic(
|
||||
plane_id: str,
|
||||
work_item_id: str,
|
||||
repo: str,
|
||||
branch: str,
|
||||
stage: str,
|
||||
title: str,
|
||||
) -> tuple[dict, bool]:
|
||||
"""ORCH-053 (AC-4): atomically claim creation of a task for a plane_id.
|
||||
|
||||
Performs SELECT-exists -> INSERT under the process-wide ``_CREATE_TASK_LOCK``
|
||||
so a race between the live Plane webhook and the F-2 reconciler (both seeing
|
||||
"no task yet" for the same plane_id) cannot create two task rows / branches /
|
||||
worktrees / starter analyst jobs.
|
||||
|
||||
Returns ``(row, created)``:
|
||||
* ``created=True`` -> THIS caller inserted the row and owns the follow-up
|
||||
work (branch / docs / analyst enqueue);
|
||||
* ``created=False`` -> a task for this plane_id already existed (the other
|
||||
racer won); ``row`` is the existing task and the caller must NOT duplicate
|
||||
the follow-up work.
|
||||
"""
|
||||
with _CREATE_TASK_LOCK:
|
||||
conn = get_db()
|
||||
try:
|
||||
existing = conn.execute(
|
||||
"SELECT * FROM tasks WHERE plane_id = ? OR plane_issue_id = ?",
|
||||
(plane_id, plane_id),
|
||||
).fetchone()
|
||||
if existing:
|
||||
return dict(existing), False
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks "
|
||||
"(plane_id, work_item_id, repo, branch, stage, plane_issue_id, title) "
|
||||
"VALUES (?, ?, ?, ?, ?, ?, ?)",
|
||||
(plane_id, work_item_id, repo, branch, stage, plane_id, title),
|
||||
)
|
||||
conn.commit()
|
||||
row = conn.execute(
|
||||
"SELECT * FROM tasks WHERE id = ?", (cur.lastrowid,)
|
||||
).fetchone()
|
||||
return dict(row), True
|
||||
finally:
|
||||
conn.close()
|
||||
|
||||
|
||||
def update_task_stage(task_id: int, stage: str):
|
||||
"""Update task stage and timestamp."""
|
||||
conn = get_db()
|
||||
|
||||
14
src/main.py
14
src/main.py
@@ -80,11 +80,19 @@ async def lifespan(app: FastAPI):
|
||||
from .queue_worker import worker
|
||||
worker.start()
|
||||
|
||||
# ORCH-053: start the stuck-task reconciler AFTER the worker so its active-job
|
||||
# guard sees a fully-initialised queue. Kill-switch: ORCH_RECONCILE_ENABLED.
|
||||
from .reconciler import reconciler
|
||||
reconciler.start()
|
||||
|
||||
try:
|
||||
yield
|
||||
finally:
|
||||
# Graceful shutdown of the worker (running agents keep going; their jobs
|
||||
# are requeued on next start via queue-recovery if the process dies).
|
||||
# Graceful shutdown order mirrors startup in reverse: stop the reconciler
|
||||
# first (it must not enqueue new work while the worker is winding down),
|
||||
# then the worker. Running agents keep going; their jobs are requeued on
|
||||
# next start via queue-recovery if the process dies.
|
||||
reconciler.stop()
|
||||
worker.stop()
|
||||
|
||||
|
||||
@@ -114,10 +122,12 @@ async def queue():
|
||||
"""ORCH-1: job-queue observability — status counts + recent jobs."""
|
||||
from .db import job_status_counts, recent_jobs
|
||||
from .queue_worker import worker
|
||||
from .reconciler import reconciler
|
||||
return {
|
||||
"counts": job_status_counts(),
|
||||
"max_concurrency": worker.max_concurrency,
|
||||
"poll_interval": worker.poll_interval,
|
||||
"resilience": worker.status(),
|
||||
"reconcile": reconciler.status(),
|
||||
"recent": recent_jobs(10),
|
||||
}
|
||||
|
||||
@@ -356,6 +356,62 @@ def fetch_issue_fields(issue_id: str, project_id: str) -> tuple[str, str]:
|
||||
return "", ""
|
||||
|
||||
|
||||
def list_issues_by_state(project_id: str, state_uuids: list[str]) -> list[dict]:
|
||||
"""ORCH-053 (F-2): list a project's issues whose state is in ``state_uuids``.
|
||||
|
||||
GETs ``/workspaces/{ws}/projects/{pid}/issues/`` and walks ALL pages
|
||||
(Plane's cursor pagination: ``results`` + ``next_cursor`` /
|
||||
``next_page_results``), keeping only issues whose state uuid is one of the
|
||||
requested ones. The filter is applied client-side on ``issue.state`` (a dict
|
||||
``{id,...}`` or a bare uuid string) so it works regardless of whether Plane's
|
||||
query-param state filter is honoured.
|
||||
|
||||
Never raises: on any network / API / shape error it logs a warning and
|
||||
returns ``[]`` so a Plane outage degrades the F-2 tick softly instead of
|
||||
crashing it.
|
||||
"""
|
||||
if not project_id or not state_uuids:
|
||||
return []
|
||||
wanted = set(state_uuids)
|
||||
out: list[dict] = []
|
||||
url = f"{PLANE_BASE}/workspaces/{WORKSPACE}/projects/{project_id}/issues/"
|
||||
try:
|
||||
cursor = None
|
||||
pages = 0
|
||||
while True:
|
||||
params: dict = {"per_page": 100}
|
||||
if cursor:
|
||||
params["cursor"] = cursor
|
||||
resp = httpx.get(url, headers=PLANE_HEADERS, params=params, timeout=10)
|
||||
resp.raise_for_status()
|
||||
body = resp.json()
|
||||
if isinstance(body, dict):
|
||||
items = body.get("results", [])
|
||||
else:
|
||||
items = body if isinstance(body, list) else []
|
||||
for issue in items:
|
||||
state = issue.get("state")
|
||||
sid = state.get("id") if isinstance(state, dict) else state
|
||||
if sid in wanted:
|
||||
out.append(issue)
|
||||
# Pagination: continue only while Plane reports more pages.
|
||||
pages += 1
|
||||
if not isinstance(body, dict):
|
||||
break
|
||||
has_more = bool(body.get("next_page_results"))
|
||||
next_cursor = body.get("next_cursor")
|
||||
if not has_more or not next_cursor or pages >= 100:
|
||||
break
|
||||
cursor = next_cursor
|
||||
return out
|
||||
except Exception as e:
|
||||
logger.warning(
|
||||
f"list_issues_by_state: API failed for project {project_id[:8]}..., "
|
||||
f"returning []. Error: {e}"
|
||||
)
|
||||
return []
|
||||
|
||||
|
||||
def find_issue_id(work_item_id: str, project_id: str = None) -> str | None:
|
||||
"""Find Plane issue UUID by work_item_id (e.g. 'ET-002')."""
|
||||
project_id = _resolve_project_id(work_item_id, project_id)
|
||||
|
||||
332
src/reconciler.py
Normal file
332
src/reconciler.py
Normal file
@@ -0,0 +1,332 @@
|
||||
"""ORCH-053: stuck-task reconciler (sweeper for lost webhooks).
|
||||
|
||||
The pipeline advances ONLY on incoming webhooks (Plane status / Gitea CI/PR). A
|
||||
dropped event (502 on a rebuilding instance, no Plane/Gitea retries, an
|
||||
unresolved ``sha->branch``) leaves the source of truth (the gate / the Plane
|
||||
status) changed while the task stays put — a silently stuck task (incident
|
||||
ORCH-044). None of the existing resilience layers (``requeue_running_jobs``,
|
||||
orphan-recovery, events de-dup, ``ci_poll``) reconcile this
|
||||
"source-of-truth != task-stage" drift; they all work at the jobs/agent_runs
|
||||
level, not the stage transition.
|
||||
|
||||
This module is a background daemon thread (modelled on ``queue_worker``) that
|
||||
periodically replays the missed transition through the SAME standard gates /
|
||||
handlers a webhook would use:
|
||||
|
||||
* **F-1 gate-side** (``reconcile_gate_once``): for each task with
|
||||
``stage != 'done'``, no active job and ``age(updated_at) >=
|
||||
grace_for_stage(stage)``, do a read-only pre-evaluation of the stage's
|
||||
canonical quality gate; green -> advance through the unchanged
|
||||
``stage_engine.advance_stage(..., finished_agent=None)``; red -> silence
|
||||
(no advance, no notification). ``analysis`` is NOT reconciled here (human
|
||||
gate; owned by F-2).
|
||||
|
||||
* **F-2 plane-side** (``reconcile_plane_once``): poll the Plane API per
|
||||
project (``list_issues_by_state``) and replay In Progress / Approved /
|
||||
Rejected through ``webhooks.plane.handle_status_start`` /
|
||||
``handle_verdict`` (no logic duplicated).
|
||||
|
||||
Invariants: source of truth is the gate / Plane (not the event); advance only
|
||||
via ``advance_stage``; idempotency (active-job guard + atomic create-claim +
|
||||
grace + ``max_concurrency=1``); never-raise per unit of work; silence when in
|
||||
sync; restart-safe; kill-switch ``ORCH_RECONCILE_ENABLED``
|
||||
(+ ``ORCH_RECONCILE_PLANE_ENABLED`` mutes only F-2). The DB schema and the
|
||||
registries (``STAGE_TRANSITIONS`` / ``QG_CHECKS``) are unchanged.
|
||||
|
||||
See docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md and the
|
||||
cross-cutting docs/architecture/adr/adr-0007-reconciler.md.
|
||||
"""
|
||||
|
||||
import asyncio
|
||||
import json
|
||||
import logging
|
||||
import threading
|
||||
from datetime import datetime, timezone
|
||||
|
||||
from .config import settings
|
||||
from .db import (
|
||||
get_active_tasks_for_reconcile,
|
||||
get_task_by_plane_id,
|
||||
has_active_job_for_task,
|
||||
)
|
||||
from .stage_engine import advance_if_gate_passed
|
||||
from .stages import get_qg_for_stage
|
||||
from .plane_sync import get_project_states, list_issues_by_state
|
||||
from .webhooks.plane import handle_status_start, handle_verdict
|
||||
from .notifications import send_telegram
|
||||
from . import projects
|
||||
|
||||
logger = logging.getLogger("orchestrator.reconciler")
|
||||
|
||||
|
||||
def _parse_grace_overrides(raw: str) -> dict[str, int]:
|
||||
"""Parse ``reconcile_grace_overrides_json`` into {stage: seconds}.
|
||||
|
||||
Invalid / non-object JSON -> {} (caller falls back to the default grace),
|
||||
mirroring the never-raise contract of ``agent_timeout_overrides_json``.
|
||||
"""
|
||||
if not raw or not raw.strip():
|
||||
return {}
|
||||
try:
|
||||
data = json.loads(raw)
|
||||
except (ValueError, TypeError) as e:
|
||||
logger.warning(f"reconcile_grace_overrides_json is not valid JSON, ignoring: {e}")
|
||||
return {}
|
||||
if not isinstance(data, dict):
|
||||
logger.warning("reconcile_grace_overrides_json must be a JSON object, ignoring")
|
||||
return {}
|
||||
out: dict[str, int] = {}
|
||||
for k, v in data.items():
|
||||
try:
|
||||
out[str(k)] = int(v)
|
||||
except (ValueError, TypeError):
|
||||
logger.warning(f"reconcile_grace_overrides_json[{k}] is not an int, ignoring")
|
||||
return out
|
||||
|
||||
|
||||
def grace_for_stage(stage: str) -> int:
|
||||
"""Per-stage "stuck" threshold (seconds): override from JSON, else default."""
|
||||
overrides = _parse_grace_overrides(settings.reconcile_grace_overrides_json)
|
||||
return overrides.get(stage, settings.reconcile_grace_default_s)
|
||||
|
||||
|
||||
def _age_seconds_iso(ts: str) -> float | None:
|
||||
"""Age in seconds of a Plane ISO-8601 timestamp (e.g. issue.updated_at).
|
||||
|
||||
Returns None when the value is missing / unparseable (caller decides the
|
||||
fallback). Handles a trailing 'Z' and treats naive timestamps as UTC.
|
||||
"""
|
||||
if not ts:
|
||||
return None
|
||||
try:
|
||||
text = ts.strip()
|
||||
if text.endswith("Z"):
|
||||
text = text[:-1] + "+00:00"
|
||||
dt = datetime.fromisoformat(text)
|
||||
if dt.tzinfo is None:
|
||||
dt = dt.replace(tzinfo=timezone.utc)
|
||||
return (datetime.now(timezone.utc) - dt).total_seconds()
|
||||
except Exception:
|
||||
return None
|
||||
|
||||
|
||||
class Reconciler:
|
||||
"""Background daemon that reconciles webhook-induced stage drift.
|
||||
|
||||
Modelled on ``QueueWorker``: a plain ``threading.Thread(daemon=True)`` +
|
||||
``threading.Event`` for a clean stop. No correctness-critical state is held
|
||||
in memory — every tick re-reads the DB / Plane; the observability counters
|
||||
(``last_run_ts`` / ``unblocked_total`` / ``last_unblocked``) are best-effort
|
||||
and may reset on restart (AC-11 allows this).
|
||||
"""
|
||||
|
||||
def __init__(self, interval_s: float | None = None):
|
||||
self.interval_s = (
|
||||
interval_s if interval_s is not None else settings.reconcile_interval_s
|
||||
)
|
||||
self._stop = threading.Event()
|
||||
self._thread: threading.Thread | None = None
|
||||
# Best-effort observability (F-4).
|
||||
self.last_run_ts: float | None = None
|
||||
self.unblocked_total: int = 0
|
||||
self.last_unblocked: str | None = None
|
||||
|
||||
# -- F-1: gate-side ----------------------------------------------------
|
||||
def reconcile_gate_once(self) -> None:
|
||||
"""One F-1 pass over all non-terminal tasks (per-task never-raise)."""
|
||||
if not settings.reconcile_enabled:
|
||||
return
|
||||
for task in get_active_tasks_for_reconcile():
|
||||
try:
|
||||
self._reconcile_gate_task(task)
|
||||
except Exception as e: # noqa: BLE001 - isolate one task's failure
|
||||
logger.error(
|
||||
f"reconciler F-1: task {task.get('id')} "
|
||||
f"(stage={task.get('stage')}) failed: {e}"
|
||||
)
|
||||
|
||||
def _reconcile_gate_task(self, task: dict) -> None:
|
||||
task_id = task["id"]
|
||||
stage = task["stage"]
|
||||
# AC-16: analysis is a human gate -> owned by F-2, never F-1.
|
||||
if stage == "analysis":
|
||||
return
|
||||
# created / done have no gate to evaluate.
|
||||
if get_qg_for_stage(stage) is None:
|
||||
return
|
||||
# AC-3: a queued/running job means the task is legitimately in flight (or
|
||||
# a live webhook just enqueued one) -> do not touch it.
|
||||
if has_active_job_for_task(task_id):
|
||||
return
|
||||
# AC-5: respect the per-stage grace ("stuck", not just busy).
|
||||
age_s = task.get("age_s") or 0
|
||||
if age_s < grace_for_stage(stage):
|
||||
return
|
||||
result = advance_if_gate_passed(
|
||||
task_id,
|
||||
stage,
|
||||
task["repo"],
|
||||
task.get("work_item_id") or "",
|
||||
task.get("branch") or "",
|
||||
)
|
||||
if result is not None and getattr(result, "advanced", False):
|
||||
self._note_unblock(task.get("work_item_id") or str(task_id), stage)
|
||||
|
||||
# -- F-2: plane-side ---------------------------------------------------
|
||||
def reconcile_plane_once(self) -> None:
|
||||
"""One F-2 pass: poll Plane per project and replay missed transitions."""
|
||||
if not settings.reconcile_enabled or not settings.reconcile_plane_enabled:
|
||||
return
|
||||
for proj in projects.PROJECTS:
|
||||
try:
|
||||
self._reconcile_plane_project(proj)
|
||||
except Exception as e: # noqa: BLE001 - isolate one project's failure
|
||||
logger.error(f"reconciler F-2: project {proj.repo} failed: {e}")
|
||||
|
||||
def _reconcile_plane_project(self, proj) -> None:
|
||||
pid = proj.plane_project_id
|
||||
# Resolve the actionable state uuids per-project (never hardcode).
|
||||
states = get_project_states(pid)
|
||||
in_progress = states["in_progress"]
|
||||
approved = states["approved"]
|
||||
rejected = states["rejected"]
|
||||
issues = list_issues_by_state(pid, [in_progress, approved, rejected])
|
||||
for issue in issues:
|
||||
try:
|
||||
self._reconcile_plane_issue(
|
||||
issue, pid, in_progress, approved, rejected
|
||||
)
|
||||
except Exception as e: # noqa: BLE001 - isolate one issue's failure
|
||||
logger.error(
|
||||
f"reconciler F-2: issue {issue.get('id')} failed: {e}"
|
||||
)
|
||||
|
||||
def _reconcile_plane_issue(
|
||||
self, issue: dict, project_id: str,
|
||||
in_progress: str, approved: str, rejected: str,
|
||||
) -> None:
|
||||
issue_id = str(issue.get("id") or "")
|
||||
if not issue_id:
|
||||
return
|
||||
state = issue.get("state")
|
||||
new_state = state.get("id") if isinstance(state, dict) else state
|
||||
|
||||
# Grace ("lost, not merely delayed"): use the issue's own updated_at age.
|
||||
# A missing/unparseable timestamp is treated as old enough (the active-job
|
||||
# guard + atomic create-claim still prevent doubling).
|
||||
age = _age_seconds_iso(issue.get("updated_at") or "")
|
||||
if age is not None and age < settings.reconcile_grace_default_s:
|
||||
return
|
||||
|
||||
task = get_task_by_plane_id(issue_id)
|
||||
# AC-3/AC-4: a live webhook is in flight for this task -> skip.
|
||||
if task is not None and has_active_job_for_task(task["id"]):
|
||||
return
|
||||
|
||||
# issue_data in the shape the plane handlers expect; missing name /
|
||||
# description are pulled by the handlers themselves (fetch_issue_fields).
|
||||
issue_data = {
|
||||
"id": issue_id,
|
||||
"state": {"id": new_state},
|
||||
"project": project_id,
|
||||
"name": issue.get("name", ""),
|
||||
"description_stripped": issue.get("description_stripped", ""),
|
||||
}
|
||||
|
||||
if new_state == in_progress and task is None:
|
||||
# In Progress without a task -> start the pipeline (lost start webhook).
|
||||
self._dispatch(handle_status_start, issue_data, project_id)
|
||||
self._note_unblock(issue_id, "analysis")
|
||||
elif new_state == approved and task is not None:
|
||||
# Approved but the stage never advanced -> replay the verdict.
|
||||
self._dispatch(handle_verdict, issue_data, project_id, approved=True)
|
||||
self._note_unblock(task.get("work_item_id") or issue_id, task["stage"])
|
||||
elif new_state == rejected and task is not None:
|
||||
# Rejected but never rolled back -> replay the verdict.
|
||||
self._dispatch(handle_verdict, issue_data, project_id, approved=False)
|
||||
self._note_unblock(task.get("work_item_id") or issue_id, task["stage"])
|
||||
# else: everything is in sync -> silence (AC-10).
|
||||
|
||||
@staticmethod
|
||||
def _dispatch(coro_fn, *args, **kwargs) -> None:
|
||||
"""Run an async plane handler from this sync thread.
|
||||
|
||||
``asyncio.run`` spins a fresh event loop per call, which is required
|
||||
because ``handle_verdict -> _try_advance_stage`` uses
|
||||
``asyncio.to_thread`` (needs a running loop). The handlers are
|
||||
REUSED verbatim — no pipeline logic is duplicated here.
|
||||
"""
|
||||
asyncio.run(coro_fn(*args, **kwargs))
|
||||
|
||||
# -- observability (F-4) ----------------------------------------------
|
||||
def _note_unblock(self, work_item_id: str, stage: str) -> None:
|
||||
"""Record + announce that a stuck task was unblocked (AC-12).
|
||||
|
||||
Fires only on an actual state change (an advance / replayed transition),
|
||||
never per idle tick, so it does not conflict with AC-9 / AC-10.
|
||||
"""
|
||||
self.unblocked_total += 1
|
||||
self.last_unblocked = work_item_id
|
||||
logger.info(
|
||||
f"reconciler: {work_item_id} {stage} разблокирована (потерян webhook)"
|
||||
)
|
||||
if settings.reconcile_notify_unblock:
|
||||
try:
|
||||
send_telegram(
|
||||
f"\U0001f527 reconciler: {work_item_id} {stage} "
|
||||
f"разблокирована (потерян webhook)"
|
||||
)
|
||||
except Exception as e: # noqa: BLE001 - never break the tick
|
||||
logger.warning(f"reconciler: unblock telegram failed: {e}")
|
||||
|
||||
# -- loop / lifecycle --------------------------------------------------
|
||||
def _tick(self) -> None:
|
||||
if settings.reconcile_enabled:
|
||||
self.reconcile_gate_once() # F-1
|
||||
if settings.reconcile_plane_enabled:
|
||||
self.reconcile_plane_once() # F-2
|
||||
self.last_run_ts = datetime.now(timezone.utc).timestamp()
|
||||
|
||||
def _run(self) -> None:
|
||||
logger.info(
|
||||
f"Reconciler started (interval={self.interval_s}s, "
|
||||
f"enabled={settings.reconcile_enabled}, "
|
||||
f"plane_enabled={settings.reconcile_plane_enabled})"
|
||||
)
|
||||
while not self._stop.is_set():
|
||||
try:
|
||||
self._tick()
|
||||
except Exception as e: # noqa: BLE001 - outer never-raise
|
||||
logger.error(f"Reconciler loop error: {e}")
|
||||
self._stop.wait(self.interval_s)
|
||||
logger.info("Reconciler stopped")
|
||||
|
||||
def start(self) -> None:
|
||||
"""Start the daemon thread (idempotent: a live thread is a no-op)."""
|
||||
if self._thread and self._thread.is_alive():
|
||||
return
|
||||
self._stop.clear()
|
||||
self._thread = threading.Thread(
|
||||
target=self._run, name="reconciler", daemon=True
|
||||
)
|
||||
self._thread.start()
|
||||
|
||||
def stop(self, timeout: float = 5.0) -> None:
|
||||
self._stop.set()
|
||||
if self._thread:
|
||||
self._thread.join(timeout=timeout)
|
||||
|
||||
def status(self) -> dict:
|
||||
"""Reconcile snapshot for /queue observability."""
|
||||
return {
|
||||
"enabled": settings.reconcile_enabled,
|
||||
"plane_enabled": settings.reconcile_plane_enabled,
|
||||
"interval": self.interval_s,
|
||||
"last_run_ts": self.last_run_ts,
|
||||
"unblocked_total": self.unblocked_total,
|
||||
"last_unblocked": self.last_unblocked,
|
||||
}
|
||||
|
||||
|
||||
# Module-level singleton used by the FastAPI lifespan.
|
||||
reconciler = Reconciler()
|
||||
@@ -1,338 +0,0 @@
|
||||
"""Executable self-deploy primitives (ORCH-036).
|
||||
|
||||
The ``deploy`` stage for the self-hosting ``orchestrator`` repo is a REAL prod
|
||||
restart, not a paper LLM verdict. Because the prod container (8500) runs the
|
||||
worker/agent itself, the restart must be performed by an EXTERNAL host process
|
||||
that survives the container dying (BR-2). The orchestration is split into three
|
||||
deterministic phases (ADR-001), wired in ``stage_engine``:
|
||||
|
||||
* Phase A — request approve on the ``deploy-staging -> deploy`` edge.
|
||||
* Phase B — a human Plane ``Approved`` initiates the detached host deploy.
|
||||
* Phase C — a deterministic finalizer maps the hook exit-code -> deploy_status.
|
||||
|
||||
This module is a **leaf**: it imports only config / git_worktree (and lazily
|
||||
``qg.checks.is_self_hosting_repo``), never ``stage_engine`` / ``launcher`` — the
|
||||
orchestration that needs those lives in ``stage_engine``. Every public helper
|
||||
honours a **never-raise** contract so a deploy-state hiccup can never crash the
|
||||
stage engine.
|
||||
|
||||
Restart-safe state lives in sentinel files under
|
||||
``<repos_dir>/.deploy-state-<repo>/<work_item_id>/`` (mirrors the merge-lease
|
||||
pattern, ТЗ §4 — no DB migration), on the shared mount visible to BOTH the
|
||||
container (reads markers) and the host (writes ``result``):
|
||||
* ``approve-requested`` — Phase A done;
|
||||
* ``initiated`` — Phase B started (idempotency-guard);
|
||||
* ``result`` — the hook exit-code, written by the host WRAPPER
|
||||
(``echo $? > result``), NOT by the hook itself.
|
||||
"""
|
||||
|
||||
import logging
|
||||
import os
|
||||
import shlex
|
||||
import shutil
|
||||
import subprocess
|
||||
|
||||
from .config import settings
|
||||
|
||||
logger = logging.getLogger("orchestrator.self_deploy")
|
||||
|
||||
# Sentinel marker filenames (see module docstring).
|
||||
APPROVE_REQUESTED = "approve-requested"
|
||||
INITIATED = "initiated"
|
||||
RESULT = "result"
|
||||
|
||||
# ssh launch is detached (returns immediately); keep a bounded timeout so a hung
|
||||
# ssh handshake never wedges the caller.
|
||||
_SSH_TIMEOUT = 30
|
||||
_GIT_TIMEOUT = 60
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# Conditionality
|
||||
# ---------------------------------------------------------------------------
|
||||
def self_deploy_applies(repo: str) -> bool:
|
||||
"""Whether executable self-deploy (Phase A/B/C) is REAL for this repo.
|
||||
|
||||
Mirrors the ORCH-35 / ORCH-43 conditional rollout:
|
||||
* ``self_deploy_enabled=False`` -> always False (global kill-switch); the
|
||||
legacy synchronous deployer path runs for everyone.
|
||||
* ``self_deploy_repos`` (CSV) non-empty -> real only for listed repos.
|
||||
* empty CSV -> real ONLY for the self-hosting repo (``orchestrator``).
|
||||
Never raises.
|
||||
"""
|
||||
try:
|
||||
if not settings.self_deploy_enabled:
|
||||
return False
|
||||
raw = (settings.self_deploy_repos or "").strip()
|
||||
if raw:
|
||||
allowed = {r.strip().lower() for r in raw.split(",") if r.strip()}
|
||||
return (repo or "").strip().lower() in allowed
|
||||
# Lazy import keeps this module a leaf (avoids importing qg at module load).
|
||||
from .qg.checks import is_self_hosting_repo
|
||||
return is_self_hosting_repo(repo)
|
||||
except Exception as e: # noqa: BLE001 - never-raise contract
|
||||
logger.warning("self_deploy_applies error for %s: %s", repo, e)
|
||||
return False
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# exit-code -> deploy_status mapping (pure, unit-tested: TC-01/02/03)
|
||||
# ---------------------------------------------------------------------------
|
||||
def map_exit_code_to_status(exit_code) -> str:
|
||||
"""Map a deploy-hook exit-code to a machine verdict (deterministic, pure).
|
||||
|
||||
Contract (AC-1 / AC-3, hook exit-code contract 0/1/2):
|
||||
* ``0`` -> ``"SUCCESS"`` (health-ok proven by the hook).
|
||||
* ``1`` (rolled back), ``2`` (rollback also failed), anything else, or a
|
||||
non-int/None -> ``"FAILED"`` (fail-closed; never advances on doubt).
|
||||
"""
|
||||
try:
|
||||
code = int(exit_code)
|
||||
except (TypeError, ValueError):
|
||||
return "FAILED"
|
||||
return "SUCCESS" if code == 0 else "FAILED"
|
||||
|
||||
|
||||
def build_deploy_log(work_item_id: str, exit_code, status: str) -> str:
|
||||
"""Render a 14-deploy-log.md body whose ``deploy_status:`` frontmatter is the
|
||||
verdict ``check_deploy_status`` / ``_parse_deploy_status`` reads (contract
|
||||
unchanged, AC-10). The body is informational only — only the frontmatter is
|
||||
machine-read.
|
||||
"""
|
||||
return (
|
||||
"---\n"
|
||||
f"deploy_status: {status}\n"
|
||||
f"work_item: {work_item_id}\n"
|
||||
f"hook_exit_code: {exit_code}\n"
|
||||
"deployed_by: deploy-finalizer\n"
|
||||
"---\n\n"
|
||||
"# Deploy log — ORCH-036 executable self-deploy\n\n"
|
||||
f"Прод-деплой завершён хост-хуком с exit-code `{exit_code}` -> "
|
||||
f"`deploy_status: {status}`.\n\n"
|
||||
"Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.\n"
|
||||
)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# Sentinel state (restart-safe, no DB migration — ТЗ §4)
|
||||
# ---------------------------------------------------------------------------
|
||||
def _state_dir(base: str, repo: str, work_item_id: str | None) -> str:
|
||||
return os.path.join(base, f".deploy-state-{repo}", (work_item_id or "_"))
|
||||
|
||||
|
||||
def container_state_dir(repo: str, work_item_id: str | None) -> str:
|
||||
"""State dir as seen FROM THE CONTAINER (settings.repos_dir mount)."""
|
||||
return _state_dir(settings.repos_dir, repo, work_item_id)
|
||||
|
||||
|
||||
def host_state_dir(repo: str, work_item_id: str | None) -> str:
|
||||
"""State dir as seen FROM THE HOST (settings.host_repos_dir).
|
||||
|
||||
Same physical directory as ``container_state_dir`` via the shared mount; the
|
||||
host path is what we embed in the ssh command so the host wrapper writes the
|
||||
``result`` sentinel where the container can read it.
|
||||
"""
|
||||
return _state_dir(settings.host_repos_dir, repo, work_item_id)
|
||||
|
||||
|
||||
def marker_path(repo: str, work_item_id: str | None, name: str) -> str:
|
||||
return os.path.join(container_state_dir(repo, work_item_id), name)
|
||||
|
||||
|
||||
def has_marker(repo: str, work_item_id: str | None, name: str) -> bool:
|
||||
"""True iff the named sentinel exists. Never raises."""
|
||||
try:
|
||||
return os.path.isfile(marker_path(repo, work_item_id, name))
|
||||
except Exception as e: # noqa: BLE001 - never-raise
|
||||
logger.warning("has_marker error for %s/%s/%s: %s", repo, work_item_id, name, e)
|
||||
return False
|
||||
|
||||
|
||||
def write_marker(repo: str, work_item_id: str | None, name: str, content: str = "") -> bool:
|
||||
"""Create/overwrite a sentinel (best-effort). Returns True on success."""
|
||||
try:
|
||||
d = container_state_dir(repo, work_item_id)
|
||||
os.makedirs(d, exist_ok=True)
|
||||
with open(os.path.join(d, name), "w", encoding="utf-8") as f:
|
||||
f.write(str(content))
|
||||
return True
|
||||
except OSError as e:
|
||||
logger.warning("write_marker error for %s/%s/%s: %s", repo, work_item_id, name, e)
|
||||
return False
|
||||
|
||||
|
||||
def clear_state(repo: str, work_item_id: str | None) -> bool:
|
||||
"""Remove ALL deploy-state sentinels for this work item (best-effort).
|
||||
|
||||
Sentinels are keyed by ``work_item_id`` (stable for the whole task lifetime),
|
||||
so a FAILED prod-deploy leaves ``approve-requested`` / ``initiated`` / ``result``
|
||||
behind. Without cleanup, after the БАГ-8 rollback (deploy -> development) and a
|
||||
fix, the task reaching ``deploy`` again would hit Phase B's idempotency-guard:
|
||||
the STALE ``initiated`` makes it a no-op, the detached hook never re-launches and
|
||||
the task wedges on ``deploy`` forever (re-deploy-after-rollback contract broken;
|
||||
AC-4/AC-10). A stale ``result`` would likewise be mis-read by the new finalizer.
|
||||
Clearing the whole state dir restores a clean slate for the next pass. Idempotent
|
||||
(a missing dir is success). Never raises.
|
||||
"""
|
||||
d = container_state_dir(repo, work_item_id)
|
||||
try:
|
||||
shutil.rmtree(d)
|
||||
logger.info("clear_state: removed deploy-state dir %s", d)
|
||||
return True
|
||||
except FileNotFoundError:
|
||||
return True
|
||||
except OSError as e: # noqa: BLE001 - never-raise contract
|
||||
logger.warning("clear_state error for %s/%s: %s", repo, work_item_id, e)
|
||||
return False
|
||||
|
||||
|
||||
def read_result(repo: str, work_item_id: str | None) -> tuple[bool, int | None]:
|
||||
"""Read the ``result`` sentinel (hook exit-code written by the host wrapper).
|
||||
|
||||
Returns ``(present, exit_code)``:
|
||||
* ``(False, None)`` -> not written yet (finalizer should DEFER);
|
||||
* ``(True, <int>)`` -> verdict ready;
|
||||
* ``(True, 1)`` -> present but corrupt/unparseable -> treated as a
|
||||
failure code (fail-closed) so we never advance on garbage.
|
||||
Never raises.
|
||||
"""
|
||||
p = marker_path(repo, work_item_id, RESULT)
|
||||
try:
|
||||
with open(p, "r", encoding="utf-8") as f:
|
||||
raw = f.read().strip()
|
||||
except FileNotFoundError:
|
||||
return False, None
|
||||
except OSError as e:
|
||||
logger.warning("read_result error for %s/%s: %s", repo, work_item_id, e)
|
||||
return False, None
|
||||
if raw == "":
|
||||
return False, None
|
||||
try:
|
||||
return True, int(raw)
|
||||
except ValueError:
|
||||
logger.warning("read_result: corrupt result %r for %s/%s", raw, repo, work_item_id)
|
||||
return True, 1
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# Detached host deploy: ssh + setsid (Phase B)
|
||||
# ---------------------------------------------------------------------------
|
||||
def build_deploy_command(repo: str, work_item_id: str | None, branch: str) -> list[str]:
|
||||
"""Build the ssh argv that launches the DETACHED prod deploy on the host.
|
||||
|
||||
The remote command runs the hook via ``setsid`` with stdin/stdout detached and
|
||||
backgrounded (``&``) so the process SURVIVES the prod container restart (BR-2),
|
||||
then the WRAPPER (not the hook) writes the exit-code to the ``result`` sentinel:
|
||||
|
||||
setsid bash -c 'cd <repo> && <prod env...> bash <hook> --deploy; \
|
||||
echo $? > <result>' >> <hook.log> 2>&1 </dev/null &
|
||||
|
||||
Build-once (BR-6): ``SOURCE_IMAGE=<staging-image>`` makes the hook retag the
|
||||
staging-validated image to the prod tag instead of rebuilding (no ``docker
|
||||
build``). The exit-code contract of the hook is untouched.
|
||||
"""
|
||||
host_dir = host_state_dir(repo, work_item_id)
|
||||
result_sentinel = os.path.join(host_dir, RESULT)
|
||||
hook_log = os.path.join(host_dir, "hook.log")
|
||||
|
||||
env_assignments = (
|
||||
f"SOURCE_IMAGE={shlex.quote(settings.deploy_prod_source_image)} "
|
||||
f"TARGET_SERVICE={shlex.quote(settings.deploy_prod_target_service)} "
|
||||
f"TARGET_PORT={int(settings.deploy_prod_target_port)} "
|
||||
f"TARGET_IMAGE={shlex.quote(settings.deploy_prod_target_image)} "
|
||||
f"COMPOSE_PROFILE={shlex.quote(settings.deploy_prod_compose_profile)} "
|
||||
f"PREV_IMAGE_FILE={shlex.quote(settings.deploy_prod_prev_image_file)}"
|
||||
)
|
||||
inner = (
|
||||
f"cd {shlex.quote(settings.deploy_host_repo_path)} && "
|
||||
f"{env_assignments} "
|
||||
f"bash {shlex.quote(settings.deploy_hook_script)} --deploy; "
|
||||
f"echo $? > {shlex.quote(result_sentinel)}"
|
||||
)
|
||||
remote = (
|
||||
f"setsid bash -c {shlex.quote(inner)} "
|
||||
f">> {shlex.quote(hook_log)} 2>&1 </dev/null &"
|
||||
)
|
||||
user = (settings.deploy_ssh_user or "").strip()
|
||||
host = (settings.deploy_ssh_host or "").strip()
|
||||
target = f"{user}@{host}" if user else host
|
||||
return ["ssh", "-o", "StrictHostKeyChecking=no", target, remote]
|
||||
|
||||
|
||||
def initiate_deploy(repo: str, work_item_id: str | None, branch: str) -> tuple[bool, str]:
|
||||
"""Launch the detached prod deploy on the host (Phase B). Never raises.
|
||||
|
||||
The ssh call returns immediately (the remote process is detached via setsid +
|
||||
``&``). Returns ``(True, msg)`` when ssh dispatched the detached process, or
|
||||
``(False, reason)`` so the caller can alert and let the human re-approve.
|
||||
"""
|
||||
# Ensure the shared state dir exists so the host wrapper can write `result`.
|
||||
try:
|
||||
os.makedirs(container_state_dir(repo, work_item_id), exist_ok=True)
|
||||
except OSError as e:
|
||||
logger.warning("initiate_deploy: state dir error for %s/%s: %s", repo, work_item_id, e)
|
||||
|
||||
cmd = build_deploy_command(repo, work_item_id, branch)
|
||||
try:
|
||||
r = subprocess.run(cmd, capture_output=True, text=True, timeout=_SSH_TIMEOUT)
|
||||
except subprocess.TimeoutExpired:
|
||||
return False, "ssh launch timeout"
|
||||
except (subprocess.SubprocessError, OSError) as e:
|
||||
return False, f"ssh launch error: {e}"
|
||||
if r.returncode != 0:
|
||||
detail = ((r.stderr or "") + (r.stdout or "")).strip()[:200]
|
||||
return False, f"ssh launch failed (rc={r.returncode}): {detail}"
|
||||
logger.info("initiate_deploy: detached prod deploy dispatched for %s/%s", repo, work_item_id)
|
||||
return True, "deploy initiated (detached host process)"
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# Deploy log write + best-effort merge (Phase C)
|
||||
# ---------------------------------------------------------------------------
|
||||
def write_deploy_log(repo: str, work_item_id: str, branch: str, exit_code, status: str) -> bool:
|
||||
"""Write 14-deploy-log.md into the task worktree (so check_deploy_status reads
|
||||
it) and best-effort commit+push it. Returns True iff the file was written.
|
||||
Never raises.
|
||||
"""
|
||||
from .git_worktree import get_worktree_path
|
||||
|
||||
rel = f"docs/work-items/{work_item_id}/14-deploy-log.md"
|
||||
try:
|
||||
wt = get_worktree_path(repo, branch)
|
||||
except Exception as e: # noqa: BLE001 - never-raise
|
||||
logger.error("write_deploy_log: worktree error for %s/%s: %s", repo, branch, e)
|
||||
return False
|
||||
|
||||
path = os.path.join(wt, rel)
|
||||
content = build_deploy_log(work_item_id, exit_code, status)
|
||||
try:
|
||||
os.makedirs(os.path.dirname(path), exist_ok=True)
|
||||
with open(path, "w", encoding="utf-8") as f:
|
||||
f.write(content)
|
||||
except OSError as e:
|
||||
logger.error("write_deploy_log: write error at %s: %s", path, e)
|
||||
return False
|
||||
|
||||
# Best-effort commit + push (the gate also falls back to origin/main).
|
||||
git_env = {
|
||||
**os.environ,
|
||||
"HOME": "/home/slin",
|
||||
"GIT_AUTHOR_NAME": "deploy-finalizer",
|
||||
"GIT_AUTHOR_EMAIL": "deploy-finalizer@mva154.local",
|
||||
"GIT_COMMITTER_NAME": "deploy-finalizer",
|
||||
"GIT_COMMITTER_EMAIL": "deploy-finalizer@mva154.local",
|
||||
}
|
||||
try:
|
||||
subprocess.run(["git", "-C", wt, "add", rel],
|
||||
capture_output=True, timeout=_GIT_TIMEOUT, env=git_env)
|
||||
commit = subprocess.run(
|
||||
["git", "-C", wt, "commit", "-m",
|
||||
f"deploy(ORCH-036): finalize {status} for {work_item_id}"],
|
||||
capture_output=True, text=True, timeout=_GIT_TIMEOUT, env=git_env,
|
||||
)
|
||||
if commit.returncode == 0:
|
||||
subprocess.run(["git", "-C", wt, "push", "origin", branch],
|
||||
capture_output=True, timeout=_GIT_TIMEOUT, env=git_env)
|
||||
except (subprocess.SubprocessError, OSError) as e:
|
||||
logger.warning("write_deploy_log: git commit/push best-effort failed: %s", e)
|
||||
return True
|
||||
@@ -27,7 +27,6 @@ Agent-selection bug fix (ORCH-4):
|
||||
|
||||
import logging
|
||||
import os
|
||||
import time
|
||||
from dataclasses import dataclass, field
|
||||
|
||||
from .db import get_db, update_task_stage, enqueue_job
|
||||
@@ -36,7 +35,6 @@ from .git_worktree import get_worktree_path
|
||||
from .review_parse import extract_review_findings, extract_test_failures
|
||||
from .qg.checks import QG_CHECKS
|
||||
from . import merge_gate
|
||||
from . import self_deploy
|
||||
from .notifications import (
|
||||
notify_stage_change,
|
||||
notify_qg_failure,
|
||||
@@ -192,23 +190,6 @@ def advance_stage(
|
||||
result.note = "terminal"
|
||||
return result
|
||||
|
||||
# --- ORCH-036 Phase B: human Approved on `deploy` -> initiate deploy --
|
||||
# A human flipping the Plane status to Approved on the `deploy` stage
|
||||
# (finished_agent is None) is the prod-deploy trigger for the self-hosting
|
||||
# repo. Initiate the DETACHED host deploy + enqueue the finalizer and
|
||||
# return WITHOUT running check_deploy_status (the verdict does not exist
|
||||
# yet — running the gate now would read a stale/absent log and falsely
|
||||
# roll back, R-2). The finalizer (Phase C, finished_agent="deployer")
|
||||
# records the verdict later; that path is NOT intercepted here.
|
||||
if (
|
||||
current_stage == "deploy"
|
||||
and finished_agent is None
|
||||
and settings.deploy_require_manual_approve
|
||||
and self_deploy.self_deploy_applies(repo)
|
||||
):
|
||||
_handle_self_deploy_phase_b(task_id, repo, work_item_id, branch, result)
|
||||
return result
|
||||
|
||||
# --- Quality gate ----------------------------------------------------
|
||||
if qg_name and qg_name in QG_CHECKS:
|
||||
# Human-approval gate: split by path.
|
||||
@@ -271,22 +252,6 @@ def advance_stage(
|
||||
):
|
||||
return result
|
||||
|
||||
# --- ORCH-036 Phase A: request approve before the prod deploy ---------
|
||||
# On the deploy-staging -> deploy edge, AFTER a green check_staging_status
|
||||
# and the merge-gate, the self-hosting repo does NOT auto-launch a prod
|
||||
# deployer. Instead advance the STAGE to `deploy`, put the issue into an
|
||||
# approval-pending state and wait for a human Approved (Phase B). The
|
||||
# merge lease stays HELD across the wait (released on done / rollback).
|
||||
if (
|
||||
current_stage == "deploy-staging"
|
||||
and settings.deploy_require_manual_approve
|
||||
and self_deploy.self_deploy_applies(repo)
|
||||
):
|
||||
_handle_self_deploy_phase_a(
|
||||
task_id, current_stage, repo, work_item_id, branch, result
|
||||
)
|
||||
return result
|
||||
|
||||
# --- Advance ---------------------------------------------------------
|
||||
update_task_stage(task_id, next_stage)
|
||||
# Telegram live tracker: the analysis->architecture advance is the human
|
||||
@@ -353,6 +318,75 @@ def advance_stage(
|
||||
return result
|
||||
|
||||
|
||||
def advance_if_gate_passed(
|
||||
task_id: int,
|
||||
current_stage: str,
|
||||
repo: str,
|
||||
work_item_id: str,
|
||||
branch: str,
|
||||
) -> AdvanceResult | None:
|
||||
"""ORCH-053 (F-1): reconcile a stuck stage by advancing it ONLY if its
|
||||
quality gate is already green — without spamming failure notifications.
|
||||
|
||||
This is the thin wrapper the reconciler uses so that:
|
||||
|
||||
* The source of truth stays the GATE, and the advance path stays the
|
||||
UNCHANGED unified ``advance_stage(..., finished_agent=None)`` (the same
|
||||
path the Plane Approved-webhook uses). The reconciler never duplicates
|
||||
``update_task_stage`` / ``enqueue_job`` (AC-2).
|
||||
|
||||
* On a stable-RED gate the sweeper is structurally silent: we do a cheap
|
||||
read-only pre-evaluation of the gate and, if it fails, return ``None``
|
||||
WITHOUT ever calling ``advance_stage`` — so the QG-failure notification
|
||||
branch inside ``advance_stage`` (``agent is None`` ->
|
||||
``notify_qg_failure`` + ``plane_notify_qg``) cannot fire on any tick
|
||||
(AC-9). Spam is impossible by construction.
|
||||
|
||||
``analysis`` is intentionally NOT reconciled here: its gate
|
||||
(``check_analysis_approved``) is a HUMAN gate; with ``finished_agent=None``
|
||||
``advance_stage`` would treat it as approved-via-status and could advance an
|
||||
unapproved BRD. The analysis advance is owned by the Plane-side reconciler
|
||||
(F-2), which checks the real Plane status (AC-16).
|
||||
|
||||
Returns the ``AdvanceResult`` from ``advance_stage`` when the gate passed,
|
||||
or ``None`` when the stage is not eligible / the gate is red / on any error
|
||||
(never raises — the caller isolates per-task failures).
|
||||
"""
|
||||
try:
|
||||
# AC-16: F-1 never reconciles the human analysis gate.
|
||||
if current_stage == "analysis":
|
||||
return None
|
||||
|
||||
qg_name = get_qg_for_stage(current_stage)
|
||||
if not qg_name:
|
||||
# created / done -> no gate to evaluate.
|
||||
return None
|
||||
|
||||
# Read-only pre-evaluation with the SAME dispatcher the webhook path uses.
|
||||
passed, reason = _run_qg(qg_name, repo, work_item_id, branch)
|
||||
if not passed:
|
||||
# Stable-red -> stay silent (no advance_stage call -> no QG-failure
|
||||
# notification on this or any later tick).
|
||||
logger.debug(
|
||||
f"reconciler: task {task_id} gate '{qg_name}' still red "
|
||||
f"({reason}); leaving on '{current_stage}'"
|
||||
)
|
||||
return None
|
||||
|
||||
# Gate is green: advance via the unchanged unified path. It re-runs the
|
||||
# (idempotent, read-only) gate, advances the stage, sends the STANDARD
|
||||
# advance notifications and enqueues the next agent.
|
||||
return advance_stage(
|
||||
task_id, current_stage, repo, work_item_id, branch, finished_agent=None
|
||||
)
|
||||
except Exception as e: # noqa: BLE001 - never-raise per ORCH-053 NFR
|
||||
logger.error(
|
||||
f"advance_if_gate_passed failed for task_id={task_id} "
|
||||
f"stage={current_stage}: {e}"
|
||||
)
|
||||
return None
|
||||
|
||||
|
||||
def _build_analyst_ready_comment(
|
||||
repo: str, work_item_id: str, branch: str, task_id: int | None = None
|
||||
) -> str:
|
||||
@@ -622,16 +656,6 @@ def _handle_qg_failure_rollbacks(
|
||||
notify_stage_change(task_id, current_stage, "development")
|
||||
plane_notify_stage(work_item_id, current_stage, "development")
|
||||
result.rolled_back_to = "development"
|
||||
# ORCH-036: clear the deploy-state sentinels (approve-requested / initiated /
|
||||
# result) so the NEXT prod-deploy pass (after the developer fixes and the task
|
||||
# returns to `deploy`) is not wedged by Phase B's idempotency-guard reading a
|
||||
# STALE `initiated`, nor the finalizer mis-reading a STALE `result`. Markers are
|
||||
# keyed by work_item_id (stable across the rollback), so without this they
|
||||
# survive into the retry and break re-deploy-after-rollback (AC-4/AC-10).
|
||||
try:
|
||||
self_deploy.clear_state(repo, work_item_id)
|
||||
except Exception as e: # noqa: BLE001 - defensive (clear_state never-raises anyway)
|
||||
logger.warning(f"Task {task_id}: deploy-state clear on deploy-fail failed: {e}")
|
||||
# ORCH-043: deploy failed -> no merge will complete; release the lease so the
|
||||
# next task isn't blocked until the lease ages out (holder-aware no-op).
|
||||
try:
|
||||
@@ -807,205 +831,3 @@ def _handle_merge_gate_rollback(
|
||||
f"Task {task_id}: merge-gate FAILED, rolled back deploy-staging -> "
|
||||
f"development ({reason})"
|
||||
)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# ORCH-036: executable self-deploy (Phase A/B/C)
|
||||
# ---------------------------------------------------------------------------
|
||||
def _handle_self_deploy_phase_a(
|
||||
task_id, current_stage, repo, work_item_id, branch, result: AdvanceResult
|
||||
):
|
||||
"""Phase A — advance to `deploy` and request a manual approve (no prod deploy).
|
||||
|
||||
Staging is green and the branch is mergeable; for the self-hosting repo we do
|
||||
NOT auto-deploy to prod. Move the task onto the `deploy` stage (so a later
|
||||
human Approved lands there -> Phase B), set the issue approval-pending and ask
|
||||
the human to flip the status to Approved. A restart-safe `approve-requested`
|
||||
marker records that Phase A ran. The merge lease stays HELD.
|
||||
"""
|
||||
update_task_stage(task_id, "deploy")
|
||||
notify_stage_change(task_id, current_stage, "deploy")
|
||||
result.advanced = True
|
||||
result.to_stage = "deploy"
|
||||
result.note = "self-deploy-approval-pending"
|
||||
|
||||
if work_item_id:
|
||||
set_issue_in_review(work_item_id)
|
||||
# ORCH-036: belt-and-suspenders — wipe any STALE deploy-state markers before
|
||||
# arming a fresh approve. A prior FAILED pass clears on rollback, but clearing
|
||||
# here too guarantees the entry to every new prod-deploy pass starts clean
|
||||
# (e.g. after a crash/manual intervention), so `initiated`/`result` from an
|
||||
# earlier attempt can never leak into this one.
|
||||
self_deploy.clear_state(repo, work_item_id)
|
||||
self_deploy.write_marker(
|
||||
repo, work_item_id, self_deploy.APPROVE_REQUESTED, content=str(time.time())
|
||||
)
|
||||
if work_item_id:
|
||||
plane_add_comment(
|
||||
work_item_id,
|
||||
"\U0001f7e1 Staging зелёный. Требуется ручной approve для ПРОД-деплоя: "
|
||||
"смените статус задачи на «Approved», чтобы запустить деплой в прод (8500).",
|
||||
author="deployer",
|
||||
)
|
||||
send_telegram(
|
||||
f"\U0001f7e1 {work_item_id}: staging OK. Ждёт approve на ПРОД-деплой "
|
||||
f"(смените статус на Approved)."
|
||||
)
|
||||
logger.info(
|
||||
f"Task {task_id}: self-deploy Phase A — advanced to deploy, "
|
||||
f"approval-pending (awaiting human Approved)"
|
||||
)
|
||||
|
||||
|
||||
def _handle_self_deploy_phase_b(task_id, repo, work_item_id, branch, result: AdvanceResult):
|
||||
"""Phase B — a human Approved initiates the DETACHED prod deploy (idempotent).
|
||||
|
||||
Idempotency-guard: if the `initiated` marker already exists (double Approved /
|
||||
duplicate webhook, R-4) this is a no-op. Otherwise launch the detached host
|
||||
deploy, and ONLY on success record `initiated` + enqueue the finalizer (so a
|
||||
failed launch can be retried by re-approving). Returns without advancing — the
|
||||
finalizer (Phase C) records the verdict once the hook finishes.
|
||||
"""
|
||||
if self_deploy.has_marker(repo, work_item_id, self_deploy.INITIATED):
|
||||
result.note = "self-deploy-already-initiated"
|
||||
logger.info(
|
||||
f"Task {task_id}: prod deploy already initiated; ignoring repeat Approved"
|
||||
)
|
||||
return
|
||||
|
||||
ok, msg = self_deploy.initiate_deploy(repo, work_item_id, branch)
|
||||
if not ok:
|
||||
result.note = f"self-deploy-initiate-failed: {msg}"
|
||||
if work_item_id:
|
||||
plane_add_comment(
|
||||
work_item_id,
|
||||
f"⚠️ Не удалось запустить прод-деплой: {msg}. "
|
||||
"Повторите approve после устранения причины.",
|
||||
author="deployer",
|
||||
)
|
||||
send_telegram(f"⚠️ {work_item_id}: прод-деплой не запустился: {msg}")
|
||||
logger.error(f"Task {task_id}: self-deploy initiate failed: {msg}")
|
||||
return
|
||||
|
||||
self_deploy.write_marker(
|
||||
repo, work_item_id, self_deploy.INITIATED, content=str(time.time())
|
||||
)
|
||||
task_desc = (
|
||||
f"Work item: {work_item_id}\nRepo: {repo}\nBranch: {branch}\n"
|
||||
f"Stage: deploy\nNote: deploy-finalize poll (prod self-deploy initiated)."
|
||||
)
|
||||
new_job = enqueue_job(
|
||||
"deploy-finalizer", repo, task_desc, task_id=task_id,
|
||||
available_at_delay_s=settings.deploy_finalize_delay_s,
|
||||
)
|
||||
result.enqueued_agent = "deploy-finalizer"
|
||||
result.enqueued_job_id = new_job
|
||||
result.note = "self-deploy-initiated"
|
||||
if work_item_id:
|
||||
plane_add_comment(
|
||||
work_item_id,
|
||||
"\U0001f680 Прод-деплой стартовал (detached host-процесс). "
|
||||
"Вердикт будет зафиксирован после health-check.",
|
||||
author="deployer",
|
||||
)
|
||||
send_telegram(f"\U0001f680 {work_item_id}: прод-деплой стартовал. Жду результат.")
|
||||
logger.info(
|
||||
f"Task {task_id}: self-deploy Phase B — detached deploy initiated, "
|
||||
f"finalizer enqueued (job_id={new_job})"
|
||||
)
|
||||
|
||||
|
||||
def _deploy_finalize_defer_count(task_id: int) -> int:
|
||||
"""How many times this task's finalizer has already deferred (restart-safe).
|
||||
|
||||
Counted from the persisted jobs queue by the defer marker in task_content
|
||||
(mirrors _merge_defer_count), so a service restart never resets the budget.
|
||||
"""
|
||||
conn = get_db()
|
||||
n = conn.execute(
|
||||
"SELECT COUNT(*) FROM jobs WHERE task_id=? AND task_content LIKE '%deploy-finalize defer%'",
|
||||
(task_id,),
|
||||
).fetchone()[0]
|
||||
conn.close()
|
||||
return n
|
||||
|
||||
|
||||
def run_deploy_finalizer(job: dict):
|
||||
"""Phase C — deterministic finalizer (reserved-agent `deploy-finalizer`, no LLM).
|
||||
|
||||
Claimed by the worker in the NEW container after the prod restart. Reads the
|
||||
`result` sentinel (hook exit-code written by the host wrapper):
|
||||
* not written yet & budget left -> DEFER (re-queue with a delay);
|
||||
* budget exhausted -> set_issue_blocked + Telegram (anti-livelock);
|
||||
* present -> map exit-code -> deploy_status, write
|
||||
14-deploy-log.md, then advance_stage(finished_agent="deployer") so the
|
||||
EXISTING contracts fire: SUCCESS -> terminal-sync deploy->done + release
|
||||
lease; FAILED -> БАГ-8 rollback deploy->development + set_issue_blocked.
|
||||
Never raises into the caller (the launcher marks the job done/failed).
|
||||
"""
|
||||
task_id = job.get("task_id")
|
||||
repo = job.get("repo")
|
||||
conn = get_db()
|
||||
row = conn.execute(
|
||||
"SELECT work_item_id, branch FROM tasks WHERE id=?", (task_id,)
|
||||
).fetchone()
|
||||
conn.close()
|
||||
if not row:
|
||||
logger.error(f"deploy-finalizer: no task row for task_id={task_id}")
|
||||
return
|
||||
work_item_id, branch = row[0], row[1]
|
||||
|
||||
present, code = self_deploy.read_result(repo, work_item_id)
|
||||
if not present:
|
||||
defers = _deploy_finalize_defer_count(task_id)
|
||||
if defers < settings.deploy_finalize_max_attempts:
|
||||
task_desc = (
|
||||
f"Work item: {work_item_id}\nRepo: {repo}\nBranch: {branch}\n"
|
||||
f"Stage: deploy\nNote: deploy-finalize defer "
|
||||
f"(attempt {defers + 1}/{settings.deploy_finalize_max_attempts}) — "
|
||||
f"deploy result not ready, retrying after {settings.deploy_finalize_delay_s}s."
|
||||
)
|
||||
new_job = enqueue_job(
|
||||
"deploy-finalizer", repo, task_desc, task_id=task_id,
|
||||
available_at_delay_s=settings.deploy_finalize_delay_s,
|
||||
)
|
||||
logger.info(
|
||||
f"Task {task_id}: deploy result not ready, finalizer deferred "
|
||||
f"(job_id={new_job}, attempt {defers + 1}/{settings.deploy_finalize_max_attempts})"
|
||||
)
|
||||
else:
|
||||
if work_item_id:
|
||||
set_issue_blocked(work_item_id)
|
||||
send_telegram(
|
||||
f"\U0001f6a8 {work_item_id}: deploy result не появился после "
|
||||
f"{settings.deploy_finalize_max_attempts} попыток. Нужно ручное вмешательство."
|
||||
)
|
||||
logger.error(
|
||||
f"Task {task_id}: deploy-finalize defer attempts exhausted "
|
||||
f"({settings.deploy_finalize_max_attempts})"
|
||||
)
|
||||
return
|
||||
|
||||
# Result present -> deterministic verdict.
|
||||
status = self_deploy.map_exit_code_to_status(code)
|
||||
self_deploy.write_deploy_log(repo, work_item_id, branch, code, status)
|
||||
logger.info(
|
||||
f"Task {task_id}: deploy finalized, hook exit={code} -> deploy_status={status}"
|
||||
)
|
||||
if status == "SUCCESS" and work_item_id:
|
||||
plane_add_comment(
|
||||
work_item_id,
|
||||
f"✅ Прод-деплой успешен (health-check OK, exit {code}).",
|
||||
author="deployer",
|
||||
)
|
||||
send_telegram(f"✅ {work_item_id}: прод-деплой успешен (exit {code}).")
|
||||
|
||||
# Drive the EXISTING deploy contracts via the gate verdict we just wrote.
|
||||
advance_stage(
|
||||
task_id=task_id,
|
||||
current_stage="deploy",
|
||||
repo=repo,
|
||||
work_item_id=work_item_id,
|
||||
branch=branch,
|
||||
finished_agent="deployer",
|
||||
)
|
||||
|
||||
@@ -144,6 +144,36 @@ async def handle_push(payload: dict):
|
||||
logger.info(f"Task {task_id}: source push detected on '{branch}', waiting for CI")
|
||||
|
||||
|
||||
def _resolve_branch_via_db(repo_name: str) -> str:
|
||||
"""ORCH-053 (F-3): resolve a CI-status SHA to a branch via the tasks DB.
|
||||
|
||||
Returns the branch of the SINGLE development-stage task for ``repo_name``.
|
||||
If there are zero or several such tasks the match is ambiguous -> return ""
|
||||
(the caller leaves the branch unresolved; never a false match). Logged at
|
||||
INFO for visibility. Never raises.
|
||||
"""
|
||||
try:
|
||||
from ..db import get_development_tasks_by_repo
|
||||
devs = get_development_tasks_by_repo(repo_name)
|
||||
except Exception as e: # noqa: BLE001 - defensive, never break the webhook
|
||||
logger.info(f"CI status: sha->branch DB fallback errored for {repo_name}: {e}")
|
||||
return ""
|
||||
if len(devs) == 1:
|
||||
branch = devs[0].get("branch") or ""
|
||||
if branch:
|
||||
logger.info(
|
||||
f"CI status: sha->branch resolved via DB fallback to '{branch}' "
|
||||
f"(unique development task in {repo_name})"
|
||||
)
|
||||
return branch
|
||||
if len(devs) > 1:
|
||||
logger.info(
|
||||
f"CI status: sha->branch DB fallback ambiguous "
|
||||
f"({len(devs)} development tasks in {repo_name}), leaving unresolved"
|
||||
)
|
||||
return ""
|
||||
|
||||
|
||||
async def handle_ci_status(payload: dict):
|
||||
"""
|
||||
CI status update:
|
||||
@@ -178,7 +208,15 @@ async def handle_ci_status(payload: dict):
|
||||
except Exception:
|
||||
pass
|
||||
if not branch:
|
||||
logger.debug(f"CI status event: could not determine branch for sha={sha}")
|
||||
# ORCH-053 (F-3): DB fallback — when the SHA cannot be resolved to a
|
||||
# branch (lost on a 502 rebuild, etc.), match it to the UNIQUE
|
||||
# development-stage task of this repo. Ambiguity (more than one) is
|
||||
# left unresolved to avoid a false match; the F-1 sweeper still picks
|
||||
# such a task up later (defense-in-depth, not the critical path).
|
||||
branch = _resolve_branch_via_db(repo_name)
|
||||
if not branch:
|
||||
# logger.info (was debug) so a lost CI event is VISIBLE in the logs.
|
||||
logger.info(f"CI status event: could not determine branch for sha={sha}")
|
||||
return
|
||||
|
||||
repo_name = payload.get("repository", {}).get("name", settings.default_repo)
|
||||
|
||||
@@ -17,6 +17,7 @@ from ..db import (
|
||||
update_task_stage,
|
||||
enqueue_job,
|
||||
insert_event_dedup,
|
||||
create_task_atomic,
|
||||
)
|
||||
from ._dedup import plane_delivery_id
|
||||
from ..stages import get_next_stage, get_agent_for_stage, get_qg_for_stage, get_previous_stage
|
||||
@@ -496,15 +497,21 @@ async def start_pipeline(data: dict, project_id: str = ""):
|
||||
f"branch collision for {repo}; disambiguated to unique branch {branch}"
|
||||
)
|
||||
|
||||
# Insert task into DB
|
||||
conn = get_db()
|
||||
conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage, plane_issue_id, title) "
|
||||
"VALUES (?, ?, ?, ?, ?, ?, ?)",
|
||||
(plane_id, work_item_id, repo, branch, "analysis", plane_id, name),
|
||||
# Insert task into DB — ORCH-053 (AC-4): atomic anti-dup claim under a
|
||||
# process-wide lock. If the F-2 reconciler and this live webhook race on the
|
||||
# same plane_id, exactly one wins (created=True); the loser sees the existing
|
||||
# task and returns WITHOUT creating a second branch / worktree / analyst job.
|
||||
task_row, created = create_task_atomic(
|
||||
plane_id, work_item_id, repo, branch, "analysis", name
|
||||
)
|
||||
conn.commit()
|
||||
conn.close()
|
||||
if not created:
|
||||
logger.info(
|
||||
f"start_pipeline: task for plane_id={plane_id} already exists "
|
||||
f"(id={task_row['id']}, work_item_id={task_row.get('work_item_id')}), "
|
||||
f"skipping duplicate creation"
|
||||
)
|
||||
return
|
||||
task_id = task_row["id"]
|
||||
|
||||
# Create branch in Gitea
|
||||
try:
|
||||
@@ -523,20 +530,17 @@ async def start_pipeline(data: dict, project_id: str = ""):
|
||||
|
||||
logger.info(f"Task created: {work_item_id} ({name}), branch={branch}, stage=analysis")
|
||||
|
||||
# Launch analyst agent
|
||||
# Launch analyst agent (task_id from the atomic create above).
|
||||
try:
|
||||
task_row = get_db().execute("SELECT id FROM tasks WHERE work_item_id=?", (work_item_id,)).fetchone()
|
||||
if task_row:
|
||||
task_id = task_row[0]
|
||||
task_desc = (
|
||||
f"Work item: {work_item_id}\nRepo: {repo}\nBranch: {branch}\n"
|
||||
f"Stage: analysis\nTitle: {name}\n\nDescription:\n{description}"
|
||||
)
|
||||
job_id = enqueue_job("analyst", repo, task_desc, task_id=task_id)
|
||||
logger.info(f"Task {task_id}: enqueued analyst (job_id={job_id})")
|
||||
# Post start comment to Plane
|
||||
from ..plane_sync import add_comment as _add_comment
|
||||
_add_comment(work_item_id, "\U0001f50d Analyst \u0437\u0430\u043f\u0443\u0449\u0435\u043d. BRD/\u0422\u0417/AC/TestPlan \u0432 \u0440\u0430\u0431\u043e\u0442\u0435 (\u043e\u0436\u0438\u0434\u0430\u0439\u0442\u0435 8-15 \u043c\u0438\u043d).", author="analyst")
|
||||
task_desc = (
|
||||
f"Work item: {work_item_id}\nRepo: {repo}\nBranch: {branch}\n"
|
||||
f"Stage: analysis\nTitle: {name}\n\nDescription:\n{description}"
|
||||
)
|
||||
job_id = enqueue_job("analyst", repo, task_desc, task_id=task_id)
|
||||
logger.info(f"Task {task_id}: enqueued analyst (job_id={job_id})")
|
||||
# Post start comment to Plane
|
||||
from ..plane_sync import add_comment as _add_comment
|
||||
_add_comment(work_item_id, "\U0001f50d Analyst \u0437\u0430\u043f\u0443\u0449\u0435\u043d. BRD/\u0422\u0417/AC/TestPlan \u0432 \u0440\u0430\u0431\u043e\u0442\u0435 (\u043e\u0436\u0438\u0434\u0430\u0439\u0442\u0435 8-15 \u043c\u0438\u043d).", author="analyst")
|
||||
except Exception as e:
|
||||
logger.error(f"Failed to launch analyst for {work_item_id}: {e}")
|
||||
|
||||
|
||||
@@ -37,6 +37,10 @@ def _no_telegram(monkeypatch):
|
||||
monkeypatch.setattr("src.webhooks.plane.send_telegram", _noop, raising=False)
|
||||
monkeypatch.setattr("src.agents.launcher.send_telegram", _noop, raising=False)
|
||||
monkeypatch.setattr("src.queue_worker.send_telegram", _noop, raising=False)
|
||||
# ORCH-053: the reconciler binds send_telegram as a MODULE-LEVEL name
|
||||
# (from .notifications import send_telegram), so the source patch alone would
|
||||
# not intercept its unblock notification — patch it here too.
|
||||
monkeypatch.setattr("src.reconciler.send_telegram", _noop, raising=False)
|
||||
yield
|
||||
|
||||
|
||||
|
||||
@@ -72,3 +72,46 @@ def test_merge_gate_settings_env_override(monkeypatch):
|
||||
assert s.merge_lock_timeout_s == 90
|
||||
assert s.merge_defer_delay_s == 5
|
||||
assert s.merge_defer_max_attempts == 9
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# ORCH-053 / TC-22: reconcile_* settings defaults + env override.
|
||||
# ---------------------------------------------------------------------------
|
||||
_RECONCILE_ENV = (
|
||||
"ORCH_RECONCILE_ENABLED",
|
||||
"ORCH_RECONCILE_INTERVAL_S",
|
||||
"ORCH_RECONCILE_PLANE_ENABLED",
|
||||
"ORCH_RECONCILE_GRACE_DEFAULT_S",
|
||||
"ORCH_RECONCILE_GRACE_OVERRIDES_JSON",
|
||||
"ORCH_RECONCILE_NOTIFY_UNBLOCK",
|
||||
)
|
||||
|
||||
|
||||
def test_reconcile_settings_defaults(monkeypatch):
|
||||
"""TC-22 / AC-13: documented defaults when no env is set."""
|
||||
for name in _RECONCILE_ENV:
|
||||
monkeypatch.delenv(name, raising=False)
|
||||
s = Settings()
|
||||
assert s.reconcile_enabled is True
|
||||
assert s.reconcile_interval_s == 120
|
||||
assert s.reconcile_plane_enabled is True
|
||||
assert s.reconcile_grace_default_s == 600
|
||||
assert s.reconcile_grace_overrides_json == ""
|
||||
assert s.reconcile_notify_unblock is True
|
||||
|
||||
|
||||
def test_reconcile_settings_env_override(monkeypatch):
|
||||
"""TC-22 / AC-13: each field is read from its ORCH_* env var."""
|
||||
monkeypatch.setenv("ORCH_RECONCILE_ENABLED", "false")
|
||||
monkeypatch.setenv("ORCH_RECONCILE_INTERVAL_S", "300")
|
||||
monkeypatch.setenv("ORCH_RECONCILE_PLANE_ENABLED", "false")
|
||||
monkeypatch.setenv("ORCH_RECONCILE_GRACE_DEFAULT_S", "900")
|
||||
monkeypatch.setenv("ORCH_RECONCILE_GRACE_OVERRIDES_JSON", '{"development": 300}')
|
||||
monkeypatch.setenv("ORCH_RECONCILE_NOTIFY_UNBLOCK", "false")
|
||||
s = Settings()
|
||||
assert s.reconcile_enabled is False
|
||||
assert s.reconcile_interval_s == 300
|
||||
assert s.reconcile_plane_enabled is False
|
||||
assert s.reconcile_grace_default_s == 900
|
||||
assert s.reconcile_grace_overrides_json == '{"development": 300}'
|
||||
assert s.reconcile_notify_unblock is False
|
||||
|
||||
@@ -1,160 +0,0 @@
|
||||
"""ORCH-036 TC-04/05/06: the manual-approve gate for the executable self-deploy.
|
||||
|
||||
Contract (AC-5, AC-12):
|
||||
* TC-04 — ``deploy_require_manual_approve`` defaults to True in settings.
|
||||
* TC-05 — flag true + NO human approve -> the prod hook is NEVER called; the
|
||||
deploy-staging -> deploy edge only advances the STAGE and requests an approve
|
||||
(Phase A). ``initiate_deploy`` / ssh subprocess must not be touched.
|
||||
* TC-06 — flag true + a human Approved -> the prod hook is launched EXACTLY once
|
||||
(Phase B), idempotent on a repeated Approved (the ``initiated`` marker guards).
|
||||
"""
|
||||
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orch_deploy_approve.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db # noqa: E402
|
||||
from src import stage_engine # noqa: E402
|
||||
from src import self_deploy # noqa: E402
|
||||
from src.stage_engine import advance_stage # noqa: E402
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch, tmp_path):
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
# Isolate the sentinel state dirs to a per-test tmp dir.
|
||||
monkeypatch.setattr(self_deploy.settings, "repos_dir", str(tmp_path))
|
||||
monkeypatch.setattr(self_deploy.settings, "host_repos_dir", str(tmp_path))
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def silence_side_effects(monkeypatch):
|
||||
for name in (
|
||||
"notify_stage_change", "notify_qg_failure", "notify_approve_requested",
|
||||
"send_telegram", "plane_notify_stage", "plane_notify_qg", "plane_add_comment",
|
||||
"set_issue_in_review", "set_issue_needs_input", "set_issue_in_progress",
|
||||
"set_issue_blocked", "set_issue_done",
|
||||
):
|
||||
monkeypatch.setattr(stage_engine, name, MagicMock())
|
||||
|
||||
|
||||
def _make_task(stage, repo="orchestrator", branch="feature/ORCH-036-x", wi="ORCH-036"):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, ?)",
|
||||
(f"plane-{wi}", wi, repo, branch, stage),
|
||||
)
|
||||
task_id = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return task_id
|
||||
|
||||
|
||||
def _stage(task_id):
|
||||
conn = get_db()
|
||||
row = conn.execute("SELECT stage FROM tasks WHERE id=?", (task_id,)).fetchone()
|
||||
conn.close()
|
||||
return row[0]
|
||||
|
||||
|
||||
def _jobs():
|
||||
conn = get_db()
|
||||
rows = conn.execute("SELECT agent, repo, task_id FROM jobs ORDER BY id").fetchall()
|
||||
conn.close()
|
||||
return [dict(r) for r in rows]
|
||||
|
||||
|
||||
def _pass(*a, **k):
|
||||
return (True, "ok")
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-04: default flag value
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc04_manual_approve_default_true():
|
||||
"""The fresh, un-overridden settings default must be True (safe-by-default)."""
|
||||
from src.config import Settings
|
||||
assert Settings().deploy_require_manual_approve is True
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-05: flag true, no approve -> prod hook NOT called (Phase A only)
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc05_no_approve_does_not_call_prod_hook(monkeypatch):
|
||||
monkeypatch.setattr(stage_engine.settings, "deploy_require_manual_approve", True)
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS,
|
||||
"check_staging_status": _pass,
|
||||
"check_branch_mergeable": _pass},
|
||||
)
|
||||
# Spy: the deploy launcher must never run on the staging->deploy edge.
|
||||
initiate = MagicMock()
|
||||
monkeypatch.setattr(stage_engine.self_deploy, "initiate_deploy", initiate)
|
||||
ssh_run = MagicMock()
|
||||
monkeypatch.setattr(self_deploy.subprocess, "run", ssh_run)
|
||||
|
||||
task_id = _make_task("deploy-staging")
|
||||
res = advance_stage(
|
||||
task_id, "deploy-staging", "orchestrator", "ORCH-036",
|
||||
"feature/ORCH-036-x", finished_agent="deployer",
|
||||
)
|
||||
|
||||
# Phase A: advanced the STAGE to deploy, but requested approve — no prod hook.
|
||||
assert res.advanced is True
|
||||
assert res.to_stage == "deploy"
|
||||
assert _stage(task_id) == "deploy"
|
||||
assert res.note == "self-deploy-approval-pending"
|
||||
initiate.assert_not_called()
|
||||
ssh_run.assert_not_called()
|
||||
# No deployer job: the human Approved (Phase B) is what triggers the deploy.
|
||||
assert _jobs() == []
|
||||
# The restart-safe approve-requested marker was written.
|
||||
assert self_deploy.has_marker("orchestrator", "ORCH-036", self_deploy.APPROVE_REQUESTED)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-06: flag true + Approved -> prod hook called exactly once (idempotent)
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc06_approved_calls_prod_hook_exactly_once(monkeypatch):
|
||||
monkeypatch.setattr(stage_engine.settings, "deploy_require_manual_approve", True)
|
||||
monkeypatch.setattr(stage_engine.settings, "deploy_ssh_host", "mva154")
|
||||
# Real initiate_deploy, but the ssh subprocess is mocked (rc=0 -> dispatched).
|
||||
ssh_run = MagicMock(return_value=MagicMock(returncode=0, stdout="", stderr=""))
|
||||
monkeypatch.setattr(self_deploy.subprocess, "run", ssh_run)
|
||||
|
||||
task_id = _make_task("deploy") # already on deploy, awaiting Approved
|
||||
|
||||
# 1st human Approved -> Phase B initiates the detached deploy.
|
||||
res1 = advance_stage(
|
||||
task_id, "deploy", "orchestrator", "ORCH-036",
|
||||
"feature/ORCH-036-x", finished_agent=None,
|
||||
)
|
||||
assert res1.note == "self-deploy-initiated"
|
||||
assert ssh_run.call_count == 1
|
||||
# The finalizer was enqueued.
|
||||
assert any(j["agent"] == "deploy-finalizer" for j in _jobs())
|
||||
assert self_deploy.has_marker("orchestrator", "ORCH-036", self_deploy.INITIATED)
|
||||
|
||||
# 2nd (duplicate) Approved -> idempotent no-op, hook NOT called again.
|
||||
res2 = advance_stage(
|
||||
task_id, "deploy", "orchestrator", "ORCH-036",
|
||||
"feature/ORCH-036-x", finished_agent=None,
|
||||
)
|
||||
assert res2.note == "self-deploy-already-initiated"
|
||||
assert ssh_run.call_count == 1 # still exactly one prod deploy
|
||||
@@ -1,47 +0,0 @@
|
||||
"""ORCH-036 TC-14: prod deploy is build-ONCE — retag the staging image, no rebuild (AC-7).
|
||||
|
||||
The detached prod-deploy command must pass ``SOURCE_IMAGE=<staging-image>`` to the
|
||||
hook so it retags the staging-validated image onto the prod tag instead of running
|
||||
``docker build``. We assert the composed ssh command carries the staging source
|
||||
image and never asks the hook to build.
|
||||
"""
|
||||
|
||||
import os
|
||||
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
|
||||
from src import self_deploy # noqa: E402
|
||||
|
||||
|
||||
def test_tc14_deploy_command_retags_staging_image_no_build(monkeypatch):
|
||||
monkeypatch.setattr(self_deploy.settings, "deploy_ssh_user", "slin")
|
||||
monkeypatch.setattr(self_deploy.settings, "deploy_ssh_host", "mva154")
|
||||
monkeypatch.setattr(
|
||||
self_deploy.settings, "deploy_prod_source_image", "orchestrator-orchestrator-staging"
|
||||
)
|
||||
|
||||
cmd = self_deploy.build_deploy_command("orchestrator", "ORCH-036", "feature/ORCH-036-x")
|
||||
remote = cmd[-1]
|
||||
|
||||
# The prevalidated staging image is handed to the hook as SOURCE_IMAGE (build-once).
|
||||
assert "SOURCE_IMAGE=orchestrator-orchestrator-staging" in remote
|
||||
# No rebuild is requested in the remote command.
|
||||
assert "docker build" not in remote
|
||||
assert "--build" not in remote
|
||||
|
||||
|
||||
def test_tc14_hook_retag_branch_present():
|
||||
"""The hook itself must honour SOURCE_IMAGE by retagging (no rebuild)."""
|
||||
import pathlib
|
||||
hook = pathlib.Path(__file__).resolve().parents[1] / "scripts" / "orchestrator-deploy-hook.sh"
|
||||
text = hook.read_text(encoding="utf-8")
|
||||
assert 'SOURCE_IMAGE="${SOURCE_IMAGE:-}"' in text
|
||||
# Build-once retag branch present; the hook never runs `docker build`.
|
||||
assert 'docker tag "$SOURCE_IMAGE" "$TARGET_IMAGE"' in text
|
||||
# No EXECUTABLE `docker build` line (comments mentioning it are fine).
|
||||
exec_lines = [
|
||||
ln.strip() for ln in text.splitlines()
|
||||
if ln.strip() and not ln.strip().startswith("#")
|
||||
]
|
||||
assert not any("docker build" in ln for ln in exec_lines)
|
||||
@@ -1,66 +0,0 @@
|
||||
"""ORCH-036 TC-01/02/03: deterministic exit-code -> deploy_status mapping.
|
||||
|
||||
The finalizer (Phase C) maps the host-hook exit-code to the machine verdict via a
|
||||
PURE function (no LLM, no I/O), so it is unit-testable in isolation. Contract
|
||||
(hook exit-code 0/1/2, AC-1/AC-3): 0 -> SUCCESS; 1 (rolled back), 2 (rollback also
|
||||
failed), and anything else -> FAILED (fail-closed).
|
||||
"""
|
||||
|
||||
import os
|
||||
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
|
||||
from src import self_deploy # noqa: E402
|
||||
from src.self_deploy import map_exit_code_to_status, build_deploy_log # noqa: E402
|
||||
|
||||
|
||||
def test_tc01_exit0_maps_to_success():
|
||||
assert map_exit_code_to_status(0) == "SUCCESS"
|
||||
|
||||
|
||||
def test_tc02_exit1_rolled_back_maps_to_failed():
|
||||
assert map_exit_code_to_status(1) == "FAILED"
|
||||
|
||||
|
||||
def test_tc03_exit2_rollback_also_failed_maps_to_failed():
|
||||
assert map_exit_code_to_status(2) == "FAILED"
|
||||
|
||||
|
||||
def test_other_exit_codes_map_to_failed():
|
||||
for code in (3, 127, 255, -1):
|
||||
assert map_exit_code_to_status(code) == "FAILED"
|
||||
|
||||
|
||||
def test_non_int_or_none_maps_to_failed_fail_closed():
|
||||
assert map_exit_code_to_status(None) == "FAILED"
|
||||
assert map_exit_code_to_status("garbage") == "FAILED"
|
||||
|
||||
|
||||
def test_deploy_log_frontmatter_carries_status():
|
||||
"""The rendered log must expose deploy_status in YAML frontmatter so the
|
||||
existing _parse_deploy_status contract (AC-10) reads the right verdict."""
|
||||
body_ok = build_deploy_log("ORCH-036", 0, "SUCCESS")
|
||||
assert body_ok.startswith("---\n")
|
||||
assert "deploy_status: SUCCESS" in body_ok
|
||||
body_fail = build_deploy_log("ORCH-036", 2, "FAILED")
|
||||
assert "deploy_status: FAILED" in body_fail
|
||||
assert "hook_exit_code: 2" in body_fail
|
||||
|
||||
|
||||
def test_clear_state_removes_all_markers_and_is_idempotent(monkeypatch, tmp_path):
|
||||
"""clear_state wipes the whole work-item state dir (all sentinels) and treats a
|
||||
missing dir as success, so a re-deploy after rollback starts from a clean slate."""
|
||||
monkeypatch.setattr(self_deploy.settings, "repos_dir", str(tmp_path))
|
||||
repo, wi = "orchestrator", "ORCH-036"
|
||||
self_deploy.write_marker(repo, wi, self_deploy.APPROVE_REQUESTED, "t")
|
||||
self_deploy.write_marker(repo, wi, self_deploy.INITIATED, "t")
|
||||
self_deploy.write_marker(repo, wi, self_deploy.RESULT, "1")
|
||||
assert self_deploy.has_marker(repo, wi, self_deploy.INITIATED) is True
|
||||
|
||||
assert self_deploy.clear_state(repo, wi) is True
|
||||
assert self_deploy.has_marker(repo, wi, self_deploy.APPROVE_REQUESTED) is False
|
||||
assert self_deploy.has_marker(repo, wi, self_deploy.INITIATED) is False
|
||||
assert self_deploy.has_marker(repo, wi, self_deploy.RESULT) is False
|
||||
# Idempotent: clearing an already-absent dir is still success (never raises).
|
||||
assert self_deploy.clear_state(repo, wi) is True
|
||||
@@ -1,118 +0,0 @@
|
||||
"""ORCH-036 TC-19: deploy-hook auto-rollback simulation (AC-9).
|
||||
|
||||
Drives the REAL ``scripts/orchestrator-deploy-hook.sh`` in a hermetic sandbox:
|
||||
``docker`` / ``curl`` / ``git`` / ``sleep`` are replaced by PATH-shimmed stubs so
|
||||
no real infra is touched (and prod is never restarted — INFRA safety). The curl
|
||||
stub is stateful: the freshly-deployed service is UNHEALTHY for the whole deploy
|
||||
health-check window, which must trigger the hook's AUTO-ROLLBACK; after the
|
||||
rollback restart the previous image is HEALTHY again.
|
||||
|
||||
Expected hook contract (exit-code 0/1/2):
|
||||
* health fails -> auto rollback -> previous image healthy -> exit 1 (rolled back);
|
||||
* the whole run completes well under the 60s MTTR budget (sleeps are shimmed).
|
||||
"""
|
||||
|
||||
import os
|
||||
import shutil
|
||||
import stat
|
||||
import subprocess
|
||||
import time
|
||||
|
||||
import pytest
|
||||
|
||||
HOOK = os.path.join(
|
||||
os.path.dirname(os.path.dirname(os.path.abspath(__file__))),
|
||||
"scripts", "orchestrator-deploy-hook.sh",
|
||||
)
|
||||
|
||||
pytestmark = pytest.mark.skipif(
|
||||
shutil.which("bash") is None, reason="bash required for hook simulation"
|
||||
)
|
||||
|
||||
|
||||
def _write_exec(path, content):
|
||||
with open(path, "w", encoding="utf-8") as f:
|
||||
f.write(content)
|
||||
os.chmod(path, os.stat(path).st_mode | stat.S_IEXEC | stat.S_IXGRP | stat.S_IXOTH)
|
||||
|
||||
|
||||
def _setup_sandbox(tmp_path):
|
||||
"""Create PATH-shimmed docker/curl/git/sleep stubs + a rewritten hook copy."""
|
||||
binx = tmp_path / "bin"
|
||||
binx.mkdir()
|
||||
state = tmp_path / "state"
|
||||
state.mkdir()
|
||||
repo = tmp_path / "repo"
|
||||
repo.mkdir()
|
||||
cnt = state / "curl_count"
|
||||
|
||||
# docker: fake a running service + a recoverable previous image.
|
||||
_write_exec(str(binx / "docker"), """#!/bin/bash
|
||||
case "$1" in
|
||||
compose)
|
||||
for a in "$@"; do [ "$a" = "ps" ] && { echo "fakecid"; exit 0; }; done
|
||||
exit 0;;
|
||||
inspect) echo "sha256:previmage"; exit 0;;
|
||||
image) exit 0;; # docker image inspect <img> -> found
|
||||
tag) exit 0;;
|
||||
*) exit 0;;
|
||||
esac
|
||||
""")
|
||||
|
||||
# curl: first 20 invocations (10 deploy health attempts x2 calls) UNHEALTHY,
|
||||
# then HEALTHY (the rolled-back previous image).
|
||||
_write_exec(str(binx / "curl"), f"""#!/bin/bash
|
||||
CNT="{cnt}"
|
||||
n=$(cat "$CNT" 2>/dev/null || echo 0); n=$((n+1)); echo "$n" > "$CNT"
|
||||
iscode=""
|
||||
for a in "$@"; do [ "$a" = "-w" ] && iscode=1; done
|
||||
if [ "$n" -gt 20 ]; then
|
||||
[ -n "$iscode" ] && echo "200" || echo '{{"status":"ok"}}'
|
||||
else
|
||||
[ -n "$iscode" ] && echo "000" || echo ""
|
||||
fi
|
||||
exit 0
|
||||
""")
|
||||
|
||||
_write_exec(str(binx / "git"), "#!/bin/bash\nexit 0\n")
|
||||
# Shim sleep to a no-op so the simulation runs fast (real timing is governed
|
||||
# by the hook's sleep args; here we only assert the rollback CONTROL FLOW).
|
||||
_write_exec(str(binx / "sleep"), "#!/bin/bash\nexit 0\n")
|
||||
|
||||
# Copy the hook, repointing REPO to the sandbox (avoids the hardcoded prod path).
|
||||
hook_text = open(HOOK, encoding="utf-8").read()
|
||||
hook_text = hook_text.replace(
|
||||
"REPO=/home/slin/repos/orchestrator", f"REPO={repo}"
|
||||
)
|
||||
hook_copy = tmp_path / "hook.sh"
|
||||
_write_exec(str(hook_copy), hook_text)
|
||||
|
||||
env = {
|
||||
**os.environ,
|
||||
"PATH": f"{binx}:{os.environ['PATH']}",
|
||||
"LOG": str(state / "hook.log"),
|
||||
"PREV_IMAGE_FILE": str(state / "prev-image"),
|
||||
"COMPOSE_PROFILE": "staging",
|
||||
"TARGET_SERVICE": "orchestrator-staging",
|
||||
"TARGET_PORT": "8501",
|
||||
}
|
||||
return hook_copy, env
|
||||
|
||||
|
||||
def test_tc19_unhealthy_deploy_auto_rolls_back_exit1(tmp_path):
|
||||
hook_copy, env = _setup_sandbox(tmp_path)
|
||||
|
||||
t0 = time.time()
|
||||
proc = subprocess.run(
|
||||
["bash", str(hook_copy), "--deploy"],
|
||||
env=env, capture_output=True, text=True, timeout=60,
|
||||
)
|
||||
elapsed = time.time() - t0
|
||||
|
||||
# AC-9: unhealthy deploy -> auto rollback succeeded on the previous image -> exit 1.
|
||||
assert proc.returncode == 1, f"stdout={proc.stdout}\nstderr={proc.stderr}"
|
||||
out = proc.stdout + proc.stderr
|
||||
assert "AUTO ROLLBACK" in out
|
||||
assert "rolled back to previous image successfully" in out
|
||||
# MTTR well under the 60s budget (sleeps shimmed; control flow only).
|
||||
assert elapsed < 60
|
||||
@@ -1,102 +0,0 @@
|
||||
"""ORCH-036 TC-12/13: no silent deploy — both Plane AND Telegram are notified (AC-6).
|
||||
|
||||
The finalizer (Phase C) must announce the prod-deploy outcome on BOTH channels:
|
||||
* TC-12 — a SUCCESS deploy -> a Plane comment AND a Telegram message.
|
||||
* TC-13 — a FAILED deploy (rollback) -> a Plane comment AND a Telegram message.
|
||||
"""
|
||||
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orch_deploy_notif.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db # noqa: E402
|
||||
from src import stage_engine # noqa: E402
|
||||
from src import self_deploy # noqa: E402
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch, tmp_path):
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
monkeypatch.setattr(self_deploy.settings, "repos_dir", str(tmp_path))
|
||||
monkeypatch.setattr(self_deploy.settings, "host_repos_dir", str(tmp_path))
|
||||
monkeypatch.setattr(stage_engine.self_deploy, "write_deploy_log", MagicMock(return_value=True))
|
||||
monkeypatch.setattr(stage_engine.merge_gate, "release_merge_lease", MagicMock())
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def silence_side_effects(monkeypatch):
|
||||
for name in (
|
||||
"notify_stage_change", "notify_qg_failure", "notify_approve_requested",
|
||||
"send_telegram", "plane_notify_stage", "plane_notify_qg", "plane_add_comment",
|
||||
"set_issue_in_review", "set_issue_needs_input", "set_issue_in_progress",
|
||||
"set_issue_blocked", "set_issue_done",
|
||||
):
|
||||
monkeypatch.setattr(stage_engine, name, MagicMock())
|
||||
|
||||
|
||||
def _make_task(stage, repo="orchestrator", branch="feature/ORCH-036-x", wi="ORCH-036"):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, ?)",
|
||||
(f"plane-{wi}", wi, repo, branch, stage),
|
||||
)
|
||||
task_id = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return task_id
|
||||
|
||||
|
||||
def _pass(*a, **k):
|
||||
return (True, "ok")
|
||||
|
||||
|
||||
def _fail(reason):
|
||||
def _f(*a, **k):
|
||||
return (False, reason)
|
||||
return _f
|
||||
|
||||
|
||||
def _run_finalizer(task_id):
|
||||
stage_engine.run_deploy_finalizer(
|
||||
{"task_id": task_id, "repo": "orchestrator", "id": 1, "agent": "deploy-finalizer"}
|
||||
)
|
||||
|
||||
|
||||
def test_tc12_success_notifies_plane_and_telegram(monkeypatch):
|
||||
self_deploy.write_marker("orchestrator", "ORCH-036", self_deploy.RESULT, "0")
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS, "check_deploy_status": _pass},
|
||||
)
|
||||
task_id = _make_task("deploy")
|
||||
_run_finalizer(task_id)
|
||||
assert stage_engine.plane_add_comment.called
|
||||
assert stage_engine.send_telegram.called
|
||||
|
||||
|
||||
def test_tc13_rollback_notifies_plane_and_telegram(monkeypatch):
|
||||
self_deploy.write_marker("orchestrator", "ORCH-036", self_deploy.RESULT, "1")
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS, "check_deploy_status": _fail("Deploy status: FAILED")},
|
||||
)
|
||||
task_id = _make_task("deploy")
|
||||
_run_finalizer(task_id)
|
||||
# The БАГ-8 rollback path announces on both channels (no silent failure).
|
||||
assert stage_engine.send_telegram.called
|
||||
assert stage_engine.plane_add_comment.called or stage_engine.plane_notify_qg.called
|
||||
@@ -1,141 +0,0 @@
|
||||
"""ORCH-036 TC-10: a FAILED prod deploy rolls back deploy -> development (AC-4).
|
||||
|
||||
The finalizer (Phase C) reads the hook ``result`` sentinel, maps a non-zero exit
|
||||
to ``deploy_status: FAILED`` and then drives the EXISTING deploy contract via
|
||||
``advance_stage(finished_agent="deployer")``. With a FAILED verdict the БАГ-8
|
||||
rollback fires: deploy -> development, ``set_issue_blocked`` + Telegram alert, and
|
||||
(for the self-hosting repo) the merge-lease is released so the branch is not
|
||||
wedged. The hook exit-code -> verdict mapping is unit-tested in
|
||||
``test_deploy_hook_mapping.py``; here we assert the engine REACTION.
|
||||
"""
|
||||
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orch_deploy_rollback.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db # noqa: E402
|
||||
from src import stage_engine # noqa: E402
|
||||
from src import self_deploy # noqa: E402
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch, tmp_path):
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
monkeypatch.setattr(self_deploy.settings, "repos_dir", str(tmp_path))
|
||||
monkeypatch.setattr(self_deploy.settings, "host_repos_dir", str(tmp_path))
|
||||
# The finalizer's deploy-log write touches a git worktree we don't have here;
|
||||
# the verdict it drives comes from check_deploy_status (monkeypatched below).
|
||||
monkeypatch.setattr(stage_engine.self_deploy, "write_deploy_log", MagicMock(return_value=True))
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def silence_side_effects(monkeypatch):
|
||||
for name in (
|
||||
"notify_stage_change", "notify_qg_failure", "notify_approve_requested",
|
||||
"send_telegram", "plane_notify_stage", "plane_notify_qg", "plane_add_comment",
|
||||
"set_issue_in_review", "set_issue_needs_input", "set_issue_in_progress",
|
||||
"set_issue_blocked", "set_issue_done",
|
||||
):
|
||||
monkeypatch.setattr(stage_engine, name, MagicMock())
|
||||
|
||||
|
||||
def _make_task(stage, repo="orchestrator", branch="feature/ORCH-036-x", wi="ORCH-036"):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, ?)",
|
||||
(f"plane-{wi}", wi, repo, branch, stage),
|
||||
)
|
||||
task_id = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return task_id
|
||||
|
||||
|
||||
def _stage(task_id):
|
||||
conn = get_db()
|
||||
row = conn.execute("SELECT stage FROM tasks WHERE id=?", (task_id,)).fetchone()
|
||||
conn.close()
|
||||
return row[0]
|
||||
|
||||
|
||||
def _fail(reason):
|
||||
def _f(*a, **k):
|
||||
return (False, reason)
|
||||
return _f
|
||||
|
||||
|
||||
def test_tc10_failed_deploy_rolls_back_to_development(monkeypatch):
|
||||
# Hook reported exit 1 (rolled back) -> the host wrapper wrote result=1.
|
||||
self_deploy.write_marker("orchestrator", "ORCH-036", self_deploy.RESULT, "1")
|
||||
# The deploy-log verdict the gate reads is FAILED.
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS, "check_deploy_status": _fail("Deploy status: FAILED")},
|
||||
)
|
||||
task_id = _make_task("deploy")
|
||||
|
||||
stage_engine.run_deploy_finalizer(
|
||||
{"task_id": task_id, "repo": "orchestrator", "id": 1, "agent": "deploy-finalizer"}
|
||||
)
|
||||
|
||||
# БАГ-8 rollback fired: NOT done, back on development, blocked + alerted.
|
||||
assert _stage(task_id) == "development"
|
||||
assert stage_engine.set_issue_blocked.called
|
||||
assert stage_engine.send_telegram.called
|
||||
assert stage_engine.set_issue_done.called is False
|
||||
|
||||
|
||||
def test_tc11_re_deploy_after_rollback_not_wedged(monkeypatch):
|
||||
"""FAILED deploy -> rollback wipes stale markers so a later Phase B re-initiates.
|
||||
|
||||
Regression for the re-deploy-after-rollback contract (AC-4/AC-10): markers are
|
||||
keyed by the (stable) work_item_id, so without cleanup the STALE `initiated` from
|
||||
the first failed attempt would make Phase B's idempotency-guard a no-op on the
|
||||
retry and wedge the task on `deploy` forever.
|
||||
"""
|
||||
repo, wi, branch = "orchestrator", "ORCH-036", "feature/ORCH-036-x"
|
||||
# First (failed) pass left BOTH the idempotency-guard and the verdict behind.
|
||||
self_deploy.write_marker(repo, wi, self_deploy.INITIATED, "123")
|
||||
self_deploy.write_marker(repo, wi, self_deploy.RESULT, "1")
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS, "check_deploy_status": _fail("Deploy status: FAILED")},
|
||||
)
|
||||
task_id = _make_task("deploy")
|
||||
|
||||
stage_engine.run_deploy_finalizer(
|
||||
{"task_id": task_id, "repo": repo, "id": 1, "agent": "deploy-finalizer"}
|
||||
)
|
||||
|
||||
# Rollback fired AND the stale deploy-state sentinels were wiped.
|
||||
assert _stage(task_id) == "development"
|
||||
assert self_deploy.has_marker(repo, wi, self_deploy.INITIATED) is False
|
||||
assert self_deploy.has_marker(repo, wi, self_deploy.RESULT) is False
|
||||
assert self_deploy.read_result(repo, wi) == (False, None)
|
||||
|
||||
# Second pass: the task reaches `deploy` again and the human re-approves. Phase B
|
||||
# must ACTUALLY initiate (no stale `initiated` -> not a no-op), proving the retry
|
||||
# is no longer wedged.
|
||||
init = MagicMock(return_value=(True, "ok"))
|
||||
monkeypatch.setattr(stage_engine.self_deploy, "initiate_deploy", init)
|
||||
result = stage_engine.AdvanceResult(from_stage="deploy")
|
||||
stage_engine._handle_self_deploy_phase_b(task_id, repo, wi, branch, result)
|
||||
|
||||
assert init.called
|
||||
assert result.note == "self-deploy-initiated"
|
||||
assert self_deploy.has_marker(repo, wi, self_deploy.INITIATED) is True
|
||||
@@ -1,174 +0,0 @@
|
||||
"""ORCH-036 TC-07/08/09: self vs non-self deploy routing (AC-2, AC-11).
|
||||
|
||||
* TC-07 — ``is_self_hosting_repo``/``self_deploy_applies`` recognise the
|
||||
orchestrator repo and reject any other (no regression).
|
||||
* TC-08 — for the self repo the restart is launched as a DETACHED host process
|
||||
(ssh + setsid + background), never synchronously inside the agent.
|
||||
* TC-09 — for a non-self repo (enduro-trails) the deploy keeps the legacy path:
|
||||
the self-deploy Phase A/B logic does NOT apply.
|
||||
"""
|
||||
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orch_deploy_routing.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db # noqa: E402
|
||||
from src import stage_engine # noqa: E402
|
||||
from src import self_deploy # noqa: E402
|
||||
from src.qg.checks import is_self_hosting_repo # noqa: E402
|
||||
from src.stage_engine import advance_stage # noqa: E402
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch, tmp_path):
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
monkeypatch.setattr(self_deploy.settings, "repos_dir", str(tmp_path))
|
||||
monkeypatch.setattr(self_deploy.settings, "host_repos_dir", str(tmp_path))
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def silence_side_effects(monkeypatch):
|
||||
for name in (
|
||||
"notify_stage_change", "notify_qg_failure", "notify_approve_requested",
|
||||
"send_telegram", "plane_notify_stage", "plane_notify_qg", "plane_add_comment",
|
||||
"set_issue_in_review", "set_issue_needs_input", "set_issue_in_progress",
|
||||
"set_issue_blocked", "set_issue_done",
|
||||
):
|
||||
monkeypatch.setattr(stage_engine, name, MagicMock())
|
||||
|
||||
|
||||
def _make_task(stage, repo, branch, wi):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, ?)",
|
||||
(f"plane-{wi}", wi, repo, branch, stage),
|
||||
)
|
||||
task_id = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return task_id
|
||||
|
||||
|
||||
def _stage(task_id):
|
||||
conn = get_db()
|
||||
row = conn.execute("SELECT stage FROM tasks WHERE id=?", (task_id,)).fetchone()
|
||||
conn.close()
|
||||
return row[0]
|
||||
|
||||
|
||||
def _jobs():
|
||||
conn = get_db()
|
||||
rows = conn.execute("SELECT agent, repo, task_id FROM jobs ORDER BY id").fetchall()
|
||||
conn.close()
|
||||
return [dict(r) for r in rows]
|
||||
|
||||
|
||||
def _pass(*a, **k):
|
||||
return (True, "ok")
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-07: routing predicate
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc07_is_self_hosting_repo_only_orchestrator():
|
||||
assert is_self_hosting_repo("orchestrator") is True
|
||||
assert is_self_hosting_repo("ORCHESTRATOR") is True # case-insensitive
|
||||
assert is_self_hosting_repo("enduro-trails") is False
|
||||
assert is_self_hosting_repo("") is False
|
||||
assert is_self_hosting_repo(None) is False
|
||||
|
||||
|
||||
def test_tc07_self_deploy_applies_mirrors_routing(monkeypatch):
|
||||
monkeypatch.setattr(self_deploy.settings, "self_deploy_enabled", True)
|
||||
monkeypatch.setattr(self_deploy.settings, "self_deploy_repos", "")
|
||||
assert self_deploy.self_deploy_applies("orchestrator") is True
|
||||
assert self_deploy.self_deploy_applies("enduro-trails") is False
|
||||
# Global kill-switch wins.
|
||||
monkeypatch.setattr(self_deploy.settings, "self_deploy_enabled", False)
|
||||
assert self_deploy.self_deploy_applies("orchestrator") is False
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-08: self repo -> DETACHED host process (ssh + setsid + background)
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc08_self_repo_launches_detached_host_process(monkeypatch):
|
||||
"""The deploy command must be an ssh invocation that detaches the hook via
|
||||
setsid and backgrounds it (`&`), so it survives the prod container restart —
|
||||
i.e. NOT a synchronous in-agent call."""
|
||||
monkeypatch.setattr(self_deploy.settings, "deploy_ssh_user", "slin")
|
||||
monkeypatch.setattr(self_deploy.settings, "deploy_ssh_host", "mva154")
|
||||
|
||||
cmd = self_deploy.build_deploy_command("orchestrator", "ORCH-036", "feature/ORCH-036-x")
|
||||
|
||||
assert cmd[0] == "ssh"
|
||||
assert "slin@mva154" in cmd
|
||||
remote = cmd[-1]
|
||||
assert "setsid" in remote # detached session
|
||||
assert remote.rstrip().endswith("&") # backgrounded
|
||||
assert "</dev/null" in remote # stdin detached
|
||||
assert "--deploy" in remote # runs the deploy hook
|
||||
|
||||
|
||||
def test_tc08_initiate_deploy_uses_subprocess_not_blocking(monkeypatch):
|
||||
"""initiate_deploy dispatches via subprocess (the ssh call returns at once);
|
||||
a rc=0 means 'detached process launched', not 'deploy finished'."""
|
||||
captured = {}
|
||||
|
||||
def fake_run(cmd, **kwargs):
|
||||
captured["cmd"] = cmd
|
||||
return MagicMock(returncode=0, stdout="", stderr="")
|
||||
|
||||
monkeypatch.setattr(self_deploy.settings, "deploy_ssh_host", "mva154")
|
||||
monkeypatch.setattr(self_deploy.subprocess, "run", fake_run)
|
||||
ok, msg = self_deploy.initiate_deploy("orchestrator", "ORCH-036", "feature/ORCH-036-x")
|
||||
assert ok is True
|
||||
assert captured["cmd"][0] == "ssh"
|
||||
assert "detached" in msg
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-09: non-self repo -> legacy path, self-deploy logic does not apply
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc09_non_self_repo_uses_legacy_path(monkeypatch):
|
||||
"""enduro-trails on the deploy-staging -> deploy edge: no Phase A interception,
|
||||
the deployer is enqueued for the deploy stage exactly as before ORCH-036."""
|
||||
monkeypatch.setattr(stage_engine.settings, "deploy_require_manual_approve", True)
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS, "check_staging_status": _pass},
|
||||
) # check_branch_mergeable left REAL -> N/A for non-self repo
|
||||
# Spy: self-deploy must not be initiated for a non-self repo.
|
||||
initiate = MagicMock()
|
||||
monkeypatch.setattr(stage_engine.self_deploy, "initiate_deploy", initiate)
|
||||
|
||||
task_id = _make_task("deploy-staging", "enduro-trails", "feature/ET-009-x", "ET-009")
|
||||
res = advance_stage(
|
||||
task_id, "deploy-staging", "enduro-trails", "ET-009",
|
||||
"feature/ET-009-x", finished_agent="deployer",
|
||||
)
|
||||
|
||||
assert res.advanced is True
|
||||
assert _stage(task_id) == "deploy"
|
||||
assert res.note != "self-deploy-approval-pending"
|
||||
initiate.assert_not_called()
|
||||
# Legacy path enqueues the deployer for the deploy stage.
|
||||
jobs = _jobs()
|
||||
assert len(jobs) == 1
|
||||
assert jobs[0]["agent"] == "deployer"
|
||||
# No self-deploy marker for the non-self repo.
|
||||
assert not self_deploy.has_marker("enduro-trails", "ET-009", self_deploy.APPROVE_REQUESTED)
|
||||
@@ -1,104 +0,0 @@
|
||||
"""ORCH-036 TC-17: a SUCCESS prod deploy preserves the terminal-sync contract (AC-10).
|
||||
|
||||
When the finalizer (Phase C) reads exit 0 -> ``deploy_status: SUCCESS`` and drives
|
||||
``advance_stage(finished_agent="deployer")``, the EXISTING deploy->done transition
|
||||
must still fire unchanged: stage becomes ``done``, ``set_issue_done`` is called, no
|
||||
agent is launched, and the merge-lease is released (terminal-sync, ORCH-43/БАГ-8
|
||||
contract). ORCH-036 only changes HOW the verdict is produced, never the contract.
|
||||
"""
|
||||
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orch_deploy_terminal.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db # noqa: E402
|
||||
from src import stage_engine # noqa: E402
|
||||
from src import self_deploy # noqa: E402
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch, tmp_path):
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
monkeypatch.setattr(self_deploy.settings, "repos_dir", str(tmp_path))
|
||||
monkeypatch.setattr(self_deploy.settings, "host_repos_dir", str(tmp_path))
|
||||
monkeypatch.setattr(stage_engine.self_deploy, "write_deploy_log", MagicMock(return_value=True))
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def silence_side_effects(monkeypatch):
|
||||
for name in (
|
||||
"notify_stage_change", "notify_qg_failure", "notify_approve_requested",
|
||||
"send_telegram", "plane_notify_stage", "plane_notify_qg", "plane_add_comment",
|
||||
"set_issue_in_review", "set_issue_needs_input", "set_issue_in_progress",
|
||||
"set_issue_blocked", "set_issue_done",
|
||||
):
|
||||
monkeypatch.setattr(stage_engine, name, MagicMock())
|
||||
|
||||
|
||||
def _make_task(stage, repo="orchestrator", branch="feature/ORCH-036-x", wi="ORCH-036"):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, ?)",
|
||||
(f"plane-{wi}", wi, repo, branch, stage),
|
||||
)
|
||||
task_id = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return task_id
|
||||
|
||||
|
||||
def _stage(task_id):
|
||||
conn = get_db()
|
||||
row = conn.execute("SELECT stage FROM tasks WHERE id=?", (task_id,)).fetchone()
|
||||
conn.close()
|
||||
return row[0]
|
||||
|
||||
|
||||
def _jobs():
|
||||
conn = get_db()
|
||||
rows = conn.execute("SELECT agent FROM jobs ORDER BY id").fetchall()
|
||||
conn.close()
|
||||
return [r[0] for r in rows]
|
||||
|
||||
|
||||
def _pass(*a, **k):
|
||||
return (True, "ok")
|
||||
|
||||
|
||||
def test_tc17_success_deploy_syncs_terminal_done(monkeypatch):
|
||||
# Hook reported exit 0 -> the host wrapper wrote result=0.
|
||||
self_deploy.write_marker("orchestrator", "ORCH-036", self_deploy.RESULT, "0")
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS, "check_deploy_status": _pass},
|
||||
)
|
||||
# Spy the merge-lease release to confirm the terminal-sync still frees it.
|
||||
release = MagicMock()
|
||||
monkeypatch.setattr(stage_engine.merge_gate, "release_merge_lease", release)
|
||||
|
||||
task_id = _make_task("deploy")
|
||||
stage_engine.run_deploy_finalizer(
|
||||
{"task_id": task_id, "repo": "orchestrator", "id": 1, "agent": "deploy-finalizer"}
|
||||
)
|
||||
|
||||
assert _stage(task_id) == "done"
|
||||
assert stage_engine.set_issue_done.called
|
||||
# The merge-lease is released on the deploy->done terminal-sync.
|
||||
release.assert_called_once_with("orchestrator", "feature/ORCH-036-x")
|
||||
# No agent is launched leaving deploy (terminal).
|
||||
assert _jobs() == []
|
||||
119
tests/test_gitea_sha_resolve.py
Normal file
119
tests/test_gitea_sha_resolve.py
Normal file
@@ -0,0 +1,119 @@
|
||||
"""ORCH-053 (F-3): sha->branch resolution hardening in handle_ci_status.
|
||||
|
||||
When a CI-status webhook carries no ``branches[]`` and the SHA cannot be
|
||||
resolved to a feature branch via ``git branch -r --contains`` (lost on a 502
|
||||
rebuild, shallow clone, etc.), handle_ci_status now falls back to the tasks DB
|
||||
and matches the UNIQUE development-stage task of the repo. Ambiguity (more than
|
||||
one development task) is deliberately left unresolved so it can never make a
|
||||
false match.
|
||||
|
||||
The git subprocess and the network QG / Plane / Telegram side effects are mocked
|
||||
so the handler runs offline against a real isolated sqlite DB.
|
||||
"""
|
||||
|
||||
import asyncio
|
||||
import os
|
||||
import tempfile
|
||||
from types import SimpleNamespace
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orchestrator_gitea_sha.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db # noqa: E402
|
||||
from src.webhooks import gitea as gitea_mod # noqa: E402
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch):
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def silence_and_stub_git(monkeypatch):
|
||||
# git branch -r --contains <sha> resolves to nothing (forces the DB fallback).
|
||||
monkeypatch.setattr(
|
||||
gitea_mod.subprocess, "run",
|
||||
lambda *a, **k: SimpleNamespace(stdout="", returncode=0),
|
||||
)
|
||||
# Mute the network side effects bound module-level in gitea.
|
||||
for name in ("notify_stage_change", "notify_qg_failure", "notify_error",
|
||||
"plane_notify_stage"):
|
||||
monkeypatch.setattr(gitea_mod, name, MagicMock(), raising=False)
|
||||
|
||||
|
||||
def _make_dev_task(branch, wi, repo="enduro-trails"):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, 'development')",
|
||||
(f"plane-{wi}", wi, repo, branch),
|
||||
)
|
||||
tid = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return tid
|
||||
|
||||
|
||||
def _stage_of(task_id):
|
||||
conn = get_db()
|
||||
row = conn.execute("SELECT stage FROM tasks WHERE id = ?", (task_id,)).fetchone()
|
||||
conn.close()
|
||||
return row["stage"]
|
||||
|
||||
|
||||
def _ci_payload(sha="deadbeef", repo="enduro-trails", state="success"):
|
||||
return {
|
||||
"state": state,
|
||||
"sha": sha,
|
||||
"branches": [], # no branch in the event -> forces resolution
|
||||
"repository": {"name": repo},
|
||||
}
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-18: unique development task -> DB fallback resolves the branch, advances.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc18_db_fallback_unique_match_advances(monkeypatch):
|
||||
ci = MagicMock(return_value=(True, "CI green"))
|
||||
monkeypatch.setattr(gitea_mod, "check_ci_green", ci)
|
||||
|
||||
tid = _make_dev_task("feature/ET-050-x", "ET-050")
|
||||
|
||||
asyncio.run(gitea_mod.handle_ci_status(_ci_payload()))
|
||||
|
||||
assert _stage_of(tid) == "review"
|
||||
ci.assert_called_once()
|
||||
# The fallback resolved to the unique dev task's branch.
|
||||
assert ci.call_args.args[1] == "feature/ET-050-x"
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-19: several development tasks -> ambiguous -> no false match, no advance.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc19_db_fallback_ambiguous_no_match(monkeypatch, caplog):
|
||||
ci = MagicMock(return_value=(True, "CI green"))
|
||||
monkeypatch.setattr(gitea_mod, "check_ci_green", ci)
|
||||
|
||||
t1 = _make_dev_task("feature/ET-051-a", "ET-051")
|
||||
t2 = _make_dev_task("feature/ET-052-b", "ET-052")
|
||||
|
||||
with caplog.at_level("INFO", logger="orchestrator.webhooks.gitea"):
|
||||
asyncio.run(gitea_mod.handle_ci_status(_ci_payload()))
|
||||
|
||||
# Ambiguity -> branch unresolved -> handler returns before touching the gate.
|
||||
assert _stage_of(t1) == "development"
|
||||
assert _stage_of(t2) == "development"
|
||||
ci.assert_not_called()
|
||||
assert "could not determine branch" in caplog.text
|
||||
@@ -1,53 +0,0 @@
|
||||
"""ORCH-036 TC-15: the deploy-verdict parse contract is unchanged (AC-10).
|
||||
|
||||
``_parse_deploy_status`` reads ONLY the machine-readable ``deploy_status:`` YAML
|
||||
frontmatter (never prose). ORCH-036 produces the verdict differently (a
|
||||
deterministic finalizer instead of an LLM), but the parse contract that the gate
|
||||
relies on must remain bit-identical:
|
||||
SUCCESS -> (True, ...), FAILED -> (False, ...), no/!frontmatter -> (False, ...).
|
||||
"""
|
||||
|
||||
import os
|
||||
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
|
||||
from src.qg.checks import _parse_deploy_status # noqa: E402
|
||||
from src.self_deploy import build_deploy_log # noqa: E402
|
||||
|
||||
|
||||
def test_tc15_success_frontmatter_passes():
|
||||
ok, reason = _parse_deploy_status("---\ndeploy_status: SUCCESS\n---\n\nbody")
|
||||
assert ok is True
|
||||
assert "SUCCESS" in reason
|
||||
|
||||
|
||||
def test_tc15_failed_frontmatter_fails():
|
||||
ok, reason = _parse_deploy_status("---\ndeploy_status: FAILED\n---\n\nbody")
|
||||
assert ok is False
|
||||
assert "FAILED" in reason
|
||||
|
||||
|
||||
def test_tc15_no_frontmatter_fails():
|
||||
ok, _ = _parse_deploy_status("just prose, deploy_status: SUCCESS in text but no frontmatter")
|
||||
assert ok is False
|
||||
|
||||
|
||||
def test_tc15_missing_field_fails():
|
||||
ok, _ = _parse_deploy_status("---\nother_field: SUCCESS\n---\n")
|
||||
assert ok is False
|
||||
|
||||
|
||||
def test_tc15_prose_success_word_does_not_pass():
|
||||
"""Defensive: the word SUCCESS in prose must NOT satisfy the gate."""
|
||||
ok, _ = _parse_deploy_status("# Deploy\n\nDeploy was a SUCCESS, hooray!\n")
|
||||
assert ok is False
|
||||
|
||||
|
||||
def test_tc15_finalizer_log_roundtrips_through_parser():
|
||||
"""The finalizer's rendered log must be readable by the EXISTING parser —
|
||||
SUCCESS passes, FAILED fails — proving the producer/consumer contract holds."""
|
||||
ok_s, _ = _parse_deploy_status(build_deploy_log("ORCH-036", 0, "SUCCESS"))
|
||||
ok_f, _ = _parse_deploy_status(build_deploy_log("ORCH-036", 2, "FAILED"))
|
||||
assert ok_s is True
|
||||
assert ok_f is False
|
||||
379
tests/test_reconciler.py
Normal file
379
tests/test_reconciler.py
Normal file
@@ -0,0 +1,379 @@
|
||||
"""ORCH-053: tests for the gate-side stuck-task reconciler (F-1) + lifecycle.
|
||||
|
||||
These cover the F-1 sweeper (``Reconciler.reconcile_gate_once``), the per-stage
|
||||
grace / config (``grace_for_stage``), the no-spam guarantee, the analysis carve-
|
||||
out (AC-16), never-raise isolation, the kill-switch, the unblock observability
|
||||
(AC-12 / F-4) and the restart-safe daemon thread (AC-11).
|
||||
|
||||
Everything that touches the network (the quality gate, Plane sync, Telegram) is
|
||||
mocked at the src.stage_engine / src.reconciler level so the reconciler runs
|
||||
against a real isolated sqlite DB (same convention as test_stage_engine.py).
|
||||
"""
|
||||
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
# Isolated test DB (set BEFORE importing src.* so settings picks it up).
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orchestrator_reconciler.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db, enqueue_job # noqa: E402
|
||||
from src import stage_engine # noqa: E402
|
||||
from src import reconciler as reconciler_mod # noqa: E402
|
||||
from src.reconciler import Reconciler, grace_for_stage # noqa: E402
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# Fixtures
|
||||
# ---------------------------------------------------------------------------
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch):
|
||||
"""Fresh isolated DB per test."""
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def silence_side_effects(monkeypatch):
|
||||
"""No-op every Plane/Telegram/notification side effect in the engine so the
|
||||
real advance_stage runs deterministically and offline."""
|
||||
for name in (
|
||||
"notify_stage_change",
|
||||
"notify_qg_failure",
|
||||
"notify_approve_requested",
|
||||
"notify_error",
|
||||
"send_telegram",
|
||||
"plane_notify_stage",
|
||||
"plane_notify_qg",
|
||||
"plane_add_comment",
|
||||
"set_issue_in_review",
|
||||
"set_issue_needs_input",
|
||||
"set_issue_in_progress",
|
||||
"set_issue_blocked",
|
||||
"set_issue_done",
|
||||
):
|
||||
monkeypatch.setattr(stage_engine, name, MagicMock(), raising=False)
|
||||
|
||||
|
||||
def _make_task(stage, *, repo="enduro-trails", branch="feature/ET-001-x",
|
||||
wi="ET-001", age_s=None):
|
||||
"""Insert a task; if age_s is given, backdate updated_at by that many secs."""
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, ?)",
|
||||
(f"plane-{wi}", wi, repo, branch, stage),
|
||||
)
|
||||
task_id = cur.lastrowid
|
||||
if age_s is not None:
|
||||
conn.execute(
|
||||
"UPDATE tasks SET updated_at = datetime('now', ?) WHERE id = ?",
|
||||
(f"-{int(age_s)} seconds", task_id),
|
||||
)
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return task_id
|
||||
|
||||
|
||||
def _stage_of(task_id):
|
||||
conn = get_db()
|
||||
row = conn.execute("SELECT stage FROM tasks WHERE id = ?", (task_id,)).fetchone()
|
||||
conn.close()
|
||||
return row["stage"]
|
||||
|
||||
|
||||
def _jobs_for(task_id, agent=None):
|
||||
conn = get_db()
|
||||
if agent:
|
||||
rows = conn.execute(
|
||||
"SELECT * FROM jobs WHERE task_id = ? AND agent = ?", (task_id, agent)
|
||||
).fetchall()
|
||||
else:
|
||||
rows = conn.execute(
|
||||
"SELECT * FROM jobs WHERE task_id = ?", (task_id,)
|
||||
).fetchall()
|
||||
conn.close()
|
||||
return [dict(r) for r in rows]
|
||||
|
||||
|
||||
def _green_ci(monkeypatch, value=(True, "CI green")):
|
||||
"""Patch the check_ci_green entry in QG_CHECKS; return the mock."""
|
||||
m = MagicMock(return_value=value)
|
||||
monkeypatch.setitem(stage_engine.QG_CHECKS, "check_ci_green", m)
|
||||
return m
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-01: happy path — stuck development task is advanced to review
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc01_advances_stuck_development_task(monkeypatch):
|
||||
_green_ci(monkeypatch)
|
||||
task_id = _make_task("development", age_s=3600) # well past grace
|
||||
|
||||
Reconciler().reconcile_gate_once()
|
||||
|
||||
assert _stage_of(task_id) == "review"
|
||||
reviewer_jobs = _jobs_for(task_id, "reviewer")
|
||||
assert len(reviewer_jobs) == 1
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-02: source of truth is the gate — advance goes through advance_stage
|
||||
# with finished_agent=None (no own update_task_stage/enqueue_job).
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc02_advances_via_advance_stage_finished_agent_none(monkeypatch):
|
||||
_green_ci(monkeypatch)
|
||||
spy = MagicMock(wraps=stage_engine.advance_stage)
|
||||
# advance_if_gate_passed resolves advance_stage as a module global.
|
||||
monkeypatch.setattr(stage_engine, "advance_stage", spy)
|
||||
|
||||
task_id = _make_task("development", age_s=3600)
|
||||
Reconciler().reconcile_gate_once()
|
||||
|
||||
assert spy.call_count == 1
|
||||
# finished_agent must be None (the webhook path).
|
||||
_args, kwargs = spy.call_args
|
||||
assert kwargs.get("finished_agent", "MISSING") is None
|
||||
assert spy.call_args.args[0] == task_id
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-03: task with an active job is skipped — gate not evaluated, no advance.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc03_active_job_skipped(monkeypatch):
|
||||
ci = _green_ci(monkeypatch)
|
||||
spy = MagicMock(wraps=stage_engine.advance_stage)
|
||||
monkeypatch.setattr(stage_engine, "advance_stage", spy)
|
||||
|
||||
task_id = _make_task("development", age_s=3600)
|
||||
enqueue_job("reviewer", "enduro-trails", task_id=task_id) # active (queued)
|
||||
|
||||
Reconciler().reconcile_gate_once()
|
||||
|
||||
assert _stage_of(task_id) == "development"
|
||||
ci.assert_not_called()
|
||||
spy.assert_not_called()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-04: per-stage grace — fresh task untouched, at-threshold task eligible.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc04_grace_boundary(monkeypatch):
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_grace_default_s", 600)
|
||||
_green_ci(monkeypatch)
|
||||
|
||||
fresh = _make_task("development", branch="feature/ET-002-fresh",
|
||||
wi="ET-002", age_s=10) # < grace -> untouched
|
||||
stuck = _make_task("development", branch="feature/ET-003-stuck",
|
||||
wi="ET-003", age_s=3600) # >= grace -> advanced
|
||||
|
||||
Reconciler().reconcile_gate_once()
|
||||
|
||||
assert _stage_of(fresh) == "development"
|
||||
assert _stage_of(stuck) == "review"
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-05: grace_for_stage reads overrides JSON; bad JSON -> default, no crash.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc05_grace_for_stage_overrides(monkeypatch):
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_grace_default_s", 600)
|
||||
monkeypatch.setattr(
|
||||
reconciler_mod.settings,
|
||||
"reconcile_grace_overrides_json",
|
||||
'{"development": 30, "review": 7200}',
|
||||
)
|
||||
assert grace_for_stage("development") == 30
|
||||
assert grace_for_stage("review") == 7200
|
||||
# missing key -> default
|
||||
assert grace_for_stage("testing") == 600
|
||||
|
||||
|
||||
def test_tc05_grace_for_stage_invalid_json_falls_back(monkeypatch):
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_grace_default_s", 600)
|
||||
monkeypatch.setattr(
|
||||
reconciler_mod.settings, "reconcile_grace_overrides_json", "{not valid json"
|
||||
)
|
||||
# Must not raise, must fall back to the default.
|
||||
assert grace_for_stage("development") == 600
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-06: no spam — a stable-red gate never advances and never notifies, even
|
||||
# across many ticks.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc06_red_gate_no_spam(monkeypatch):
|
||||
_green_ci(monkeypatch, value=(False, "CI red"))
|
||||
task_id = _make_task("development", age_s=3600)
|
||||
|
||||
rec = Reconciler()
|
||||
for _ in range(5):
|
||||
rec.reconcile_gate_once()
|
||||
|
||||
assert _stage_of(task_id) == "development"
|
||||
# The QG-failure notification branch inside advance_stage must never fire,
|
||||
# because advance_if_gate_passed returns None on a red gate (no advance call).
|
||||
stage_engine.notify_qg_failure.assert_not_called()
|
||||
stage_engine.plane_notify_qg.assert_not_called()
|
||||
assert rec.unblocked_total == 0
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-07: silence when in sync — done / busy / within-grace tasks => no advance.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc07_silence_when_in_sync(monkeypatch):
|
||||
_green_ci(monkeypatch)
|
||||
spy = MagicMock(wraps=stage_engine.advance_stage)
|
||||
monkeypatch.setattr(stage_engine, "advance_stage", spy)
|
||||
|
||||
_make_task("done", branch="feature/ET-010-done", wi="ET-010", age_s=3600)
|
||||
fresh = _make_task("development", branch="feature/ET-011-fresh",
|
||||
wi="ET-011", age_s=5)
|
||||
busy = _make_task("development", branch="feature/ET-012-busy",
|
||||
wi="ET-012", age_s=3600)
|
||||
enqueue_job("reviewer", "enduro-trails", task_id=busy)
|
||||
|
||||
rec = Reconciler()
|
||||
rec.reconcile_gate_once()
|
||||
|
||||
spy.assert_not_called()
|
||||
assert rec.unblocked_total == 0
|
||||
assert _stage_of(fresh) == "development"
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-08 (AC-16): F-1 never advances the human analysis gate.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc08_analysis_not_advanced_by_f1(monkeypatch):
|
||||
# Even if the analysis gate would "pass", F-1 must not touch analysis.
|
||||
monkeypatch.setitem(
|
||||
stage_engine.QG_CHECKS, "check_analysis_approved",
|
||||
MagicMock(return_value=(True, "approved")),
|
||||
)
|
||||
spy = MagicMock(wraps=stage_engine.advance_stage)
|
||||
monkeypatch.setattr(stage_engine, "advance_stage", spy)
|
||||
|
||||
task_id = _make_task("analysis", age_s=3600)
|
||||
Reconciler().reconcile_gate_once()
|
||||
|
||||
assert _stage_of(task_id) == "analysis"
|
||||
spy.assert_not_called()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-09: never-raise — one task blowing up does not stop the others.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc09_never_raise_isolates_failure(monkeypatch):
|
||||
calls = []
|
||||
|
||||
def boom(task_id, stage, repo, wi, branch):
|
||||
calls.append(task_id)
|
||||
raise RuntimeError("boom")
|
||||
|
||||
monkeypatch.setattr(reconciler_mod, "advance_if_gate_passed", boom)
|
||||
|
||||
t1 = _make_task("development", branch="feature/ET-020-a", wi="ET-020", age_s=3600)
|
||||
t2 = _make_task("development", branch="feature/ET-021-b", wi="ET-021", age_s=3600)
|
||||
|
||||
# Must not raise despite both tasks raising inside advance_if_gate_passed.
|
||||
Reconciler().reconcile_gate_once()
|
||||
|
||||
assert set(calls) == {t1, t2} # both attempted
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-10: kill-switches.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc10_kill_switch_disables_gate(monkeypatch):
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_enabled", False)
|
||||
spy = MagicMock(wraps=stage_engine.advance_stage)
|
||||
monkeypatch.setattr(stage_engine, "advance_stage", spy)
|
||||
_green_ci(monkeypatch)
|
||||
|
||||
task_id = _make_task("development", age_s=3600)
|
||||
Reconciler().reconcile_gate_once()
|
||||
|
||||
assert _stage_of(task_id) == "development"
|
||||
spy.assert_not_called()
|
||||
|
||||
|
||||
def test_tc10_plane_switch_mutes_only_f2(monkeypatch):
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_enabled", True)
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_plane_enabled", False)
|
||||
|
||||
plane_pass = MagicMock()
|
||||
monkeypatch.setattr(reconciler_mod.Reconciler, "_reconcile_plane_project", plane_pass)
|
||||
# F-2 muted -> reconcile_plane_once is a no-op.
|
||||
Reconciler().reconcile_plane_once()
|
||||
plane_pass.assert_not_called()
|
||||
|
||||
# F-1 still runs.
|
||||
_green_ci(monkeypatch)
|
||||
task_id = _make_task("development", age_s=3600)
|
||||
Reconciler().reconcile_gate_once()
|
||||
assert _stage_of(task_id) == "review"
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-20: observability — explicit unblock log line + telegram (AC-12 / F-4).
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc20_unblock_logs_and_notifies(monkeypatch, caplog):
|
||||
_green_ci(monkeypatch)
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_notify_unblock", True)
|
||||
tg = MagicMock()
|
||||
monkeypatch.setattr(reconciler_mod, "send_telegram", tg)
|
||||
|
||||
_make_task("development", wi="ET-042", age_s=3600)
|
||||
|
||||
rec = Reconciler()
|
||||
with caplog.at_level("INFO", logger="orchestrator.reconciler"):
|
||||
rec.reconcile_gate_once()
|
||||
|
||||
# Exact AC-12 contract string.
|
||||
assert "reconciler: ET-042 development разблокирована (потерян webhook)" in caplog.text
|
||||
assert rec.unblocked_total == 1
|
||||
assert rec.last_unblocked == "ET-042"
|
||||
tg.assert_called_once()
|
||||
|
||||
|
||||
def test_tc20_no_telegram_when_disabled(monkeypatch):
|
||||
_green_ci(monkeypatch)
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_notify_unblock", False)
|
||||
tg = MagicMock()
|
||||
monkeypatch.setattr(reconciler_mod, "send_telegram", tg)
|
||||
|
||||
_make_task("development", wi="ET-043", age_s=3600)
|
||||
Reconciler().reconcile_gate_once()
|
||||
|
||||
tg.assert_not_called()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-21: restart-safe daemon thread — start/stop/idempotent start.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc21_daemon_thread_lifecycle(monkeypatch):
|
||||
# Avoid any real work in the loop: disable both branches, big interval.
|
||||
monkeypatch.setattr(reconciler_mod.settings, "reconcile_enabled", False)
|
||||
rec = Reconciler(interval_s=60)
|
||||
|
||||
rec.start()
|
||||
assert rec._thread is not None and rec._thread.is_alive()
|
||||
first_thread = rec._thread
|
||||
|
||||
# Idempotent: a second start does not spawn a new thread.
|
||||
rec.start()
|
||||
assert rec._thread is first_thread
|
||||
|
||||
rec.stop(timeout=5.0)
|
||||
assert not first_thread.is_alive()
|
||||
297
tests/test_reconciler_plane.py
Normal file
297
tests/test_reconciler_plane.py
Normal file
@@ -0,0 +1,297 @@
|
||||
"""ORCH-053: tests for the Plane-side reconciler (F-2) + sha-resolve helpers.
|
||||
|
||||
F-2 polls the Plane API per project (``list_issues_by_state``) and REPLAYS a
|
||||
missed In Progress / Approved / Rejected transition through the EXISTING
|
||||
``webhooks.plane.handle_status_start`` / ``handle_verdict`` handlers — it never
|
||||
duplicates pipeline logic. These tests mock those handlers (AsyncMock) and the
|
||||
Plane API helpers, and verify the dispatch / idempotency / multi-project rules.
|
||||
|
||||
TC-15 is the AC-4 anti-dup integration test for ``create_task_atomic`` against a
|
||||
real isolated sqlite DB under concurrency.
|
||||
TC-16 exercises ``plane_sync.list_issues_by_state`` directly (pagination + the
|
||||
never-raise contract).
|
||||
"""
|
||||
|
||||
import os
|
||||
import tempfile
|
||||
import threading
|
||||
from types import SimpleNamespace
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orchestrator_reconciler_plane.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import AsyncMock, MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db, enqueue_job, create_task_atomic # noqa: E402
|
||||
from src import reconciler as reconciler_mod # noqa: E402
|
||||
from src import plane_sync # noqa: E402
|
||||
from src.reconciler import Reconciler # noqa: E402
|
||||
|
||||
_IN_PROGRESS = "uuid-in-progress"
|
||||
_APPROVED = "uuid-approved"
|
||||
_REJECTED = "uuid-rejected"
|
||||
_OLD_TS = "2020-01-01T00:00:00Z" # well past any grace
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch):
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture
|
||||
def single_project(monkeypatch):
|
||||
"""Restrict F-2 to a single fake project and stub its state resolution."""
|
||||
proj = SimpleNamespace(
|
||||
plane_project_id="proj-1", repo="enduro-trails", work_item_prefix="ET",
|
||||
)
|
||||
monkeypatch.setattr(reconciler_mod.projects, "PROJECTS", [proj])
|
||||
monkeypatch.setattr(
|
||||
reconciler_mod, "get_project_states",
|
||||
lambda pid: {
|
||||
"in_progress": _IN_PROGRESS,
|
||||
"approved": _APPROVED,
|
||||
"rejected": _REJECTED,
|
||||
},
|
||||
)
|
||||
return proj
|
||||
|
||||
|
||||
def _make_task(plane_id, stage="review", repo="enduro-trails",
|
||||
branch="feature/ET-001-x", wi="ET-001"):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage, plane_issue_id) "
|
||||
"VALUES (?, ?, ?, ?, ?, ?)",
|
||||
(plane_id, wi, repo, branch, stage, plane_id),
|
||||
)
|
||||
tid = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return tid
|
||||
|
||||
|
||||
def _patch_handlers(monkeypatch):
|
||||
start = AsyncMock()
|
||||
verdict = AsyncMock()
|
||||
monkeypatch.setattr(reconciler_mod, "handle_status_start", start)
|
||||
monkeypatch.setattr(reconciler_mod, "handle_verdict", verdict)
|
||||
return start, verdict
|
||||
|
||||
|
||||
def _patch_issues(monkeypatch, issues):
|
||||
monkeypatch.setattr(
|
||||
reconciler_mod, "list_issues_by_state", lambda pid, states: list(issues)
|
||||
)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-11: In Progress without a task -> handle_status_start once.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc11_in_progress_without_task_starts_pipeline(monkeypatch, single_project):
|
||||
start, verdict = _patch_handlers(monkeypatch)
|
||||
_patch_issues(monkeypatch, [
|
||||
{"id": "iss-1", "state": {"id": _IN_PROGRESS}, "updated_at": _OLD_TS,
|
||||
"name": "Some issue"},
|
||||
])
|
||||
|
||||
Reconciler().reconcile_plane_once()
|
||||
|
||||
assert start.call_count == 1
|
||||
issue_data, project_id = start.call_args.args
|
||||
assert issue_data["id"] == "iss-1"
|
||||
assert issue_data["state"]["id"] == _IN_PROGRESS
|
||||
assert project_id == "proj-1"
|
||||
verdict.assert_not_called()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-12: Approved with an existing task, no active job -> handle_verdict(True).
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc12_approved_replays_verdict(monkeypatch, single_project):
|
||||
start, verdict = _patch_handlers(monkeypatch)
|
||||
_make_task("iss-2", stage="review")
|
||||
_patch_issues(monkeypatch, [
|
||||
{"id": "iss-2", "state": {"id": _APPROVED}, "updated_at": _OLD_TS},
|
||||
])
|
||||
|
||||
Reconciler().reconcile_plane_once()
|
||||
|
||||
assert verdict.call_count == 1
|
||||
assert verdict.call_args.kwargs.get("approved") is True
|
||||
start.assert_not_called()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-13: Rejected with an existing task -> handle_verdict(False).
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc13_rejected_replays_verdict(monkeypatch, single_project):
|
||||
start, verdict = _patch_handlers(monkeypatch)
|
||||
_make_task("iss-3", stage="review")
|
||||
_patch_issues(monkeypatch, [
|
||||
{"id": "iss-3", "state": {"id": _REJECTED}, "updated_at": _OLD_TS},
|
||||
])
|
||||
|
||||
Reconciler().reconcile_plane_once()
|
||||
|
||||
assert verdict.call_count == 1
|
||||
assert verdict.call_args.kwargs.get("approved") is False
|
||||
start.assert_not_called()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-14: idempotency — an active job means a live webhook is in flight -> skip.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc14_active_job_skips(monkeypatch, single_project):
|
||||
start, verdict = _patch_handlers(monkeypatch)
|
||||
tid = _make_task("iss-4", stage="review")
|
||||
enqueue_job("reviewer", "enduro-trails", task_id=tid) # active
|
||||
_patch_issues(monkeypatch, [
|
||||
{"id": "iss-4", "state": {"id": _APPROVED}, "updated_at": _OLD_TS},
|
||||
])
|
||||
|
||||
Reconciler().reconcile_plane_once()
|
||||
|
||||
start.assert_not_called()
|
||||
verdict.assert_not_called()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-14b: within-grace issue is left alone (lost, not merely delayed).
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc14b_within_grace_skipped(monkeypatch, single_project):
|
||||
from datetime import datetime, timezone
|
||||
start, verdict = _patch_handlers(monkeypatch)
|
||||
_make_task("iss-5", stage="review")
|
||||
fresh_ts = datetime.now(timezone.utc).isoformat()
|
||||
_patch_issues(monkeypatch, [
|
||||
{"id": "iss-5", "state": {"id": _APPROVED}, "updated_at": fresh_ts},
|
||||
])
|
||||
|
||||
Reconciler().reconcile_plane_once()
|
||||
|
||||
start.assert_not_called()
|
||||
verdict.assert_not_called()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-15 (AC-4): atomic anti-dup — concurrent create_task_atomic for one
|
||||
# plane_id yields exactly ONE row and ONE created=True.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc15_create_task_atomic_no_duplicate():
|
||||
results = []
|
||||
barrier = threading.Barrier(8)
|
||||
|
||||
def worker():
|
||||
barrier.wait() # maximise the race
|
||||
row, created = create_task_atomic(
|
||||
"plane-dup", "ET-099", "enduro-trails",
|
||||
"feature/ET-099-x", "analysis", "Dup race",
|
||||
)
|
||||
results.append((row["id"], created))
|
||||
|
||||
threads = [threading.Thread(target=worker) for _ in range(8)]
|
||||
for t in threads:
|
||||
t.start()
|
||||
for t in threads:
|
||||
t.join()
|
||||
|
||||
created_flags = [c for _, c in results]
|
||||
assert created_flags.count(True) == 1 # exactly one winner
|
||||
assert created_flags.count(False) == 7 # the rest see the existing row
|
||||
|
||||
conn = get_db()
|
||||
n = conn.execute(
|
||||
"SELECT COUNT(*) FROM tasks WHERE plane_id = 'plane-dup'"
|
||||
).fetchone()[0]
|
||||
conn.close()
|
||||
assert n == 1 # only one task row ever created
|
||||
|
||||
# All callers see the same row id (the single task).
|
||||
assert len({rid for rid, _ in results}) == 1
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-16: list_issues_by_state — never-raise on API error, filter+paginate on OK.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc16_list_issues_never_raises_on_error(monkeypatch):
|
||||
def boom(*a, **k):
|
||||
raise RuntimeError("plane down")
|
||||
|
||||
monkeypatch.setattr(plane_sync.httpx, "get", boom)
|
||||
out = plane_sync.list_issues_by_state("proj-1", [_APPROVED])
|
||||
assert out == []
|
||||
|
||||
|
||||
def test_tc16_list_issues_paginates_and_filters(monkeypatch):
|
||||
page1 = {
|
||||
"results": [
|
||||
{"id": "a", "state": {"id": _APPROVED}},
|
||||
{"id": "b", "state": {"id": "other"}},
|
||||
],
|
||||
"next_page_results": True,
|
||||
"next_cursor": "cur2",
|
||||
}
|
||||
page2 = {
|
||||
"results": [
|
||||
{"id": "c", "state": _APPROVED}, # bare-uuid state shape
|
||||
{"id": "d", "state": {"id": _REJECTED}},
|
||||
],
|
||||
"next_page_results": False,
|
||||
"next_cursor": None,
|
||||
}
|
||||
pages = iter([page1, page2])
|
||||
|
||||
def fake_get(url, headers=None, params=None, timeout=None):
|
||||
resp = MagicMock()
|
||||
resp.json.return_value = next(pages)
|
||||
resp.raise_for_status.return_value = None
|
||||
return resp
|
||||
|
||||
monkeypatch.setattr(plane_sync.httpx, "get", fake_get)
|
||||
|
||||
out = plane_sync.list_issues_by_state("proj-1", [_APPROVED, _REJECTED])
|
||||
ids = {i["id"] for i in out}
|
||||
assert ids == {"a", "c", "d"} # 'b' filtered out (state 'other')
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-17: F-2 polls EVERY registry project and resolves states per-project.
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc17_polls_all_projects_resolves_states_per_project(monkeypatch):
|
||||
_patch_handlers(monkeypatch)
|
||||
from src import projects as projects_mod
|
||||
projects_mod.reload_projects()
|
||||
expected_ids = {p.plane_project_id for p in projects_mod.PROJECTS}
|
||||
assert len(expected_ids) >= 2 # enduro + orchestrator in the default registry
|
||||
|
||||
states_calls = []
|
||||
issues_calls = []
|
||||
|
||||
def fake_states(pid):
|
||||
states_calls.append(pid)
|
||||
return {"in_progress": _IN_PROGRESS, "approved": _APPROVED, "rejected": _REJECTED}
|
||||
|
||||
def fake_issues(pid, states):
|
||||
issues_calls.append((pid, tuple(states)))
|
||||
return []
|
||||
|
||||
monkeypatch.setattr(reconciler_mod, "get_project_states", fake_states)
|
||||
monkeypatch.setattr(reconciler_mod, "list_issues_by_state", fake_issues)
|
||||
|
||||
Reconciler().reconcile_plane_once()
|
||||
|
||||
assert set(states_calls) == expected_ids
|
||||
assert {pid for pid, _ in issues_calls} == expected_ids
|
||||
# state uuids are resolved per-project (not hardcoded): each call carries them.
|
||||
for _pid, states in issues_calls:
|
||||
assert set(states) == {_IN_PROGRESS, _APPROVED, _REJECTED}
|
||||
@@ -822,12 +822,7 @@ class TestMergeGate:
|
||||
|
||||
def test_tc20_pass_advances_to_deploy(self, monkeypatch):
|
||||
"""TC-20 / AC-1: gate PASS (rebased + green) -> advance to deploy, deployer
|
||||
enqueued, NO rollback. staging gate must pass first (same edge).
|
||||
|
||||
ORCH-036: disable the manual-approve self-deploy interception so this test
|
||||
keeps exercising the merge-gate in isolation (the executable self-deploy
|
||||
Phase A path is covered separately in test_deploy_approve.py)."""
|
||||
monkeypatch.setattr(stage_engine.settings, "deploy_require_manual_approve", False)
|
||||
enqueued, NO rollback. staging gate must pass first (same edge)."""
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS,
|
||||
|
||||
@@ -1,41 +0,0 @@
|
||||
"""ORCH-036 TC-16: STAGE_TRANSITIONS for deploy are unchanged (AC-10).
|
||||
|
||||
ORCH-036 only changes HOW the deploy verdict is produced (a deterministic
|
||||
finalizer) — it must NOT touch the state machine. The deploy edge keeps its
|
||||
exact transition (deploy -> done), no in-line agent (None), and the gate
|
||||
``check_deploy_status``. The deploy-staging edge is likewise untouched.
|
||||
"""
|
||||
|
||||
import os
|
||||
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
|
||||
from src.stages import ( # noqa: E402
|
||||
STAGE_TRANSITIONS,
|
||||
get_agent_for_stage,
|
||||
get_next_stage,
|
||||
get_qg_for_stage,
|
||||
)
|
||||
|
||||
|
||||
def test_tc16_deploy_transition_unchanged():
|
||||
assert STAGE_TRANSITIONS["deploy"] == {
|
||||
"next": "done", "agent": None, "qg": "check_deploy_status"
|
||||
}
|
||||
assert get_next_stage("deploy") == "done"
|
||||
assert get_agent_for_stage("deploy") is None
|
||||
assert get_qg_for_stage("deploy") == "check_deploy_status"
|
||||
|
||||
|
||||
def test_tc16_deploy_staging_transition_unchanged():
|
||||
assert STAGE_TRANSITIONS["deploy-staging"] == {
|
||||
"next": "deploy", "agent": "deployer", "qg": "check_staging_status"
|
||||
}
|
||||
assert get_next_stage("deploy-staging") == "deploy"
|
||||
assert get_agent_for_stage("deploy-staging") == "deployer"
|
||||
assert get_qg_for_stage("deploy-staging") == "check_staging_status"
|
||||
|
||||
|
||||
def test_tc16_done_is_terminal():
|
||||
assert get_next_stage("done") is None
|
||||
@@ -1,99 +0,0 @@
|
||||
"""ORCH-036 TC-11: the staging precondition is preserved (AC-8).
|
||||
|
||||
A red staging gate (``staging_status: FAILED``) must roll the task back to
|
||||
development and NEVER let it reach the ``deploy`` stage — so the executable
|
||||
prod self-deploy can never be initiated off a failed staging run. ORCH-036 adds
|
||||
its Phase A interception AFTER ``check_staging_status``, so a staging failure
|
||||
short-circuits before any self-deploy logic runs.
|
||||
"""
|
||||
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orch_staging_precond.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
|
||||
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
|
||||
|
||||
from unittest.mock import MagicMock # noqa: E402
|
||||
|
||||
import src.db as _db # noqa: E402
|
||||
from src.db import init_db, get_db # noqa: E402
|
||||
from src import stage_engine # noqa: E402
|
||||
from src import self_deploy # noqa: E402
|
||||
from src.stage_engine import advance_stage # noqa: E402
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(monkeypatch, tmp_path):
|
||||
monkeypatch.setattr(_db.settings, "db_path", _test_db)
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
monkeypatch.setattr(self_deploy.settings, "repos_dir", str(tmp_path))
|
||||
monkeypatch.setattr(self_deploy.settings, "host_repos_dir", str(tmp_path))
|
||||
yield
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def silence_side_effects(monkeypatch):
|
||||
for name in (
|
||||
"notify_stage_change", "notify_qg_failure", "notify_approve_requested",
|
||||
"send_telegram", "plane_notify_stage", "plane_notify_qg", "plane_add_comment",
|
||||
"set_issue_in_review", "set_issue_needs_input", "set_issue_in_progress",
|
||||
"set_issue_blocked", "set_issue_done",
|
||||
):
|
||||
monkeypatch.setattr(stage_engine, name, MagicMock())
|
||||
|
||||
|
||||
def _make_task(stage, repo="orchestrator", branch="feature/ORCH-036-x", wi="ORCH-036"):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, ?)",
|
||||
(f"plane-{wi}", wi, repo, branch, stage),
|
||||
)
|
||||
task_id = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return task_id
|
||||
|
||||
|
||||
def _stage(task_id):
|
||||
conn = get_db()
|
||||
row = conn.execute("SELECT stage FROM tasks WHERE id=?", (task_id,)).fetchone()
|
||||
conn.close()
|
||||
return row[0]
|
||||
|
||||
|
||||
def _fail(reason):
|
||||
def _f(*a, **k):
|
||||
return (False, reason)
|
||||
return _f
|
||||
|
||||
|
||||
def test_tc11_staging_failed_never_reaches_deploy(monkeypatch):
|
||||
monkeypatch.setattr(stage_engine.settings, "deploy_require_manual_approve", True)
|
||||
monkeypatch.setattr(
|
||||
stage_engine, "QG_CHECKS",
|
||||
{**stage_engine.QG_CHECKS,
|
||||
"check_staging_status": _fail("Staging status: FAILED")},
|
||||
)
|
||||
# Guard: a failed staging run must not trigger any self-deploy logic.
|
||||
initiate = MagicMock()
|
||||
monkeypatch.setattr(stage_engine.self_deploy, "initiate_deploy", initiate)
|
||||
|
||||
task_id = _make_task("deploy-staging")
|
||||
res = advance_stage(
|
||||
task_id, "deploy-staging", "orchestrator", "ORCH-036",
|
||||
"feature/ORCH-036-x", finished_agent="deployer",
|
||||
)
|
||||
|
||||
assert res.advanced is False
|
||||
assert res.rolled_back_to == "development"
|
||||
assert _stage(task_id) == "development" # NEVER reached deploy
|
||||
initiate.assert_not_called()
|
||||
assert not self_deploy.has_marker("orchestrator", "ORCH-036", self_deploy.APPROVE_REQUESTED)
|
||||
Reference in New Issue
Block a user