Merge pull request 'ORCH-053: sweeper потерянных webhook (реконсиляция застрявших стадий)' (#56) from feature/ORCH-053-sweeper-webhook-stuck-task into main
This commit was merged in pull request #56.
This commit is contained in:
@@ -11,6 +11,7 @@
|
||||
- **Quality Gates** (`src/qg/checks.py`) — проверки выхода со стадии, реестр `QG_CHECKS`.
|
||||
- **Agent Launcher** (`src/agents/launcher.py`) — запуск Claude CLI агентов в изолированном git worktree, мониторинг, auto-advance.
|
||||
- **Queue** (`src/queue_worker.py`, ORCH-1) — персистентная очередь задач (SQLite `jobs`), atomic claim, max_concurrency, ретраи, restart-safe.
|
||||
- **Reconciler** (`src/reconciler.py`, ORCH-053 — реализовано, [adr-0007](adr/adr-0007-reconciler.md)) — фоновый daemon-поток (паттерн `queue_worker`), стартует/останавливается в `main.lifespan` (после `worker.start()` / перед `worker.stop()`). Реконсилирует рассинхрон «источник истины ≠ стадия задачи» при потерянном webhook. F-1 gate-side (продвигает застрявшую стадию по локальной БД через штатный `advance_stage(..., finished_agent=None)`), F-2 plane-side (опрос Plane API → `handle_*` из `plane.py`), F-3 (БД-fallback `sha→branch` в `handle_ci_status`). Источник истины — гейт/Plane, не событие; идемпотентность (active-job guard + atomic-claim + grace); kill-switch `ORCH_RECONCILE_ENABLED`. `analysis` F-1 не трогает (человеческий гейт). Наблюдаемость — блок `reconcile` в `GET /queue`.
|
||||
- **Project Registry** (`src/projects.py`, ORCH-6) — Plane project id → repo + prefix; фильтрация вебхуков по проекту.
|
||||
- **Plane Sync** (`src/plane_sync.py`) — синхронизация статусов/комментариев в Plane.
|
||||
|
||||
@@ -52,6 +53,35 @@ created → analysis → architecture → development → review → testing →
|
||||
|
||||
Подробнее: [adr-0006](adr/adr-0006-merge-gate.md), детально — `docs/work-items/ORCH-043/06-adr/ADR-001-merge-gate.md`.
|
||||
|
||||
### Reconciler: реконсиляция потерянных webhook (ORCH-053 — реализовано)
|
||||
Конвейер продвигается только входящими webhook; потерянное событие (502 на ребилде,
|
||||
нет ретраев у Plane/Gitea, неразрезолвленный `sha→branch`) → задача застревает молча
|
||||
(инцидент ORCH-044). Фоновый поток `reconciler` периодически (`reconcile_interval_s`)
|
||||
находит застрявшие задачи и доигрывает пропущенный переход **через те же штатные
|
||||
гейты/обработчики**, что и webhook:
|
||||
- **F-1 gate-side:** для задач со `stage∉{done}`, без активного job и
|
||||
`age(updated_at) ≥ grace_for_stage(stage)` — read-only пред-оценка канонического QG;
|
||||
зелёный → `stage_engine.advance_stage(..., finished_agent=None)`; красный →
|
||||
тишина (спам нотификаций структурно невозможен). `analysis` не реконсилируется.
|
||||
- **F-2 plane-side:** опрос Plane API per-project → `handle_status_start` /
|
||||
`handle_verdict` из `webhooks/plane.py` (логика не дублируется).
|
||||
- **F-3:** усиление `sha→branch` в `handle_ci_status` (БД-fallback по единственной
|
||||
development-задаче repo; неоднозначность → не резолвим).
|
||||
- **F-4 observability:** при разблокировке — лог-строка `reconciler: <wi> <stage>
|
||||
разблокирована (потерян webhook)` + Telegram (`reconcile_notify_unblock`); снимок
|
||||
состояния в `GET /queue` (блок `reconcile`).
|
||||
|
||||
Реализация: `src/reconciler.py` (daemon-поток по образцу `queue_worker`), стартует в
|
||||
`main.lifespan` **после** `worker.start()`, останавливается в `finally` **перед**
|
||||
`worker.stop()`.
|
||||
|
||||
Инварианты: источник истины — гейт/Plane, не событие; идемпотентность (active-job
|
||||
guard + atomic-claim на создании под process-wide Lock + grace + `max_concurrency=1`);
|
||||
never-raise на единицу работы; тишина при синхронности; restart-safe; kill-switch
|
||||
`ORCH_RECONCILE_ENABLED` (+ `ORCH_RECONCILE_PLANE_ENABLED` гасит только F-2). Схема БД
|
||||
и реестры (`STAGE_TRANSITIONS`/`QG_CHECKS`) не меняются. Подробнее:
|
||||
[adr-0007](adr/adr-0007-reconciler.md), детально — `docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md`.
|
||||
|
||||
## Откаты
|
||||
- Reviewer REQUEST_CHANGES → откат на `development` + retry (`MAX_DEVELOPER_RETRIES = 3`).
|
||||
- Tester `check_tests_passed` FAIL → откат на `development` + retry.
|
||||
@@ -95,7 +125,7 @@ created → analysis → architecture → development → review → testing →
|
||||
|--------|------|----------|
|
||||
| GET | `/health` | health check |
|
||||
| GET | `/status` | активные задачи (stage != done) |
|
||||
| GET | `/queue` | очередь: counts + max_concurrency + последние jobs |
|
||||
| GET | `/queue` | очередь: counts + max_concurrency + resilience + reconcile (ORCH-053) + последние jobs |
|
||||
| POST | `/webhook/plane` | Plane webhook |
|
||||
| POST | `/webhook/gitea` | Gitea webhook (push, PR, CI status) |
|
||||
|
||||
@@ -109,4 +139,4 @@ created → analysis → architecture → development → review → testing →
|
||||
Схема БД, потоки данных, resilience-слой, детали Dockerfile — [internals.md](internals.md).
|
||||
|
||||
---
|
||||
*Актуально на 2026-06-06. Обновлять при изменении src/stages.py, src/qg/checks.py, src/main.py. ORCH-043: merge-gate — design (см. adr-0006), реализация в ветке feature/ORCH-043.*
|
||||
*Актуально на 2026-06-06. Обновлять при изменении src/stages.py, src/qg/checks.py, src/main.py. ORCH-043: merge-gate — design (см. adr-0006), реализация в ветке feature/ORCH-043. ORCH-053: reconciler — реализовано (см. adr-0007, src/reconciler.py).*
|
||||
|
||||
@@ -11,6 +11,7 @@ Per-work-item решения живут в `docs/work-items/<id>/06-adr/ADR-NNN-
|
||||
| adr-0004 | Поллинг с ретраем в check_ci_green (фикс CI-race) | accepted | 2026-06-05 | ORCH-045 |
|
||||
| adr-0005 | Контейнеры бегут под uid:gid хоста (1000:1000) | accepted | 2026-06-06 | ORCH-040 |
|
||||
| adr-0006 | Merge-gate (догон main + re-test + сериализация слияний) | proposed | 2026-06-06 | ORCH-043 |
|
||||
| adr-0007 | Reconciler застрявших стадий (sweeper потерянных webhook) | accepted | 2026-06-06 | ORCH-053 |
|
||||
|
||||
## Формат
|
||||
**Контекст → Решение → Альтернативы → Последствия → Связи.** Статус: proposed / accepted / superseded.
|
||||
|
||||
69
docs/architecture/adr/adr-0007-reconciler.md
Normal file
69
docs/architecture/adr/adr-0007-reconciler.md
Normal file
@@ -0,0 +1,69 @@
|
||||
# adr-0007: Reconciler застрявших стадий (sweeper потерянных webhook)
|
||||
|
||||
- **Статус:** accepted (реализовано в `src/reconciler.py`)
|
||||
- **Дата:** 2026-06-06
|
||||
- **Задача:** ORCH-053
|
||||
- **Детальный ADR:** `docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md`
|
||||
|
||||
## Контекст
|
||||
Конвейер продвигается **только** входящими webhook (Plane status / Gitea CI/PR).
|
||||
Потерянное событие (502 на ребилде, отсутствие ретраев у Plane/Gitea,
|
||||
неразрезолвленный `sha→branch`) → источник истины изменился, а стадия задачи —
|
||||
нет; задача застревает молча (инцидент ORCH-044). Существующий resilience
|
||||
(`requeue_running_jobs`, orphan-recovery, events de-dup ORCH-5, `ci_poll`
|
||||
ORCH-045) работает на уровне jobs/agent_runs и **не реконсилирует**
|
||||
рассинхрон «источник истины ≠ стадия задачи».
|
||||
|
||||
## Решение
|
||||
Фоновый daemon-поток `src/reconciler.py` (паттерн `queue_worker`, module-singleton,
|
||||
`threading.Event`), стартует в `main.lifespan` после `worker.start()`, стоп в
|
||||
`finally` перед `worker.stop()`. Две взаимодополняющие ветки на каждом тике
|
||||
(`reconcile_interval_s`, дефолт 120с):
|
||||
|
||||
- **F-1 gate-side** (локальная БД): для каждой `task` где `stage∉{done}`, **нет**
|
||||
активного job, `age(updated_at) ≥ grace_for_stage(stage)` — read-only пред-оценка
|
||||
канонического QG стадии; если зелёный → продвижение **штатным**
|
||||
`stage_engine.advance_stage(..., finished_agent=None)` (тот же путь, что у Plane
|
||||
Approved-webhook). Красный → **тишина** (нет advance, нет нотификаций — спам
|
||||
структурно невозможен). `analysis` F-1 **не** реконсилирует (человеческий гейт →
|
||||
отдан F-2).
|
||||
- **F-2 plane-side** (опрос Plane API per-project через `list_issues_by_state`):
|
||||
`In Progress`+нет задачи → `handle_status_start`; `Approved`+не сдвинута →
|
||||
`handle_verdict(approved=True)`; `Rejected`+не откатана →
|
||||
`handle_verdict(approved=False)`. Обработчики `webhooks/plane.py`
|
||||
**переиспользуются** (async → `asyncio.run` из sync-потока), логика не дублируется.
|
||||
- **F-3:** усиление `sha→branch` в `handle_ci_status` (БД-fallback по
|
||||
`repo`+`stage='development'`, видимость на INFO) — defense-in-depth.
|
||||
|
||||
**Инварианты:** источник истины — гейт/Plane, не событие; продвижение только через
|
||||
`advance_stage`; идемпотентность (active-job guard + atomic-claim на создании +
|
||||
grace + `max_concurrency=1`); never-raise на единицу работы; тишина при
|
||||
синхронности; restart-safe; kill-switch.
|
||||
|
||||
## Альтернативы
|
||||
- **Флаг подавления нотификаций в `advance_stage`** — отклонён: меняет общий
|
||||
критический путь. Вместо этого «не вызывать advance_stage на красном гейте».
|
||||
- **UNIQUE-индекс `tasks.plane_id`** для анти-дубля — отклонён как primary: риск
|
||||
падения миграции на проде; выбран process-wide `threading.Lock` (single-process
|
||||
топология). Индекс — задокументированное будущее упрочнение для multi-process.
|
||||
- **Отдельная стадия/QG реконсиляции** — вне объёма; нарушает «источник истины —
|
||||
существующий гейт».
|
||||
- **Реконсиляция analysis по локальным артефактам** — отклонена: автопродвижение
|
||||
неодобренного человеком BRD.
|
||||
|
||||
## Последствия
|
||||
- Потерянный webhook ≠ молча застрявшая задача; ручной heartbeat-watchdog не нужен;
|
||||
резервная сетка к ORCH-51 (буфер недоставленных) и ORCH-36 (deploy).
|
||||
- Плата: фоновый поток + опрос Plane API (митигируется интервалом/фильтром/
|
||||
per-project); двойная оценка гейта на зелёной задаче; анти-дубль опирается на
|
||||
single-process-допущение (как и очередь ORCH-1).
|
||||
- Self-hosting: `reconcile_enabled` — обязательный kill-switch; поэтапный раскат
|
||||
(`reconcile_plane_enabled` гасит только F-2); reconciler не рестартит/не роняет
|
||||
прод-контейнер. БД-схема и реестры (`STAGE_TRANSITIONS`/`QG_CHECKS`) не меняются.
|
||||
|
||||
## Связи
|
||||
adr-0002 (очередь / `available_at`, single-process-singleton), adr-0003 (условный
|
||||
гейт — образец условности/флагов раската), adr-0006 (merge-gate как под-гейт ребра
|
||||
внутри `advance_stage`), adr-0001 (реестр проектов для F-2 per-project), ORCH-5
|
||||
(events de-dup — защита от дублей; reconciler — обратная защита от потерь),
|
||||
ORCH-045 (`ci_poll`).
|
||||
@@ -75,6 +75,12 @@ ADR `docs/work-items/ORCH-040/06-adr/ADR-001-run-agents-as-host-uid.md` и гл
|
||||
| `ORCH_AGENT_EFFORT_DEFAULT` | режим работы `--effort` по умолчанию (ORCH-41): low\|medium\|high\|xhigh\|max; дефолт `high` |
|
||||
| `ORCH_AGENT_EFFORT_<AGENT>` | per-agent effort; дефолт: думающие → high, tester/deployer → medium |
|
||||
| `ORCH_AGENT_FALLBACK_MODEL` | опц. фолбэк-модель при overloaded (`--fallback-model`); пусто → без флага |
|
||||
| `ORCH_RECONCILE_ENABLED` | kill-switch sweeper потерянных webhook (ORCH-053); дефолт `true`. **При инциденте/раскатке** — `false` глушит весь фоновый reconciler |
|
||||
| `ORCH_RECONCILE_PLANE_ENABLED` | отдельный флаг F-2 (опрос Plane API); `false` гасит только plane-ветку, F-1 продолжает работать; дефолт `true` |
|
||||
| `ORCH_RECONCILE_INTERVAL_S` | период фонового прохода reconciler, сек; дефолт `120` |
|
||||
| `ORCH_RECONCILE_GRACE_DEFAULT_S` | порог «застряла» по `tasks.updated_at`, сек; дефолт `600` |
|
||||
| `ORCH_RECONCILE_GRACE_OVERRIDES_JSON` | per-stage пороги, напр. `{"development":300}`; невалидный JSON → дефолт |
|
||||
| `ORCH_RECONCILE_NOTIFY_UNBLOCK` | слать Telegram при разблокировке застрявшей задачи; дефолт `true` |
|
||||
| `DEPLOY_SSH_USER` / `_HOST` / `DEPLOY_HOOK_SCRIPT` | параметры деплой-хука |
|
||||
|
||||
**Секреты — только в `.env` / `.env.staging` на хосте, в гит НЕ коммитятся.** Канон — `.env.example`, `.env.staging.example`.
|
||||
|
||||
7
docs/work-items/ORCH-053/00-business-request.md
Normal file
7
docs/work-items/ORCH-053/00-business-request.md
Normal file
@@ -0,0 +1,7 @@
|
||||
# Business Request: Sweeper потерянных webhook: реконсиляция застрявших стадий (stuck-task)
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
|
||||
## Description
|
||||
|
||||
TBD
|
||||
128
docs/work-items/ORCH-053/01-brd.md
Normal file
128
docs/work-items/ORCH-053/01-brd.md
Normal file
@@ -0,0 +1,128 @@
|
||||
# BRD — ORCH-053: Sweeper потерянных webhook (реконсиляция застрявших стадий)
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
Стадия: analysis → (architecture)
|
||||
Тип: надёжность конвейера (проектирование + реализация). Self-hosting (ORCH).
|
||||
|
||||
## 1. Проблема (бизнес-контекст)
|
||||
|
||||
Продвижение задач между стадиями конвейера завязано **исключительно** на входящие
|
||||
webhook-события:
|
||||
- **Plane** (`work_item.updated` → статус In Progress / Approved / Rejected) — единственный
|
||||
триггер старта задачи, advance и rollback (`src/webhooks/plane.py`).
|
||||
- **Gitea** (CI-status `success`/`failure`, push, PR reviewed/merged) — триггер
|
||||
development→review, architecture→development, review→testing, deploy→done
|
||||
(`src/webhooks/gitea.py`).
|
||||
|
||||
Если входящее событие **потеряно** (502 на падающем/ребилдящемся инстансе, Plane/Gitea
|
||||
не повторяют доставку, сетевой сбой, sha→branch не разрезолвился, вебхук был временно
|
||||
выключен) — статус в источнике истины (Plane / зелёный CI) уже изменился, **а задача в
|
||||
оркестраторе не сдвинулась**. Задача висит молча, без какого-либо механизма восстановления.
|
||||
|
||||
**Живой инцидент (ORCH-044, 06.06):** dev-агент отработал (exit 0, CI позеленел), но
|
||||
Gitea webhook о CI-success не продвинул задачу (не дошёл / не сматчился sha→branch).
|
||||
Задача висела бы на `development` молча навсегда — спасли только ручным дёрганьем гейта
|
||||
`check_ci_green`. Это **системная дыра**, а не разовый сбой; сейчас её ловит ручной
|
||||
heartbeat-watchdog Стрима (костыль).
|
||||
|
||||
### Что уже есть и почему недостаточно
|
||||
| Механизм | Что покрывает | Почему не закрывает дыру |
|
||||
|----------|---------------|--------------------------|
|
||||
| `requeue_running_jobs()` (startup) | зависшие **jobs** при рестарте | про jobs, не про застрявший **stage-переход** |
|
||||
| orphan-recovery (`main.py`) | `agent_runs` без `finished_at` | job-уровень, не stage |
|
||||
| ORCH-5 events de-dup (`delivery_id`) | защита от **дублей** webhook | обратной защиты от **потери** нет |
|
||||
| ORCH-045 `ci_poll` в `check_ci_green` | поллит CI 12×10с | только **если гейт уже вызван** webhook'ом; не пришёл webhook → гейт не вызывается |
|
||||
|
||||
Общий принцип всех существующих механизмов — restart-safe resilience на уровне jobs.
|
||||
**Нет ни одного механизма, реконсилирующего рассинхрон «источник истины ≠ стадия задачи».**
|
||||
|
||||
## 2. Цель
|
||||
|
||||
Задача **не должна застревать молча** из-за потерянного входящего события. Ввести
|
||||
фоновый периодический **sweeper / reconciler**, который сам находит «зависшие» задачи
|
||||
и доигрывает пропущенный переход — через **те же штатные гейты и обработчики**, что и
|
||||
webhook (никакой параллельной логики продвижения). Убрать необходимость в ручном
|
||||
heartbeat-watchdog.
|
||||
|
||||
## 3. Заинтересованные стороны
|
||||
- **Owner / Стрим (Слава)** — перестаёт ловить зависания вручную.
|
||||
- **Все проекты на инстансе** (enduro-trails + orchestrator) — конвейер не встаёт молча.
|
||||
- **Self-hosting (ORCH)** — особенно при ребилде прода (ORCH-51): вебхуки, прилетевшие
|
||||
на падающий инстанс, подбираются реконсиляцией после старта.
|
||||
|
||||
## 4. Объём (Scope)
|
||||
|
||||
В объёме — **две взаимодополняющие ветки реконсиляции** (обе обязательны):
|
||||
|
||||
### F-1. Gate-side sweeper (реконсиляция застрявшей стадии по локальной БД)
|
||||
Периодический проход по таблице `tasks`: найти задачи, у которых
|
||||
(а) `stage != done`, (б) нет активных job'ов в очереди, (в) с момента `updated_at`
|
||||
прошло больше **per-stage порога** → пере-проверить QG текущей стадии и, если passed —
|
||||
продвинуть **штатным путём** (`stage_engine.advance_stage(..., finished_agent=None)`,
|
||||
тот же путь, что использует webhook). Закрывает потерю Gitea CI/PR-вебхуков (ORCH-044).
|
||||
|
||||
### F-2. Plane-side reconciler (реконсиляция потерянного Plane status-webhook)
|
||||
Периодический опрос Plane API по проектам реестра (`projects.py`): issues в статусах,
|
||||
требующих действия (In Progress / Approved / Rejected). Сверить с локальной `tasks` и
|
||||
доиграть **через существующие обработчики `webhooks/plane.py`**:
|
||||
- **In Progress + нет задачи в БД** → создать+запустить (`handle_status_start`/`start_pipeline`);
|
||||
- **Approved + стадия не сдвинута** → advance (`handle_verdict(approved=True)`);
|
||||
- **Rejected + не откатана** → rollback (`handle_verdict(approved=False)`).
|
||||
|
||||
### F-3. Усиление sha→branch резолва в Gitea-вебхуке
|
||||
В `handle_ci_status` добавить надёжный fallback (поиск task по БД), чтобы исходный
|
||||
webhook реже терялся из-за неразрезолвленного branch. Sweeper работает от задачи
|
||||
(repo+branch известны из БД) и обходит эту хрупкость по определению.
|
||||
|
||||
### F-4. Наблюдаемость
|
||||
Лог (и опц. Telegram) каждый раз, когда sweeper **разблокировал** застрявшую задачу —
|
||||
чтобы видеть частоту срабатывания дыры (метрика потерянных webhook). Опц. вывод
|
||||
счётчика в `/queue` или `/reconcile`. Не спамить, когда всё синхронно.
|
||||
|
||||
### Вне объёма
|
||||
- Буфер недоставленных webhook (это ORCH-51; sweeper — резервная сетка к нему).
|
||||
- Изменение состава стадий/гейтов (`STAGE_TRANSITIONS`, `QG_CHECKS`).
|
||||
- Изменение логики самих гейтов и обработчиков (только переиспользование).
|
||||
- Новый исполняемый деплой (ORCH-36).
|
||||
|
||||
## 5. Ключевые требования (бизнес-уровень)
|
||||
|
||||
1. **Источник истины — гейт/Plane, а не событие.** Sweeper дёргает ровно те же функции
|
||||
продвижения, что и webhook. Параллельной логики продвижения быть не должно.
|
||||
2. **Идемпотентность (критично).** Задержавшийся или дублированный webhook + sweeper
|
||||
НЕ создают двойную задачу / двойной запуск / двойной advance. Тот же guard, что у
|
||||
webhook: нет активного job + стадия совпадает + atomic claim как в `queue_worker`.
|
||||
3. **Безопасность активной работы.** Sweeper НЕ трогает задачи с активными
|
||||
(`queued`/`running`) job'ами — они легитимно в работе, не потеряны.
|
||||
4. **Per-stage grace.** Разные стадии имеют разное нормальное время (analysis ~8–15 мин
|
||||
vs deploy). Порог застревания настраивается, чтобы не дёргать гейт у задачи, где агент
|
||||
законно работает.
|
||||
5. **Restart-safe.** Sweeper — фоновый поток, стартует с приложением, переживает рестарт
|
||||
(как `queue_worker`). Без потери состояния.
|
||||
6. **Self-hosting safety.** Sweeper не должен ронять/рестартить прод-контейнер; kill-switch
|
||||
в конфиге для поэтапного раската и аварийного отключения.
|
||||
7. **Без шума.** Когда всё синхронно — никаких действий и нотификаций.
|
||||
8. **Документация = golden source.** README/architecture, ADR, CHANGELOG обновляются в
|
||||
том же PR.
|
||||
|
||||
## 6. Эффект
|
||||
- Потерянный webhook больше не = молча застрявшая задача.
|
||||
- Ручной heartbeat-watchdog Стрима больше не нужен для ловли зависаний (AC-5 в эпике).
|
||||
- Резервная сетка к ORCH-51 при ребилде прода.
|
||||
|
||||
## 7. Связи
|
||||
- **Дополняет ORCH-51** (потеря webhook при рестарте — буфер; sweeper — реконсиляция).
|
||||
- **Дополняет ORCH-36** (если deploy-webhook потеряется — sweeper добьёт deploy→done).
|
||||
- **ORCH-1b** — та же философия resilience: транзиентный сбой не убивает задачу.
|
||||
- Эпик: звено **ORCH-54** (автономное внедрение). Параллельна ORCH-36 (разные файлы),
|
||||
но `max_concurrency=1` → встанет в очередь.
|
||||
|
||||
## 8. Риски (кратко; подробно — 10-tech-risks архитектора)
|
||||
- **Гонка sweeper ↔ живой webhook** → двойной запуск. Митигируется atomic claim +
|
||||
active-job guard + grace-период (не конкурировать с задержавшимся webhook).
|
||||
- **Spam нотификаций** при персистентно красном гейте на каждом тике. Митигируется:
|
||||
действие/нотификация только на изменении состояния (advance), не на каждый тик.
|
||||
- **Нагрузка на Plane API** при опросе каждые N сек. Митигируется интервалом + фильтром
|
||||
по статусам + per-project.
|
||||
- **Self-hosting:** sweeper правит инструмент, обслуживающий и другие проекты. Kill-switch
|
||||
обязателен.
|
||||
170
docs/work-items/ORCH-053/02-trz.md
Normal file
170
docs/work-items/ORCH-053/02-trz.md
Normal file
@@ -0,0 +1,170 @@
|
||||
# ТЗ — ORCH-053: Sweeper потерянных webhook (реконсиляция застрявших стадий)
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
Базовая ветка: `feature/ORCH-053-sweeper-webhook-stuck-task`
|
||||
|
||||
> Это ТЗ фиксирует **конкретные изменения кода/конфига/доки**. Архитектурные развилки
|
||||
> (потокобезопасность, точная схема дампинга нотификаций, способ вызова async-обработчиков
|
||||
> из sync-потока) фиксирует архитектор в `06-adr/`. Если ТЗ окажется негодным — возврат в
|
||||
> Анализ (не комментировать задним числом).
|
||||
|
||||
## 0. Живая разведка ПЕРЕД реализацией (обязательна)
|
||||
Перед кодом разработчик обязан вживую проверить (как сейчас webhook продвигает стадию):
|
||||
- `src/webhooks/gitea.py::handle_ci_status` (success-ветка ~стр.199–217) и `handle_pr`;
|
||||
- `src/webhooks/plane.py::handle_issue_updated / handle_status_start / handle_verdict / start_pipeline`;
|
||||
- `src/stage_engine.py::advance_stage` (унифицированный путь, `finished_agent=None` = webhook-путь);
|
||||
- `src/queue_worker.py` (образец фонового daemon-потока + `threading.Event` + atomic claim);
|
||||
- `src/db.py::has_active_job_for_task / claim_next_job / update_task_stage` (`updated_at`).
|
||||
|
||||
## 1. Задействованные модули `src/`
|
||||
|
||||
| Модуль | Изменение |
|
||||
|--------|-----------|
|
||||
| `src/reconciler.py` | **НОВЫЙ.** Фоновый sweeper/reconciler (класс + module-singleton, паттерн `queue_worker`). Обе ветки F-1 (gate-side) и F-2 (plane-side). |
|
||||
| `src/config.py` | Новые настройки `reconcile_*` (интервал, kill-switch, per-stage grace, plane-poll flag). |
|
||||
| `src/main.py` | Старт/стоп reconciler в `lifespan` (после `worker.start()` / перед `worker.stop()`). |
|
||||
| `src/stage_engine.py` | Тонкий хелпер `advance_if_gate_passed(...)` (или `reconcile_advance`) — обёртка над `advance_stage(..., finished_agent=None)`, **подавляющая повторный спам нотификаций** при провале гейта (продвижение — переиспользуется как есть). |
|
||||
| `src/plane_sync.py` | НОВЫЙ хелпер `list_issues_by_state(project_id, state_uuids) -> list[dict]` (GET issues с пагинацией, фильтр по state). Используется F-2. |
|
||||
| `src/webhooks/gitea.py` | F-3: усилить sha→branch резолв в `handle_ci_status` (fallback на БД-поиск task), логировать неразрезолв на уровне INFO (видимость). |
|
||||
| `src/webhooks/plane.py` | F-2 переиспользует `handle_issue_updated` / `handle_status_start` / `handle_verdict` **без дублирования** логики (возможно, лёгкий рефактор для вызова из reconciler). |
|
||||
| `src/main.py` (API) | F-4 (опц.): расширить `/queue` блоком reconcile-метрик или добавить `GET /reconcile`. |
|
||||
|
||||
## 2. F-1 — Gate-side sweeper (реконсиляция по локальной БД)
|
||||
|
||||
### Алгоритм одного прохода (`reconcile_gate_once()`)
|
||||
```
|
||||
для каждой task где stage NOT IN ('done',) :
|
||||
если has_active_job_for_task(task.id): continue # в работе — не трогаем
|
||||
если get_qg_for_stage(task.stage) is None: continue # created/done — нет гейта
|
||||
grace = grace_for_stage(task.stage)
|
||||
если age(task.updated_at) < grace: continue # ещё не «застряла»
|
||||
# источник истины — гейт; путь продвижения — штатный
|
||||
advance_if_gate_passed(task.id, task.stage, task.repo, task.work_item_id, task.branch)
|
||||
```
|
||||
- **Продвижение** идёт через `stage_engine.advance_stage(task_id, stage, repo, work_item_id,
|
||||
branch, finished_agent=None)` — это **тот же** путь, которым пользуется Plane Approved-webhook
|
||||
(`webhooks/plane._try_advance_stage`). Никакой параллельной логики advance.
|
||||
- Для `development` → `advance_stage` прогонит `check_ci_green`; passed → `review` + enqueue
|
||||
`reviewer`. Для `review` → `check_reviewer_verdict` (канонический гейт стадии из
|
||||
`STAGE_TRANSITIONS`, читает `verdict:` из `12-review.md`). Для `testing` → `check_tests_passed`.
|
||||
Для `deploy` → `check_deploy_status`. Для `deploy-staging` → `check_staging_status`
|
||||
(+ merge-gate sub-gate отрабатывает внутри `advance_stage` как обычно).
|
||||
- **Стадия `analysis`** (gQG `check_analysis_approved`): это **человеческий** гейт. В
|
||||
`advance_stage` при `finished_agent=None` он трактуется как `approved-via-status` и
|
||||
продвинет задачу — чего при потере именно **Approved**-webhka мы и хотим **только** если
|
||||
Plane реально в статусе Approved. Поэтому **F-1 НЕ реконсилирует `analysis`** (advance
|
||||
для analysis отдаётся F-2, которая сверяется с реальным статусом Plane). Архитектор
|
||||
фиксирует это решение в ADR (защита от ложного продвижения неодобренного BRD).
|
||||
|
||||
### Подавление спама нотификаций (`advance_if_gate_passed`)
|
||||
- Если гейт **passed** → `advance_stage` продвигает и шлёт штатные нотификации advance.
|
||||
- Если гейт **failed** → НЕ повторять `notify_qg_failure`/`plane_notify_qg` на каждом тике.
|
||||
Хелпер вызывает `advance_stage` так, чтобы при провале была **тишина** (лог `INFO`/`DEBUG`),
|
||||
либо реализует продвижение, минуя ветку нотификации провала. Точную форму (флаг в
|
||||
`advance_stage` vs отдельный путь оценки гейта) выбирает архитектор; контракт:
|
||||
**на застрявшей-но-красной задаче sweeper не спамит**.
|
||||
|
||||
### Защита от гонки
|
||||
- `has_active_job_for_task` + `update_task_stage` обновляет `updated_at` → следующий тик
|
||||
увидит свежий `updated_at` и не сработает повторно.
|
||||
- Если в момент тика прилетел живой webhook и поставил job — sweeper увидит активный job и
|
||||
пропустит задачу.
|
||||
- `max_concurrency=1`: новый enqueued job встанет в общую очередь (без двойного запуска).
|
||||
|
||||
## 3. F-2 — Plane-side reconciler (опрос Plane API)
|
||||
|
||||
### Алгоритм одного прохода (`reconcile_plane_once()`)
|
||||
```
|
||||
для каждого проекта p в projects.PROJECTS:
|
||||
states = get_project_states(p.plane_project_id)
|
||||
for issue in list_issues_by_state(p.plane_project_id,
|
||||
[states['in_progress'], states['approved'], states['rejected']]):
|
||||
task = get_task_by_plane_id(issue.id)
|
||||
new_state = issue.state
|
||||
# идемпотентность: пропускаем, если есть активный job (живой webhook вот-вот придёт/в работе)
|
||||
если task and has_active_job_for_task(task.id): continue
|
||||
# доигрываем потерянный переход ЧЕРЕЗ существующие обработчики plane.py
|
||||
if new_state == in_progress and task is None: -> handle_status_start(issue_data, p.plane_project_id)
|
||||
elif new_state == approved and task and stage не сдвинут: -> handle_verdict(issue_data, ..., approved=True)
|
||||
elif new_state == rejected and task and не откатана: -> handle_verdict(issue_data, ..., approved=False)
|
||||
else: continue # всё синхронно — тишина
|
||||
```
|
||||
- **Переиспользовать** `handle_issue_updated`/`handle_status_start`/`handle_verdict` из
|
||||
`webhooks/plane.py`. Они `async` → reconciler (sync-поток) вызывает их через
|
||||
`asyncio.run(...)` либо собственный event loop. Способ — на усмотрение архитектора;
|
||||
**дублировать логику запрещено**.
|
||||
- `issue_data` собирается в форму, ожидаемую обработчиками (`{"id", "state": {"id":...},
|
||||
"project", "name", "description_stripped"}`). Недостающие поля (name/description)
|
||||
обработчики сами дотягивают через `fetch_issue_fields` (как сейчас для status-only вебхука).
|
||||
- **Grace для F-2:** не реагировать на issue, чей статус сменился совсем недавно (вебхук мог
|
||||
просто задержаться). Источник «давности» — поле времени из Plane (`updated_at`) и/или
|
||||
локальный grace по `tasks.updated_at`. Архитектор фиксирует точный критерий «потерян, а не
|
||||
задержан».
|
||||
- **Идемпотентность создания (In Progress без задачи):** `start_pipeline` уже защищён
|
||||
(`handle_status_start` создаёт только если `get_task_by_plane_id` пуст). Гонка sweeper↔webhook
|
||||
на создании: оба пройдут проверку «нет задачи» одновременно → возможен дубль. Требование:
|
||||
использовать тот же claim-механизм / уникальность (как `ensure_unique_work_item_id` +
|
||||
проверка существования под защитой). Архитектор обязан описать atomic-claim на создании в ADR.
|
||||
|
||||
### `list_issues_by_state` (новый в `plane_sync.py`)
|
||||
- `GET {PLANE_BASE}/workspaces/{WORKSPACE}/projects/{pid}/issues/` с фильтром по state
|
||||
(через query-параметр Plane, либо постфильтрация результата по `issue.state`).
|
||||
- Пагинация (`results` + cursor/next) — обойти все страницы.
|
||||
- Never-raise: при ошибке API/сети → `[]` + лог `warning` (Plane outage деградирует мягко,
|
||||
не роняет тик).
|
||||
|
||||
## 4. F-3 — Усиление sha→branch резолва (`webhooks/gitea.py::handle_ci_status`)
|
||||
- Текущая цепочка: `branches[0].name` → `git branch -r --contains <sha>`. Добавить
|
||||
fallback **на БД**: если branch не определён, найти task по `repo` среди активных
|
||||
(`stage='development'`) и, при однозначности, использовать её branch; иначе — оставить
|
||||
неразрезолвленным.
|
||||
- Заменить `logger.debug("could not determine branch...")` на `logger.info(...)` (видимость
|
||||
потери). Sweeper (F-1) всё равно подберёт такую задачу — это defense-in-depth, не критпуть.
|
||||
- **Не менять** success/failure-семантику гейта.
|
||||
|
||||
## 5. Конфигурация (`src/config.py`, env-prefix `ORCH_`)
|
||||
|
||||
| Поле | Дефолт | Назначение |
|
||||
|------|--------|-----------|
|
||||
| `reconcile_enabled` | `True` | глобальный kill-switch sweeper'а (self-hosting safety, поэтапный раскат). |
|
||||
| `reconcile_interval_s` | `120` | период фонового прохода (сек). |
|
||||
| `reconcile_plane_enabled` | `True` | отдельный флаг для F-2 (опрос Plane API), чтобы можно было гасить только plane-ветку. |
|
||||
| `reconcile_grace_default_s` | `600` | дефолтный порог «застревания» по `tasks.updated_at`. |
|
||||
| `reconcile_grace_overrides_json` | `""` | JSON-объект per-stage порогов, напр. `{"analysis": 1800, "development": 300, "deploy": 900}`. Невалидный JSON → дефолт (как `agent_timeout_overrides_json`). |
|
||||
| `reconcile_notify_unblock` | `True` | слать Telegram при разблокировке (F-4). |
|
||||
|
||||
`grace_for_stage(stage)` = override из JSON, иначе `reconcile_grace_default_s`.
|
||||
|
||||
## 6. БД
|
||||
- **Изменения схемы НЕ требуются** (предпочтительно, по образцу merge-gate ORCH-043).
|
||||
Стуковость определяется по существующим `tasks.updated_at`, `tasks.stage` и таблице `jobs`
|
||||
(`has_active_job_for_task`). `update_task_stage` уже обновляет `updated_at`.
|
||||
- Если архитектор сочтёт необходимым анти-дребезг (`tasks.last_reconcile_at`) — допускается
|
||||
идемпотентная миграция через `_ensure_column` (как остальные ALTER в `db.py`). По умолчанию
|
||||
— **без новых колонок**.
|
||||
|
||||
## 7. API (опционально, F-4)
|
||||
- Расширить `GET /queue` блоком `"reconcile": {...}` (enabled, interval, last_run_ts,
|
||||
unblocked_total, last_unblocked) — по образцу `worker.status()`.
|
||||
- ИЛИ добавить `GET /reconcile` с теми же метриками. Выбор — архитектор. Не обязательно для
|
||||
прохождения AC, но крайне желательно для наблюдаемости.
|
||||
|
||||
## 8. Новые QG checks
|
||||
- **Нет.** Sweeper переиспускает существующие гейты из `QG_CHECKS` через `advance_stage`.
|
||||
Реестр `QG_CHECKS` и `STAGE_TRANSITIONS` не меняются.
|
||||
|
||||
## 9. Артефакты pipeline / документация (обязательно в ЭТОМ PR)
|
||||
- `docs/architecture/README.md` — раздел про reconciler (компонент + место в resilience-слое).
|
||||
- `docs/work-items/ORCH-053/06-adr/ADR-001-*.md` — архитектурное решение (потоки, гонки,
|
||||
async-вызов обработчиков, подавление спама, grace-критерий, atomic-claim на создании).
|
||||
- `CHANGELOG.md` — запись `feat: ORCH-053 stuck-task reconciler`.
|
||||
- При желании архитектора — global ADR в `docs/architecture/adr/` (сквозной resilience).
|
||||
- `docs/operations/INFRA.md` — упомянуть kill-switch `ORCH_RECONCILE_ENABLED` (self-hosting).
|
||||
|
||||
## 10. Нефункциональные требования
|
||||
- **Never-raise в тике:** исключение в обработке одной задачи/issue не должно ронять весь
|
||||
проход (изолировать try/except на единицу работы, как `queue_worker._drain_once`).
|
||||
- **Идемпотентность** — см. §2/§3.
|
||||
- **Restart-safe** — daemon-поток + `threading.Event`, чистый `stop()` в `lifespan.finally`.
|
||||
- **Тишина при синхронности** — нет действий → нет логов уровня INFO/нотификаций.
|
||||
- **Тесты** — см. `04-test-plan.yaml` (моки Plane/Gitea API и QG, без реальной сети).
|
||||
116
docs/work-items/ORCH-053/03-acceptance-criteria.md
Normal file
116
docs/work-items/ORCH-053/03-acceptance-criteria.md
Normal file
@@ -0,0 +1,116 @@
|
||||
# Acceptance Criteria — ORCH-053
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
Формат: каждый критерий имеет явное условие PASS/FAIL. Критерий считается выполненным,
|
||||
только если соответствующие тесты из `04-test-plan.yaml` зелёные.
|
||||
|
||||
## AC-1 — Реконсиляция застрявшей стадии (gate-side, F-1)
|
||||
- **Дано:** task на стадии `development`, без активных job'ов, `updated_at` старше grace,
|
||||
гейт `check_ci_green` для её branch — зелёный (CI прошёл, но webhook потерян, как ORCH-044).
|
||||
- **Когда:** срабатывает фоновый проход `reconcile_gate_once()`.
|
||||
- **PASS:** задача продвинута `development → review`, заenqueuen `reviewer` (через
|
||||
`advance_stage(..., finished_agent=None)`), `tasks.updated_at` обновлён.
|
||||
- **FAIL:** задача осталась на `development`, либо продвижение пошло параллельной логикой
|
||||
(не через `advance_stage`).
|
||||
|
||||
## AC-2 — Источник истины — гейт, не событие
|
||||
- **PASS:** продвижение в F-1 выполняется исключительно вызовом
|
||||
`stage_engine.advance_stage(...)`; в `reconciler.py` НЕТ собственного
|
||||
`update_task_stage`+`enqueue_job` для advance стадии (только переиспользование).
|
||||
- **FAIL:** в reconciler продублирована логика advance/rollback.
|
||||
|
||||
## AC-3 — Идемпотентность: sweeper не трогает задачи с активным job
|
||||
- **Дано:** task с `queued` или `running` job (`has_active_job_for_task == True`).
|
||||
- **PASS:** sweeper пропускает задачу — ни advance, ни enqueue, ни нотификации.
|
||||
- **FAIL:** sweeper дёргает гейт / создаёт второй job для такой задачи.
|
||||
|
||||
## AC-4 — Идемпотентность: задержавшийся/дублированный webhook + sweeper не двоят
|
||||
- **Дано:** issue в Plane = In Progress, задержавшийся Plane-webhook ещё не обработан.
|
||||
- **Когда:** F-2 реконсилирует И затем (или одновременно) приходит реальный webhook.
|
||||
- **PASS:** создаётся **ровно одна** задача (один task row, один branch/worktree, один
|
||||
стартовый analyst-job). Повторный путь видит существующую задачу/активный job и не двоит.
|
||||
- **FAIL:** созданы две задачи / два стартовых job / два worktree на один `plane_id`.
|
||||
|
||||
## AC-5 — Per-stage grace соблюдается
|
||||
- **Дано:** task на стадии, чей `updated_at` свежее grace этой стадии (агент легитимно
|
||||
работает, напр. analysis 8 мин при grace 1800с).
|
||||
- **PASS:** sweeper НЕ трогает задачу (не дёргает гейт).
|
||||
- **PASS (граница):** как только `age(updated_at) >= grace_for_stage(stage)` и нет активного
|
||||
job — задача становится кандидатом.
|
||||
- **FAIL:** sweeper дёргает гейт у задачи в пределах grace.
|
||||
|
||||
## AC-6 — Plane In Progress без задачи → запуск (F-2)
|
||||
- **Дано:** issue в Plane = In Progress (статус сменён руками, webhook потерян), в `tasks`
|
||||
задачи нет, прошёл grace.
|
||||
- **PASS:** sweeper вызывает `handle_status_start`/`start_pipeline` → задача создана,
|
||||
заenqueuen analyst — как если бы пришёл webhook.
|
||||
- **FAIL:** задача не создана; либо создана дублирующей логикой, минуя `handle_status_start`.
|
||||
|
||||
## AC-7 — Plane Approved без advance → advance (F-2)
|
||||
- **Дано:** issue = Approved, task существует и стадия НЕ сдвинута, нет активного job, прошёл grace.
|
||||
- **PASS:** sweeper вызывает `handle_verdict(approved=True)` → штатный advance.
|
||||
- **FAIL:** нет advance, либо advance вне `handle_verdict`/`advance_stage`.
|
||||
|
||||
## AC-8 — Plane Rejected без rollback → rollback (F-2)
|
||||
- **Дано:** issue = Rejected, task существует и не откатана, нет активного job, прошёл grace.
|
||||
- **PASS:** sweeper вызывает `handle_verdict(approved=False)` → штатный rollback на предыдущую стадию.
|
||||
- **FAIL:** нет rollback, либо rollback вне штатного пути.
|
||||
|
||||
## AC-9 — Нет спама нотификаций на красном гейте
|
||||
- **Дано:** застрявшая задача, у которой гейт стабильно **красный** (напр. CI failure),
|
||||
нет активного job, прошёл grace.
|
||||
- **Когда:** sweeper проходит несколько тиков подряд.
|
||||
- **PASS:** `notify_qg_failure`/Telegram НЕ вызывается на каждом тике (≤1 раз / без
|
||||
повторов); задача не продвигается.
|
||||
- **FAIL:** на каждом тике летит нотификация о провале гейта.
|
||||
|
||||
## AC-10 — Тишина при синхронности
|
||||
- **Дано:** все задачи синхронны (нет застрявших; статусы Plane совпадают с локальными).
|
||||
- **PASS:** проход не выполняет действий, не пишет INFO-логов о разблокировке, не шлёт нотификаций.
|
||||
- **FAIL:** sweeper генерирует шум/действия при полностью синхронном состоянии.
|
||||
|
||||
## AC-11 — Restart-safe фоновый поток
|
||||
- **PASS:** reconciler стартует в `main.lifespan` (daemon-поток), корректно
|
||||
останавливается (`stop()`), переживает рестарт сервиса без потери (нет состояния в памяти,
|
||||
критичного для корректности; всё перечитывается из БД/Plane).
|
||||
- **FAIL:** reconciler не стартует автоматически, висит при shutdown, или дублирует действия
|
||||
после рестарта.
|
||||
|
||||
## AC-12 — Наблюдаемость разблокировки (F-4)
|
||||
- **Дано:** sweeper разблокировал застрявшую задачу.
|
||||
- **PASS:** в лог пишется явная строка вида
|
||||
`reconciler: <work_item_id> <stage> разблокирована (потерян webhook)`;
|
||||
при `reconcile_notify_unblock=True` — Telegram-уведомление.
|
||||
- **FAIL:** разблокировка происходит молча (невозможно измерить частоту дыры).
|
||||
|
||||
## AC-13 — Kill-switch
|
||||
- **Дано:** `reconcile_enabled=False` (env `ORCH_RECONCILE_ENABLED=false`).
|
||||
- **PASS:** фоновый поток reconciler не выполняет проходов (или не стартует); система
|
||||
работает как до ORCH-053. `reconcile_plane_enabled=False` гасит только F-2, F-1 работает.
|
||||
- **FAIL:** sweeper активен при выключенном флаге.
|
||||
|
||||
## AC-14 — Усиленный sha→branch резолв (F-3)
|
||||
- **Дано:** Gitea CI-status webhook без `branches` и со `sha`, не разрезолвившимся
|
||||
через `git branch -r --contains`.
|
||||
- **PASS:** добавленный БД-fallback однозначно находит task (по repo + активной
|
||||
development-стадии) и продвигает; неоднозначность логируется на уровне INFO; существующая
|
||||
success/failure-семантика гейта не изменена.
|
||||
- **FAIL:** регресс существующего резолва, либо ложный матч при неоднозначности.
|
||||
|
||||
## AC-15 — Never-raise в тике
|
||||
- **Дано:** обработка одной задачи/issue кидает исключение (битые данные, ошибка API).
|
||||
- **PASS:** исключение изолировано, проход продолжает остальные задачи; поток не падает.
|
||||
- **FAIL:** одно исключение роняет весь проход / поток reconciler.
|
||||
|
||||
## AC-16 — F-1 не продвигает analysis по локальному состоянию
|
||||
- **Дано:** task на `analysis`, артефакты на диске присутствуют, но Plane НЕ в статусе
|
||||
Approved (BRD не одобрен человеком), нет активного job, прошёл grace.
|
||||
- **PASS:** F-1 (gate-side) НЕ продвигает analysis→architecture (advance стадии analysis
|
||||
отдан F-2, которая сверяется с реальным статусом Plane Approved).
|
||||
- **FAIL:** sweeper автопродвинул неодобренный BRD.
|
||||
|
||||
## AC-17 — Документация обновлена (golden source)
|
||||
- **PASS:** в PR обновлены `docs/architecture/README.md`, заведён
|
||||
`docs/work-items/ORCH-053/06-adr/ADR-001-*.md`, обновлён `CHANGELOG.md`, упомянут
|
||||
kill-switch в `docs/operations/INFRA.md`.
|
||||
- **FAIL:** код изменён, документация — нет (Reviewer обязан вернуть REQUEST_CHANGES).
|
||||
200
docs/work-items/ORCH-053/04-test-plan.yaml
Normal file
200
docs/work-items/ORCH-053/04-test-plan.yaml
Normal file
@@ -0,0 +1,200 @@
|
||||
work_item: ORCH-053
|
||||
description: >
|
||||
Тесты sweeper/reconciler потерянных webhook. Вся сеть (Plane API, Gitea API, QG)
|
||||
мокируется (monkeypatch), как в существующих tests/. Telegram заглушён autouse-фикстурой
|
||||
conftest. Используется временная SQLite БД (ORCH_DB_PATH / фикстура setup_db по образцу
|
||||
test_webhooks.py / test_queue.py). Реальные агенты/CLI не запускаются.
|
||||
|
||||
tests:
|
||||
# ---- F-1: gate-side sweeper -------------------------------------------------
|
||||
- id: TC-01
|
||||
type: unit
|
||||
description: >
|
||||
reconcile_gate_once продвигает застрявшую development-задачу: нет активных job,
|
||||
updated_at старше grace, check_ci_green замокан в (True, "CI green") →
|
||||
advance_stage вызван, стадия стала review, заenqueuen reviewer.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-02
|
||||
type: unit
|
||||
description: >
|
||||
Источник истины — гейт: reconciler НЕ содержит собственного update_task_stage/
|
||||
enqueue_job для advance — продвижение идёт строго через stage_engine.advance_stage
|
||||
(проверка через мок/spy advance_stage, вызван с finished_agent=None).
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-03
|
||||
type: unit
|
||||
description: >
|
||||
Задача с активным job (has_active_job_for_task=True) пропускается: гейт не дёргается,
|
||||
advance_stage не вызывается, нотификаций нет.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-04
|
||||
type: unit
|
||||
description: >
|
||||
Per-stage grace: задача с updated_at свежее grace своей стадии не трогается;
|
||||
ровно на границе age>=grace и без активного job — становится кандидатом.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-05
|
||||
type: unit
|
||||
description: >
|
||||
grace_for_stage читает reconcile_grace_overrides_json (per-stage), при отсутствии
|
||||
ключа — reconcile_grace_default_s; невалидный JSON → дефолт, не падает.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-06
|
||||
type: unit
|
||||
description: >
|
||||
Нет спама: при стабильно красном гейте (check_ci_green=(False,...)) несколько проходов
|
||||
подряд НЕ вызывают notify_qg_failure повторно на каждом тике; задача не продвигается.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-07
|
||||
type: unit
|
||||
description: >
|
||||
Тишина при синхронности: когда все задачи done / имеют активный job / в пределах grace —
|
||||
проход не вызывает advance_stage и не пишет INFO-логов о разблокировке.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-08
|
||||
type: unit
|
||||
description: >
|
||||
AC-16: задача на analysis с артефактами на диске, но Plane НЕ Approved — F-1
|
||||
(reconcile_gate_once) НЕ продвигает analysis→architecture.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-09
|
||||
type: unit
|
||||
description: >
|
||||
Never-raise: если обработка одной задачи кидает исключение (advance_stage замокан на
|
||||
raise), проход ловит его и продолжает обрабатывать остальные задачи; поток не падает.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-10
|
||||
type: unit
|
||||
description: >
|
||||
Kill-switch: при reconcile_enabled=False reconcile_gate_once/plane_once не выполняют
|
||||
действий (no-op); при reconcile_plane_enabled=False гасится только F-2.
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
# ---- F-2: plane-side reconciler --------------------------------------------
|
||||
- id: TC-11
|
||||
type: unit
|
||||
description: >
|
||||
In Progress без задачи: list_issues_by_state возвращает issue в In Progress, в БД задачи
|
||||
нет → reconcile_plane_once вызывает handle_status_start (мок) ровно один раз с корректным
|
||||
issue_data (id/state/project).
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-12
|
||||
type: unit
|
||||
description: >
|
||||
Approved без advance: issue=Approved, task существует, нет активного job → вызван
|
||||
handle_verdict(approved=True) (мок) один раз.
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-13
|
||||
type: unit
|
||||
description: >
|
||||
Rejected без rollback: issue=Rejected, task существует, нет активного job → вызван
|
||||
handle_verdict(approved=False) (мок) один раз.
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-14
|
||||
type: unit
|
||||
description: >
|
||||
Идемпотентность F-2: issue в требующем-действия статусе, но у task есть активный job →
|
||||
handle_status_start/handle_verdict НЕ вызываются (живой webhook в работе).
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-15
|
||||
type: integration
|
||||
description: >
|
||||
AC-4 анти-дубль на создании: одновременная реконсиляция + обработка реального In Progress
|
||||
webhook для одного plane_id создают ровно ОДИН task row и один стартовый analyst-job
|
||||
(реальная временная БД, мок Gitea/Plane сетевых вызовов).
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-16
|
||||
type: unit
|
||||
description: >
|
||||
list_issues_by_state never-raise: при ошибке Plane API (httpx бросает / non-2xx) →
|
||||
возвращает [], тик не падает; при успехе — обходит пагинацию и фильтрует по state.
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-17
|
||||
type: unit
|
||||
description: >
|
||||
F-2 опрашивает все проекты реестра projects.PROJECTS и резолвит state-uuid через
|
||||
get_project_states per-project (enduro + orchestrator), не хардкодит uuid.
|
||||
module: tests/test_reconciler_plane.py
|
||||
expected: PASS
|
||||
|
||||
# ---- F-3: sha→branch резолв -------------------------------------------------
|
||||
- id: TC-18
|
||||
type: unit
|
||||
description: >
|
||||
handle_ci_status: при отсутствии branches и неразрезолвленном sha срабатывает БД-fallback
|
||||
и однозначно находит единственную development-задачу repo; продвижение идёт штатно.
|
||||
module: tests/test_gitea_sha_resolve.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-19
|
||||
type: unit
|
||||
description: >
|
||||
handle_ci_status: при неоднозначности (несколько development-задач repo) БД-fallback не
|
||||
делает ложный матч (branch остаётся неразрезолвленным, лог INFO), success/failure-семантика
|
||||
гейта не изменена.
|
||||
module: tests/test_gitea_sha_resolve.py
|
||||
expected: PASS
|
||||
|
||||
# ---- F-4 / интеграция фонового потока --------------------------------------
|
||||
- id: TC-20
|
||||
type: unit
|
||||
description: >
|
||||
Наблюдаемость: при разблокировке reconciler пишет явную лог-строку с work_item_id и
|
||||
stage; при reconcile_notify_unblock=True вызывается send_telegram (замокан).
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-21
|
||||
type: integration
|
||||
description: >
|
||||
Restart-safe поток: Reconciler.start() поднимает daemon-поток, stop() завершает его
|
||||
в пределах таймаута; повторный start идемпотентен (не плодит второй поток).
|
||||
module: tests/test_reconciler.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-22
|
||||
type: unit
|
||||
description: >
|
||||
Конфиг: новые поля reconcile_* присутствуют в Settings с заявленными дефолтами и
|
||||
читаются из env с префиксом ORCH_ (по образцу tests/test_config.py).
|
||||
module: tests/test_config.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-23
|
||||
type: unit
|
||||
description: >
|
||||
Регресс реестров: STAGE_TRANSITIONS и QG_CHECKS не изменены ORCH-053
|
||||
(snapshot-тест проходит как раньше).
|
||||
module: tests/test_qg_registry_snapshot.py
|
||||
expected: PASS
|
||||
221
docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md
Normal file
221
docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md
Normal file
@@ -0,0 +1,221 @@
|
||||
# ADR-001: Sweeper/reconciler потерянных webhook (реконсиляция застрявших стадий)
|
||||
|
||||
- **Статус:** Proposed
|
||||
- **Дата:** 2026-06-06
|
||||
- **Задача:** ORCH-053
|
||||
- **Сквозной ADR:** `docs/architecture/adr/adr-0007-reconciler.md`
|
||||
- **Связи:** adr-0001 (реестр проектов), adr-0002 (очередь / `available_at`),
|
||||
adr-0003 (условный staging-гейт — образец условности), adr-0006 (merge-gate как
|
||||
под-гейт ребра), ORCH-5 (events de-dup), ORCH-045 (`ci_poll`).
|
||||
|
||||
## Контекст
|
||||
|
||||
Продвижение задач по конвейеру завязано **исключительно** на входящие webhook
|
||||
(Plane status / Gitea CI/PR). Потерянное событие (502 на ребилдящемся инстансе,
|
||||
Plane/Gitea не ретраят, `sha→branch` не разрезолвился) → источник истины (Plane /
|
||||
зелёный CI) изменился, а задача в оркестраторе застряла молча (живой инцидент
|
||||
ORCH-044). Ни один существующий механизм resilience (`requeue_running_jobs`,
|
||||
orphan-recovery, events de-dup, `ci_poll`) не реконсилирует рассинхрон
|
||||
**«источник истины ≠ стадия задачи»** — все они работают на уровне jobs/agent_runs,
|
||||
а не stage-перехода.
|
||||
|
||||
ТЗ (`02-trz.md`) фиксирует объём; данный ADR фиксирует архитектурные развилки,
|
||||
явно отданные архитектору: (1) потокобезопасность и подавление спама нотификаций,
|
||||
(2) способ вызова `async`-обработчиков `plane.py` из sync-потока, (3) atomic-claim
|
||||
на создании задачи (анти-дубль), (4) критерий «потерян, а не задержан» (grace),
|
||||
(5) отсутствие изменений схемы БД.
|
||||
|
||||
## Решение
|
||||
|
||||
### 1. Компонент: `src/reconciler.py` — фоновый daemon-поток
|
||||
|
||||
Новый модуль по образцу `queue_worker.py`: класс `Reconciler` + module-singleton
|
||||
`reconciler`. Plain `threading.Thread(daemon=True)` + `threading.Event` для
|
||||
остановки. Стартует в `main.lifespan` **после** `worker.start()`, останавливается в
|
||||
`finally` **перед** `worker.stop()`. Цикл:
|
||||
|
||||
```
|
||||
while not stop:
|
||||
try:
|
||||
if settings.reconcile_enabled:
|
||||
reconcile_gate_once() # F-1
|
||||
if settings.reconcile_plane_enabled:
|
||||
reconcile_plane_once() # F-2
|
||||
except Exception: log.error(...) # outer never-raise
|
||||
stop.wait(settings.reconcile_interval_s)
|
||||
```
|
||||
|
||||
`start()` идемпотентен (как `QueueWorker.start`: если поток жив — no-op), что
|
||||
покрывает AC-11 (повторный start не плодит второй поток). Никакого критичного
|
||||
состояния в памяти — всё перечитывается из БД/Plane на каждом тике; метрики
|
||||
наблюдаемости (`last_run_ts`, `unblocked_total`) — best-effort, теряются при
|
||||
рестарте (AC-11 это явно допускает).
|
||||
|
||||
### 2. Источник истины — гейт, не событие. Продвижение строго через `advance_stage`
|
||||
|
||||
F-1 НЕ дублирует логику advance. Вводится тонкий хелпер в `stage_engine.py`:
|
||||
|
||||
```python
|
||||
def advance_if_gate_passed(task_id, stage, repo, work_item_id, branch) -> AdvanceResult | None
|
||||
```
|
||||
|
||||
Алгоритм:
|
||||
1. `stage == "analysis"` → немедленный возврат `None` (см. §6, AC-16).
|
||||
2. `qg = get_qg_for_stage(stage)`; если `None` (created/done) → возврат `None`.
|
||||
3. **Read-only пред-оценка гейта** тем же диспетчером, что использует webhook-путь:
|
||||
`passed, reason = _run_qg(qg, repo, work_item_id, branch)`.
|
||||
4. **passed** → вызвать `advance_stage(task_id, stage, repo, work_item_id, branch,
|
||||
finished_agent=None)` — это **тот же** путь, которым продвигает Plane
|
||||
Approved-webhook (`webhooks/plane._try_advance_stage`). Он повторно прогонит
|
||||
гейт (гейты идемпотентны/read-only), продвинет стадию, отправит **штатные**
|
||||
advance-нотификации и поставит следующего агента.
|
||||
5. **not passed** → **тишина**: `logger.debug(...)`, возврат `None`. Никаких
|
||||
`notify_qg_failure` / `plane_notify_qg`.
|
||||
|
||||
Это даёт оба контракта одновременно:
|
||||
- **AC-2 / TC-02:** в `reconciler.py` нет собственного `update_task_stage` +
|
||||
`enqueue_job` для advance — продвижение исключительно через `advance_stage(...,
|
||||
finished_agent=None)`.
|
||||
- **AC-9 / TC-06:** на застрявшей-но-красной задаче `advance_stage` **не
|
||||
вызывается вовсе**, поэтому ветка нотификации провала (`agent is None` →
|
||||
`notify_qg_failure`+`plane_notify_qg`, `stage_engine.py:228-230`) не
|
||||
срабатывает ни на одном тике. Спам структурно невозможен.
|
||||
|
||||
**Подавление спама = «не вызывать advance_stage на красном гейте»**, а не флаг
|
||||
внутри `advance_stage`. Это сохраняет унифицированный критический путь
|
||||
(`advance_stage`) **без изменений** — минимальный blast-radius для self-hosting.
|
||||
|
||||
> **Цена (осознанная):** на «зелёной» задаче гейт оценивается дважды (пред-оценка
|
||||
> в хелпере + повтор внутри `advance_stage`). Гейты — чистые read-only проверки
|
||||
> (`check_ci_green`, `check_*_status` из `12/13/14/15`), на реально-застрявшей-но-
|
||||
> готовой задаче (целевой кейс ORCH-044) возвращаются быстро (CI уже зелёный →
|
||||
> `ci_poll` отдаёт результат на первой итерации). Двойная оценка приемлема ради
|
||||
> неизменности `advance_stage`.
|
||||
|
||||
#### Отклонённая альтернатива: флаг `suppress_qg_failure_notify` в `advance_stage`
|
||||
Однократная оценка гейта, но изменяет сигнатуру и поведение общего
|
||||
критического пути (риск для self-hosting, обслуживающего все проекты). Отклонено
|
||||
в пользу неизменности `advance_stage` (Option A выше).
|
||||
|
||||
### 3. F-2: вызов `async`-обработчиков `plane.py` из sync-потока
|
||||
|
||||
Reconciler — sync daemon-поток; `handle_status_start` / `handle_verdict` —
|
||||
`async`. Решение: вызывать через **`asyncio.run(coro)`** на каждую единицу работы
|
||||
внутри per-issue `try/except`. `asyncio.run` создаёт свежий event loop на вызов,
|
||||
что необходимо, т.к. `handle_verdict → _try_advance_stage` использует
|
||||
`asyncio.to_thread` (требует running loop). Логику **не дублировать** —
|
||||
переиспользуются ровно `handle_status_start` / `handle_verdict` /
|
||||
`list_issues_by_state`.
|
||||
|
||||
`issue_data` собирается в форму, ожидаемую обработчиками (`{"id", "state":{"id":..},
|
||||
"project", "name", "description_stripped"}`); недостающие name/description
|
||||
обработчики сами дотянут через `fetch_issue_fields` (как для status-only webhook).
|
||||
|
||||
### 4. Идемпотентность создания (анти-дубль, AC-4) — atomic-claim в БД
|
||||
|
||||
Гонка: F-2 видит `In Progress` + нет задачи; одновременно реальный webhook тоже
|
||||
видит `In Progress` + нет задачи → оба проходят `get_task_by_plane_id() is None`
|
||||
→ два `start_pipeline` → два task-row / branch / worktree / стартовых analyst-job
|
||||
(events de-dup тут НЕ помогает: reconciler — не webhook-доставка).
|
||||
|
||||
Решение: **atomic-claim создания, защищённый process-wide `threading.Lock`**.
|
||||
Новый хелпер `db.create_task_atomic(plane_id, ...)` выполняет
|
||||
`SELECT-exists → INSERT` под module-level `Lock`, возвращая `(row, created: bool)`:
|
||||
только победитель (`created=True`) продолжает branch/docs/analyst; проигравший
|
||||
видит существующую задачу и выходит. `start_pipeline` рефакторится так, чтобы
|
||||
**первым** DB-действием был этот claim; reconciler идёт тем же путём через
|
||||
`handle_status_start` → `start_pipeline`.
|
||||
|
||||
**Обоснование выбора Lock, а не UNIQUE-индекса:**
|
||||
- Прод — **один процесс** uvicorn на одну БД (staging/prod изолированы своими БД);
|
||||
webhook исполняется в asyncio-треде uvicorn, reconciler — в своём треде того же
|
||||
процесса → `threading.Lock` покрывает обе стороны гонки.
|
||||
- **Без миграции схемы** (соответствует §6 ТЗ и образцу merge-gate ORCH-043).
|
||||
`CREATE UNIQUE INDEX` на `tasks.plane_id` рискует упасть на проде, если там уже
|
||||
существуют дубли `plane_id` (исторические) — а проверить это вживую нельзя.
|
||||
- Дешёвый fast-path `get_task_by_plane_id` сохраняется до claim.
|
||||
|
||||
> **Граница применимости:** гарантия верна для single-process деплоя (текущая
|
||||
> топология). Многопроцессный запуск (`uvicorn --workers N`) потребовал бы
|
||||
> DB-native UNIQUE-индекса — задокументировано как будущее упрочнение в
|
||||
> `08-data-requirements.md`. Очередь (`queue_worker`) уже опирается на ту же
|
||||
> single-process-singleton модель, так что допущение не новое.
|
||||
|
||||
### 5. Анти-гонка с живым webhook (AC-3) — active-job guard + grace
|
||||
|
||||
- **Active-job guard:** `has_active_job_for_task(task.id) == True` → задача
|
||||
легитимно в работе или живой webhook только что поставил job → **skip** (ни
|
||||
пред-оценки гейта, ни advance, ни нотификаций). И в F-1, и в F-2.
|
||||
- **Самозатухание повторов:** `advance_stage → update_task_stage` обновляет
|
||||
`tasks.updated_at` → следующий тик увидит свежий `updated_at` и не сработает
|
||||
повторно (grace).
|
||||
- `max_concurrency=1`: новый enqueued job встаёт в общую очередь — двойного
|
||||
запуска нет (atomic `claim_next_job`).
|
||||
|
||||
### 6. F-1 НЕ реконсилирует `analysis` (AC-16)
|
||||
|
||||
Гейт `check_analysis_approved` — **человеческий**. В `advance_stage` при
|
||||
`finished_agent=None` он трактуется как `approved-via-status` и продвинул бы
|
||||
задачу. Но при потере именно **Approved**-webhka продвигать analysis допустимо
|
||||
**только** если Plane реально в статусе Approved — этого локальная БД не знает.
|
||||
Поэтому advance стадии `analysis` отдан **F-2** (сверяется с реальным статусом
|
||||
Plane). `advance_if_gate_passed` для `stage == "analysis"` — ранний возврат
|
||||
`None`. Защита от автопродвижения неодобренного человеком BRD.
|
||||
|
||||
### 7. Grace: критерий «потерян, а не задержан»
|
||||
|
||||
- **F-1:** кандидат, если `has_active_job_for_task == False` **и**
|
||||
`age(tasks.updated_at) >= grace_for_stage(stage)`.
|
||||
`grace_for_stage(stage)` = per-stage override из `reconcile_grace_overrides_json`,
|
||||
иначе `reconcile_grace_default_s`. Невалидный JSON → дефолт (паттерн
|
||||
`agent_timeout_overrides_json`, never-raise).
|
||||
- **F-2:** источник «давности» — поле `updated_at` **issue из Plane** (когда статус
|
||||
реально сменился). Реагировать только если `age(issue.updated_at) >=
|
||||
reconcile_grace_default_s` — отсекает просто задержавшийся webhook. Для
|
||||
существующей задачи дополнительно требуется отсутствие активного job.
|
||||
|
||||
### 8. F-3: усиление `sha→branch` в `handle_ci_status`
|
||||
|
||||
При неразрезолвленном branch (нет `branches`, `git branch -r --contains` пуст) —
|
||||
fallback на БД: найти task'и repo со `stage='development'`; при **однозначности**
|
||||
(ровно одна) использовать её branch; при неоднозначности — оставить
|
||||
неразрезолвленным + `logger.info`. `logger.debug → logger.info` для видимости.
|
||||
Success/failure-семантика гейта не меняется. Defense-in-depth: F-1 всё равно
|
||||
подберёт такую задачу.
|
||||
|
||||
### 9. БД и реестры — без изменений
|
||||
|
||||
- Схема **не меняется** (§6 ТЗ). Стуковость — по `tasks.updated_at`/`tasks.stage`
|
||||
+ `has_active_job_for_task`. Анти-дребезг колонкой `last_reconcile_at` **не
|
||||
нужен**: на красном гейте действий/нотификаций нет вовсе (§2), а после advance
|
||||
`updated_at` обновляется → повтор невозможен.
|
||||
- `STAGE_TRANSITIONS` и `QG_CHECKS` **не меняются** (AC / TC-23). Новых QG нет.
|
||||
|
||||
### 10. Наблюдаемость (F-4)
|
||||
|
||||
- При **разблокировке** (произошёл advance) — явная лог-строка
|
||||
`reconciler: <work_item_id> <stage> разблокирована (потерян webhook)`; при
|
||||
`reconcile_notify_unblock=True` — `send_telegram(...)`. Только на изменении
|
||||
состояния, не на каждый тик (AC-12, не конфликтует с AC-9/AC-10).
|
||||
- `/queue` расширяется блоком `"reconcile": {enabled, plane_enabled, interval,
|
||||
last_run_ts, unblocked_total, last_unblocked}` по образцу `worker.status()`.
|
||||
|
||||
## Альтернативы (сводно)
|
||||
- **Флаг подавления нотификаций в `advance_stage`** — отклонён (§2): изменяет общий
|
||||
критический путь.
|
||||
- **UNIQUE-индекс на `tasks.plane_id`** — отклонён как primary (§4): риск падения
|
||||
миграции на проде; задокументирован как будущее упрочнение для multi-process.
|
||||
- **Отдельная стадия/QG для реконсиляции** — вне объёма; нарушило бы «источник
|
||||
истины — существующий гейт».
|
||||
- **Реконсиляция analysis по локальным артефактам** — отклонена (§6): риск
|
||||
автопродвижения неодобренного BRD.
|
||||
|
||||
## Последствия
|
||||
- Потерянный webhook больше не = молча застрявшая задача; ручной heartbeat-watchdog
|
||||
Стрима не нужен; резервная сетка к ORCH-51/ORCH-36.
|
||||
- Плата: фоновый поток + периодический опрос Plane API (нагрузка — митигируется
|
||||
интервалом + фильтром по статусам + per-project); двойная оценка гейта на зелёной
|
||||
задаче; анти-дубль на создании опирается на single-process-допущение.
|
||||
- Self-hosting: kill-switch `reconcile_enabled` обязателен; reconciler не
|
||||
рестартит/не роняет прод-контейнер; раскат поэтапный (флаги).
|
||||
- Сквозной resilience-механизм → сопровождается global `adr-0007`.
|
||||
45
docs/work-items/ORCH-053/07-infra-requirements.md
Normal file
45
docs/work-items/ORCH-053/07-infra-requirements.md
Normal file
@@ -0,0 +1,45 @@
|
||||
# 07 — Требования к инфраструктуре — ORCH-053
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
|
||||
## Топология
|
||||
**Без изменений.** Новых контейнеров/портов/сервисов нет. Reconciler — фоновый
|
||||
daemon-поток **внутри** существующего процесса orchestrator (как `queue_worker`).
|
||||
Стартует/останавливается в `main.lifespan`. Деплой ORCH-053 — строго через
|
||||
staging-гейт (8501) перед прод-деплоем (self-hosting, см. `docs/operations/INFRA.md`).
|
||||
|
||||
## Новые переменные окружения (`.env` / `.env.staging` на хосте, префикс `ORCH_`)
|
||||
|
||||
| Env | Поле `Settings` | Дефолт | Назначение |
|
||||
|-----|-----------------|--------|-----------|
|
||||
| `ORCH_RECONCILE_ENABLED` | `reconcile_enabled` | `true` | **Kill-switch** всего sweeper'а (self-hosting safety, поэтапный раскат, аварийное отключение). |
|
||||
| `ORCH_RECONCILE_INTERVAL_S` | `reconcile_interval_s` | `120` | Период фонового прохода (сек). |
|
||||
| `ORCH_RECONCILE_PLANE_ENABLED` | `reconcile_plane_enabled` | `true` | Отдельный флаг F-2 (опрос Plane API); `false` гасит только plane-ветку, F-1 работает. |
|
||||
| `ORCH_RECONCILE_GRACE_DEFAULT_S` | `reconcile_grace_default_s` | `600` | Дефолтный порог «застревания» по `tasks.updated_at` / `issue.updated_at`. |
|
||||
| `ORCH_RECONCILE_GRACE_OVERRIDES_JSON` | `reconcile_grace_overrides_json` | `""` | Per-stage пороги, напр. `{"analysis":1800,"development":300,"deploy":900}`. Невалидный JSON → дефолт (never-raise). |
|
||||
| `ORCH_RECONCILE_NOTIFY_UNBLOCK` | `reconcile_notify_unblock` | `true` | Telegram при разблокировке (F-4). |
|
||||
|
||||
Секреты не добавляются. `.env.example` (канон) обновляется в PR реализации.
|
||||
|
||||
## Нагрузка / сеть
|
||||
- **Plane API (F-2):** GET issues per-project каждые `reconcile_interval_s`, с
|
||||
фильтром по статусам (In Progress / Approved / Rejected) и пагинацией. Митигация
|
||||
нагрузки — интервал (120с), фильтр, per-project, never-raise (Plane outage →
|
||||
`[]`, тик не падает). `get_project_states` уже кэширует state-uuid per-project.
|
||||
- **Gitea API (F-1):** только косвенно — внутри переоценки гейтов (`check_ci_green`
|
||||
и т.п.), которые и так вызываются webhook-путём. Дополнительных постоянных
|
||||
вызовов reconciler не вносит сверх момента реальной разблокировки.
|
||||
- **CPU/RAM:** один спящий daemon-поток; всплеск только при наличии застрявших
|
||||
задач.
|
||||
|
||||
## Self-hosting
|
||||
- Reconciler **не** рестартит/не роняет прод-контейнер `orchestrator` (8500),
|
||||
обслуживающий все проекты с общей БД.
|
||||
- `docs/operations/INFRA.md` дополняется упоминанием kill-switch
|
||||
`ORCH_RECONCILE_ENABLED` (выполняется в PR реализации, §9 ТЗ).
|
||||
- Раскат: при первом деплое допустимо стартовать с `ORCH_RECONCILE_PLANE_ENABLED=false`
|
||||
(только F-1, минимальный риск), затем включить F-2.
|
||||
|
||||
## Конфиги/деплой
|
||||
Дополнительных томов, портов, healthcheck'ов, изменений `docker-compose`/Dockerfile
|
||||
**не требуется**.
|
||||
38
docs/work-items/ORCH-053/08-data-requirements.md
Normal file
38
docs/work-items/ORCH-053/08-data-requirements.md
Normal file
@@ -0,0 +1,38 @@
|
||||
# 08 — Требования к данным / схеме БД — ORCH-053
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
|
||||
## Изменения схемы: НЕТ
|
||||
|
||||
Реконсиляция строится исключительно на существующих структурах (по образцу
|
||||
merge-gate ORCH-043 — «без новых колонок»):
|
||||
|
||||
| Структура | Использование reconciler |
|
||||
|-----------|--------------------------|
|
||||
| `tasks.stage` | Кандидаты F-1: `stage NOT IN ('done')`; `created`/`analysis` отфильтровываются (нет QG / человеческий гейт). |
|
||||
| `tasks.updated_at` | Критерий «застряла»: `age(updated_at) ≥ grace_for_stage(stage)`. `update_task_stage` уже штампует `updated_at` → самозатухание повторов. |
|
||||
| `tasks.repo`, `tasks.branch`, `tasks.work_item_id`, `tasks.plane_id` | Аргументы `advance_stage` / резолв задачи. |
|
||||
| `jobs` (`has_active_job_for_task`) | Active-job guard (AC-3): задача с `queued`/`running` job не трогается. |
|
||||
|
||||
## Анти-дребезг (`last_reconcile_at`): НЕ вводится
|
||||
На красном гейте reconciler не делает ни advance, ни нотификаций (см. ADR-001 §2),
|
||||
поэтому спама нет структурно; после успешного advance обновляется `updated_at` →
|
||||
повтор невозможен. Дополнительная колонка для дебаунса не нужна.
|
||||
|
||||
## Идемпотентность создания (анти-дубль, AC-4)
|
||||
Гонка reconciler↔webhook на создании задачи закрывается **process-wide
|
||||
`threading.Lock`** вокруг `SELECT-exists → INSERT` (новый хелпер
|
||||
`db.create_task_atomic`), **без** изменения схемы. Гарантия верна для текущей
|
||||
**single-process** топологии (один uvicorn на одну БД; staging/prod изолированы) —
|
||||
тот же допущение, что у очереди `queue_worker` (ORCH-1).
|
||||
|
||||
### Будущее упрочнение (вне объёма ORCH-053)
|
||||
Для multi-process деплоя (`uvicorn --workers N`) потребуется DB-native гарантия:
|
||||
частичный UNIQUE-индекс `CREATE UNIQUE INDEX ... ON tasks(plane_id) WHERE plane_id
|
||||
IS NOT NULL` (паттерн `idx_events_delivery`) + `INSERT OR IGNORE` claim. Не вводим
|
||||
сейчас: миграция может упасть на проде при наличии исторических дублей `plane_id`
|
||||
(проверить вживую нельзя); требует отдельной задачи с аудитом данных.
|
||||
|
||||
## Миграции
|
||||
Не требуются. Если в будущем понадобится колонка — только идемпотентный
|
||||
`_ensure_column` (как все ALTER в `src/db.py`), безопасный на живой прод-БД.
|
||||
27
docs/work-items/ORCH-053/10-tech-risks.md
Normal file
27
docs/work-items/ORCH-053/10-tech-risks.md
Normal file
@@ -0,0 +1,27 @@
|
||||
# 10 — Технические риски — ORCH-053
|
||||
|
||||
Work Item ID: ORCH-053
|
||||
Severity: 🔴 high / 🟡 medium / 🟢 low
|
||||
|
||||
| # | Риск | Sev | Митигация (где зафиксировано) |
|
||||
|---|------|-----|-------------------------------|
|
||||
| R-1 | **Гонка reconciler↔живой webhook → двойная задача** (оба видят «нет задачи» на `In Progress`). | 🔴 | Atomic-claim `db.create_task_atomic` под process-wide `threading.Lock` (ADR-001 §4, 08-data). AC-4 / TC-15. |
|
||||
| R-2 | **Двойной запуск агента** на стадии (reconciler дёргает гейт у задачи в работе). | 🔴 | `has_active_job_for_task` guard + `max_concurrency=1` + atomic `claim_next_job`; `update_task_stage` обновляет `updated_at` (ADR-001 §5). AC-3 / TC-03. |
|
||||
| R-3 | **Спам нотификаций** на стабильно красном гейте каждый тик. | 🔴 | «Не вызывать `advance_stage` на красном» → ветка `notify_qg_failure` не достигается (ADR-001 §2). AC-9 / TC-06. |
|
||||
| R-4 | **Автопродвижение неодобренного BRD** (F-1 продвинул `analysis` без Approved в Plane). | 🔴 | F-1 не реконсилирует `analysis`; advance стадии — только F-2 по реальному статусу Plane (ADR-001 §6). AC-16 / TC-08. |
|
||||
| R-5 | **Дублирование логики advance/rollback** в reconciler (расхождение с webhook-путём со временем). | 🟡 | Продвижение строго через `advance_stage(..., finished_agent=None)`; F-2 — через `handle_*` из `plane.py`; своего `update_task_stage`/`enqueue_job` для advance нет (ADR-001 §2-3). AC-2 / TC-02. |
|
||||
| R-6 | **Падение тика из-за одной битой задачи/issue** (битые данные, ошибка API). | 🟡 | Per-task / per-issue `try/except` + outer `try/except` в `_run` (паттерн `_drain_once`). AC-15 / TC-09. `list_issues_by_state` never-raise → `[]`. TC-16. |
|
||||
| R-7 | **Нагрузка/недоступность Plane API** при опросе каждые N сек. | 🟡 | Интервал 120с + фильтр по статусам + per-project + кэш `get_project_states`; never-raise → мягкая деградация (ADR-001 §3, 07-infra). |
|
||||
| R-8 | **`asyncio.run` из sync-потока** (event loop конфликты, зависание). | 🟡 | Свежий loop на единицу работы; внутри per-issue try/except; нет вложенного running loop (reconciler — не async). ADR-001 §3. |
|
||||
| R-9 | **Self-hosting: reconciler меняет инструмент всех проектов** / нежелательное срабатывание на проде. | 🔴 | Kill-switch `reconcile_enabled`; раздельный `reconcile_plane_enabled`; деплой через staging-гейт; не рестартит прод. ADR-001 §1, 07-infra. AC-13 / TC-10. |
|
||||
| R-10 | **Двойная оценка гейта** на зелёной задаче (пред-оценка + повтор в `advance_stage`); долгий `ci_poll` держит тик. | 🟢 | Гейты идемпотентны/read-only; на целевом кейсе (CI уже зелёный) возвращаются быстро; reconciler — отдельный daemon-поток. Осознанная цена за неизменность `advance_stage` (ADR-001 §2). |
|
||||
| R-11 | **Ложный `sha→branch` матч** в F-3 при неоднозначности. | 🟡 | БД-fallback срабатывает только при ровно одной `development`-задаче repo; иначе — неразрезолвлено + INFO; success/failure-семантика гейта не тронута (ADR-001 §8). AC-14 / TC-18, TC-19. |
|
||||
| R-12 | **Регресс реестров** (`STAGE_TRANSITIONS`/`QG_CHECKS`) или схемы. | 🟡 | Реестры/схема не меняются; snapshot-тест (ADR-001 §9). AC / TC-23. |
|
||||
| R-13 | **Дубль на стадии deploy-staging↔merge-gate** (reconciler триггерит advance, конкурируя с merge-lease). | 🟢 | F-1 продвигает только через `advance_stage`, который штатно прогоняет merge-gate (defer/rollback владеет исходом); active-job guard + `updated_at` — без гонки на тике (ADR-001 §2). |
|
||||
| R-14 | **Multi-process деплой ломает анти-дубль** (Lock — внутрипроцессный). | 🟢 | Текущая топология single-process (как очередь ORCH-1); ограничение задокументировано, DB UNIQUE-индекс — будущее упрочнение (08-data). |
|
||||
|
||||
## Сводно
|
||||
Самые острые (🔴) — анти-дубль на создании (R-1), двойной запуск (R-2), спам (R-3),
|
||||
автопродвижение analysis (R-4), self-hosting (R-9) — закрыты явными механизмами с
|
||||
покрытием в `04-test-plan.yaml`. Остаточные допущения: single-process топология
|
||||
(R-14) и осознанная двойная оценка гейта (R-10).
|
||||
88
docs/work-items/ORCH-053/12-review.md
Normal file
88
docs/work-items/ORCH-053/12-review.md
Normal file
@@ -0,0 +1,88 @@
|
||||
---
|
||||
type: review
|
||||
work_item_id: ORCH-053
|
||||
verdict: APPROVED
|
||||
version: 1
|
||||
---
|
||||
|
||||
# Review ORCH-053 — Sweeper потерянных webhook (реконсиляция застрявших стадий)
|
||||
|
||||
## Summary
|
||||
PR реализует фоновый reconciler застрявших стадий ровно в объёме ТЗ (`02-trz.md`) и
|
||||
ADR (`06-adr/ADR-001`, глобальный `adr-0007`). Все 17 acceptance-criteria покрыты
|
||||
кодом и тестами; полный прогон `pytest` — **563 passed**. Реализация строго следует
|
||||
ключевым инвариантам: продвижение только через неизменный `advance_stage(...,
|
||||
finished_agent=None)`, никакой дублирующей advance/rollback-логики в `reconciler.py`,
|
||||
структурная невозможность спама нотификаций, never-raise на единицу работы,
|
||||
restart-safe daemon-поток, kill-switch'и. Схема БД и реестры `STAGE_TRANSITIONS` /
|
||||
`QG_CHECKS` не тронуты. Документация обновлена в этом же PR. Рекомендация: **APPROVED**.
|
||||
|
||||
## Соответствие ТЗ
|
||||
- `src/reconciler.py` (НОВЫЙ): F-1 `reconcile_gate_once` + F-2 `reconcile_plane_once`, класс
|
||||
`Reconciler` + module-singleton по образцу `queue_worker`. ✓
|
||||
- `src/config.py`: все 6 `reconcile_*` настроек с дефолтами по таблице §5. ✓
|
||||
- `src/main.py`: старт после `worker.start()`, стоп перед `worker.stop()`, блок `reconcile`
|
||||
в `GET /queue`. ✓
|
||||
- `src/stage_engine.py`: тонкий `advance_if_gate_passed` — read-only пред-оценка гейта,
|
||||
advance только через `advance_stage`, на красном гейте `advance_stage` не вызывается
|
||||
вовсе (подавление спама без изменения общего критпути). ✓
|
||||
- `src/plane_sync.py`: `list_issues_by_state` с курсорной пагинацией и never-raise → `[]`. ✓
|
||||
- `src/webhooks/gitea.py`: F-3 БД-fallback `sha→branch` (`_resolve_branch_via_db`),
|
||||
однозначность обязательна, `debug→info`. ✓
|
||||
- `src/webhooks/plane.py` + `src/db.py`: F-2 переиспользует `handle_status_start` /
|
||||
`handle_verdict` без дублирования; анти-дубль `create_task_atomic` под process-wide Lock,
|
||||
`start_pipeline` рефакторен на atomic-claim первым DB-действием. ✓
|
||||
- Схема БД и реестры не менялись (§6/§8 ТЗ). ✓
|
||||
|
||||
## Соответствие ADR
|
||||
- §2 (источник истины — гейт; продвижение только через `advance_stage`): соблюдено —
|
||||
в `reconciler.py` нет собственного `update_task_stage`/`enqueue_job` для advance (AC-2).
|
||||
- §3 (async-обработчики из sync-потока через `asyncio.run`): реализовано в `_dispatch`.
|
||||
- §4 (atomic-claim под `threading.Lock`, без миграции): `db.create_task_atomic`.
|
||||
- §6 (F-1 не трогает `analysis`): ранний возврат в `advance_if_gate_passed` и в
|
||||
`_reconcile_gate_task` (AC-16).
|
||||
- §7 (grace «потерян, а не задержан»): F-1 по `tasks.updated_at` (SQL `age_s`), F-2 по
|
||||
`issue.updated_at` (`_age_seconds_iso`).
|
||||
- Нарушений глобальных ADR нет; `adr-0007` заведён и внесён в `docs/architecture/adr/README.md`.
|
||||
|
||||
## Качество кода
|
||||
- Контракт never-raise выдержан на всех уровнях: outer loop, per-task, per-project, per-issue,
|
||||
`_parse_grace_overrides`, `list_issues_by_state`, `_resolve_branch_via_db`, телеграм-нотификация.
|
||||
- Идемпотентность: active-job guard в F-1 и F-2; самозатухание через обновление `updated_at`
|
||||
после advance; `max_concurrency=1`. Подтверждено анализом — F-2 на approved/rejected всегда
|
||||
меняет состояние (analysis approved-via-status всегда проходит; rollback всегда срабатывает),
|
||||
поэтому петли спама нотификаций структурно не возникает.
|
||||
- Защита от ложного матча в F-3 (только при единственной development-задаче repo).
|
||||
- Docstrings содержательные на всех публичных функциях; тесты не тривиальные (мапятся на
|
||||
TC-01…TC-21 из `04-test-plan.yaml`).
|
||||
|
||||
## Документация
|
||||
Обновлена в этом же PR (AC-17 выполнен):
|
||||
- `docs/architecture/README.md` — компонент Reconciler, раздел resilience, строка в таблице API
|
||||
(`/queue` … + reconcile), footer-пометка. ✓
|
||||
- `docs/work-items/ORCH-053/06-adr/ADR-001-stuck-task-reconciler.md` — заведён. ✓
|
||||
- `docs/architecture/adr/adr-0007-reconciler.md` + строка в `adr/README.md`. ✓
|
||||
- `CHANGELOG.md` — запись в `[Unreleased]/Added`. ✓
|
||||
- `docs/operations/INFRA.md` — kill-switch'и и env-карта (self-hosting). ✓
|
||||
- `README.md` и `.env.example` — env-таблица `ORCH_RECONCILE_*`. ✓
|
||||
|
||||
## Findings
|
||||
|
||||
### P0 — Blocker
|
||||
- Нет.
|
||||
|
||||
### P1 — Must fix
|
||||
- Нет.
|
||||
|
||||
### P2 — Should fix
|
||||
- Нет.
|
||||
|
||||
### P3 — Nice-to-have
|
||||
- Несоответствие статуса ADR: `06-adr/ADR-001` помечен `Статус: Proposed`, тогда как
|
||||
`docs/architecture/adr/README.md` указывает `adr-0007` как `accepted`. Косметика —
|
||||
привести к одному значению при следующем касании.
|
||||
- `get_project_states(pid)` теоретически может вернуть словарь без ключей
|
||||
`approved`/`rejected` при частичном резолве состояний проекта → `KeyError` в
|
||||
`_reconcile_plane_project`. Сейчас изолировано per-project `try/except` (never-raise
|
||||
держится, эффект — пропуск F-2 для проекта). Можно усилить `.get(...)`-доступом ради
|
||||
явности; не блокер.
|
||||
74
docs/work-items/ORCH-053/13-test-report.md
Normal file
74
docs/work-items/ORCH-053/13-test-report.md
Normal file
@@ -0,0 +1,74 @@
|
||||
---
|
||||
type: test-report
|
||||
work_item_id: ORCH-053
|
||||
result: PASS
|
||||
---
|
||||
|
||||
# Test Report — ORCH-053 (Sweeper потерянных webhook / reconciler)
|
||||
|
||||
## Окружение
|
||||
- Python: 3.12.13
|
||||
- pytest: 8.3.3 (plugins: anyio-4.13.0, asyncio-0.23.8; asyncio mode=AUTO)
|
||||
- Ветка: `feature/ORCH-053-sweeper-webhook-stuck-task`
|
||||
- Дата: 2026-06-06
|
||||
- Review verdict: APPROVED (`12-review.md`)
|
||||
|
||||
## Команда прогона
|
||||
`python -m pytest tests/ -v --tb=short` → **563 passed, 1 warning, 12.09s**
|
||||
(warning — известный PydanticDeprecatedSince20 в `src/config.py`, не связан с ORCH-053).
|
||||
|
||||
## Результаты по тест-плану (`04-test-plan.yaml`)
|
||||
|
||||
| TC ID | Описание | Тест | Результат |
|
||||
|-------|----------|------|-----------|
|
||||
| TC-01 | F-1: продвижение застрявшей development-задачи | test_reconciler::test_tc01_advances_stuck_development_task | PASS |
|
||||
| TC-02 | Источник истины — гейт, advance только через advance_stage(finished_agent=None) | test_reconciler::test_tc02_advances_via_advance_stage_finished_agent_none | PASS |
|
||||
| TC-03 | Активный job → задача пропускается | test_reconciler::test_tc03_active_job_skipped | PASS |
|
||||
| TC-04 | Per-stage grace, граница age>=grace | test_reconciler::test_tc04_grace_boundary | PASS |
|
||||
| TC-05 | grace_for_stage: overrides + невалидный JSON → дефолт | test_reconciler::test_tc05_grace_for_stage_overrides / _invalid_json_falls_back | PASS |
|
||||
| TC-06 | Нет спама нотификаций на красном гейте | test_reconciler::test_tc06_red_gate_no_spam | PASS |
|
||||
| TC-07 | Тишина при синхронности | test_reconciler::test_tc07_silence_when_in_sync | PASS |
|
||||
| TC-08 | AC-16: F-1 не продвигает analysis | test_reconciler::test_tc08_analysis_not_advanced_by_f1 | PASS |
|
||||
| TC-09 | Never-raise изолирует сбой одной задачи | test_reconciler::test_tc09_never_raise_isolates_failure | PASS |
|
||||
| TC-10 | Kill-switch (reconcile_enabled / reconcile_plane_enabled) | test_reconciler::test_tc10_kill_switch_disables_gate / _plane_switch_mutes_only_f2 | PASS |
|
||||
| TC-11 | F-2: In Progress без задачи → handle_status_start | test_reconciler_plane::test_tc11_in_progress_without_task_starts_pipeline | PASS |
|
||||
| TC-12 | F-2: Approved → handle_verdict(approved=True) | test_reconciler_plane::test_tc12_approved_replays_verdict | PASS |
|
||||
| TC-13 | F-2: Rejected → handle_verdict(approved=False) | test_reconciler_plane::test_tc13_rejected_replays_verdict | PASS |
|
||||
| TC-14 | Идемпотентность F-2: активный job / в пределах grace | test_reconciler_plane::test_tc14_active_job_skips / test_tc14b_within_grace_skipped | PASS |
|
||||
| TC-15 | AC-4 анти-дубль на создании (create_task_atomic) | test_reconciler_plane::test_tc15_create_task_atomic_no_duplicate | PASS |
|
||||
| TC-16 | list_issues_by_state never-raise + пагинация/фильтр | test_reconciler_plane::test_tc16_list_issues_never_raises_on_error / _paginates_and_filters | PASS |
|
||||
| TC-17 | F-2 опрашивает все проекты, резолвит state per-project | test_reconciler_plane::test_tc17_polls_all_projects_resolves_states_per_project | PASS |
|
||||
| TC-18 | F-3: sha→branch БД-fallback однозначный матч | test_gitea_sha_resolve::test_tc18_db_fallback_unique_match_advances | PASS |
|
||||
| TC-19 | F-3: неоднозначность → нет ложного матча | test_gitea_sha_resolve::test_tc19_db_fallback_ambiguous_no_match | PASS |
|
||||
| TC-20 | F-4: лог-строка разблокировки + Telegram (вкл/выкл) | test_reconciler::test_tc20_unblock_logs_and_notifies / _no_telegram_when_disabled | PASS |
|
||||
| TC-21 | Restart-safe daemon-поток: start/stop/идемпотентный start | test_reconciler::test_tc21_daemon_thread_lifecycle | PASS |
|
||||
| TC-22 | Конфиг reconcile_* дефолты + env ORCH_ | test_config::test_reconcile_settings_defaults / _env_override | PASS |
|
||||
| TC-23 | Регресс реестров STAGE_TRANSITIONS / QG_CHECKS не изменены | test_qg_registry_snapshot::test_tc20_qg_registry_unchanged / _qg_callables_unchanged / _stage_transitions_unchanged | PASS |
|
||||
|
||||
Все 23 TC покрыты тестами и зелёные (целевые файлы: 36 passed).
|
||||
|
||||
## Smoke test API (прод-контейнер 8500, только read-only GET, без касания состояния)
|
||||
- `GET /health` → 200 `{"status":"ok","service":"orchestrator"}`
|
||||
- `GET /status` → 200 (active_tasks отдаётся; видна задача id=44 ORCH-053 на стадии testing)
|
||||
- `GET /queue` → 200 (counts/max_concurrency/resilience отдаются)
|
||||
- Блок `reconcile` в `/queue` на проде ОТСУТСТВУЕТ — ожидаемо: прод работает на старом коде,
|
||||
ORCH-053 ещё не задеплоен. В коде ветки блок реализован (`src/main.py:131` —
|
||||
`"reconcile": reconciler.status()`). Появится после deploy-staging/deploy.
|
||||
|
||||
## Покрытие Acceptance Criteria (`03-acceptance-criteria.md`)
|
||||
AC-1…AC-16 — покрыты соответствующими TC (см. таблицу) и зелёные.
|
||||
AC-17 (документация — golden source) — подтверждён на стадии review (APPROVED, секция
|
||||
«Документация»): README.md архитектуры, ADR-001, adr-0007, CHANGELOG.md, INFRA.md обновлены.
|
||||
|
||||
## Вывод pytest (хвост)
|
||||
```
|
||||
======================= 563 passed, 1 warning in 12.09s ========================
|
||||
```
|
||||
Целевые файлы ORCH-053:
|
||||
```
|
||||
======================== 36 passed, 1 warning in 1.20s =========================
|
||||
```
|
||||
|
||||
## Итог
|
||||
**PASS** — полный регресс зелёный (563 passed), все 23 TC из тест-плана выполнены,
|
||||
acceptance-criteria покрыты, smoke прод-API здоров. Задача готова к стадии `deploy-staging`.
|
||||
Reference in New Issue
Block a user