Compare commits
1 Commits
feature/OR
...
feature/OR
| Author | SHA1 | Date | |
|---|---|---|---|
|
|
b1a7470a16 |
29
.env.example
29
.env.example
@@ -394,35 +394,6 @@ ORCH_COVERAGE_EPSILON=0.5
|
||||
ORCH_COVERAGE_TOOL_FAIL_CLOSED=false
|
||||
ORCH_COVERAGE_RUN_TIMEOUT_S=900
|
||||
|
||||
# ORCH-057 (follow-up ORCH-040): legacy root-owned ownership detect + actionable
|
||||
# worktree error. After the uid migration (user: "1000:1000") legacy root:root files
|
||||
# in /repos broke worktree creation under uid 1000 with a raw "Permission denied".
|
||||
# Three additive, kill-switch-reversible layers: an actionable RuntimeError in
|
||||
# ensure_worktree, a cheap never-raise detect leaf (src/fs_normalize.py) with a
|
||||
# startup WARNING/Telegram + GET /queue fs_ownership block, and an opt-in chown ONLY
|
||||
# when privileged (under uid 1000 a no-op; the real fix is the operator procedure in
|
||||
# docs/operations/INFRA.md «Миграция uid»). No STAGE_TRANSITIONS / QG_CHECKS / schema
|
||||
# change.
|
||||
# ENABLED -> kill-switch; false -> all code inert, behaviour 1:1 as before
|
||||
# ORCH-057 (the actionable error too).
|
||||
# REPOS -> CSV of repos the layer is REAL for; empty -> self-hosting only.
|
||||
# TARGET_UID -> target uid fallback when os.getuid() is unavailable.
|
||||
# NORMALIZE_AUTO -> detect-only (false) | attempt chown when privileged (true).
|
||||
# SCAN_ROOTS -> CSV override of the scan roots (empty -> default roots).
|
||||
# SCAN_CACHE_TTL_S -> TTL of the detect cache (mirrors ORCH_PREFLIGHT_CACHE_TTL).
|
||||
ORCH_FS_NORMALIZE_ENABLED=true
|
||||
ORCH_FS_NORMALIZE_REPOS=
|
||||
ORCH_FS_TARGET_UID=1000
|
||||
ORCH_FS_NORMALIZE_AUTO=false
|
||||
ORCH_FS_SCAN_ROOTS=
|
||||
ORCH_FS_SCAN_CACHE_TTL_S=300
|
||||
|
||||
# ORCH-099 (FND/F1a): operator off-switch for the read-only GET /metrics endpoint
|
||||
# (raw-signal snapshot for the F1b sidecar). Default true -> available out of the
|
||||
# box. false -> /metrics returns a minimal parsable body {"schema_version":1,
|
||||
# "enabled":false} (200, not 404). The endpoint is inert / read-only anyway.
|
||||
ORCH_METRICS_ENABLED=true
|
||||
|
||||
# ORCH-021: post-deploy production monitoring + degradation reaction. After the
|
||||
# terminal deploy->done transition for an applicable repo, a reserved-agent job
|
||||
# `post-deploy-monitor` (no LLM, modelled on deploy-finalizer) probes prod over a
|
||||
|
||||
@@ -1,4 +1,4 @@
|
||||
Work item: ORCH-057
|
||||
Work item: ORCH-093
|
||||
Repo: orchestrator
|
||||
Branch: feature/ORCH-057-bug-follow-up-orch-040-normali
|
||||
Branch: feature/ORCH-093-bug-merge-gitea-405-5xx-hold-p
|
||||
Stage: development
|
||||
13
CHANGELOG.md
13
CHANGELOG.md
@@ -3,19 +3,6 @@
|
||||
Формат: [Keep a Changelog](https://keepachangelog.com/). Записи — на смысловой PR/задачу.
|
||||
|
||||
## [Unreleased]
|
||||
- **Детект legacy root-owned файлов + внятная ошибка worktree при миграции на uid 1000** (ORCH-057, follow-up ORCH-040, `feat`): закрыт недоделанный AC ORCH-040 — legacy `root:root` файлы в `/repos` (после перевода контейнеров на `user: "1000:1000"`) ломали создание worktree под uid 1000 (`ensure_worktree` → сырой `fatal: … Permission denied`, агент не стартовал, диагноза не было). Три аддитивных, обратимых kill-switch'ем слоя; **`STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict-ключи / схема БД — байт-в-байт прежние**. ADR: `docs/work-items/ORCH-057/06-adr/ADR-001-legacy-ownership-normalization.md`, сквозной `docs/architecture/adr/adr-0031-legacy-ownership-normalization.md`.
|
||||
- **D1 — actionable-ошибка `ensure_worktree`:** класс «нет прав» (`Permission denied` / `could not create leading directories` / `insufficient permission for adding an object` / `PermissionError`/`EACCES`/`EPERM`) оборачивается в `RuntimeError` с **причиной** (legacy root-файлы в `/repos/_wt`/`.git` после миграции uid), **лечащей командой** (`chown -R <uid>:<uid> …`) и ссылкой на `INFRA.md` — вместо сырого git stderr. Ошибки, **не** связанные с правами, сохраняют прежний контракт (меняется только формулировка, не факт сбоя; чистый классификатор `fs_normalize.classify_worktree_error`). Под выключенным kill-switch контракт ошибки 1:1 как до ORCH-057.
|
||||
- **D2 — детект-леаф `src/fs_normalize.py`** (never-raise, паттерн `serial_gate`/`coverage_gate`): `scan_ownership(roots, target_uid=os.getuid())` обходит `/repos/_wt`, `<repo>/.git/{objects,worktrees}`, `data/runs` с ранним выходом при первом `st_uid != target_uid`, TTL-кэшем (`fs_scan_cache_ttl_s`, по образцу `preflight._cache`) и `applies(repo)` first (пустой CSV → self-hosting only → enduro-trails не сканируется). Опц. `normalize()` chown'ит **только** при `geteuid()==0` (под uid 1000 — no-op + честный лог «нужна операторская процедура», НЕ ошибка).
|
||||
- **D3 — наблюдаемость, БЕЗ блокировки claim:** best-effort вызов `scan_ownership()` на старте `main.lifespan` (рядом с lease-reclaim/log-rotation, never-fatal) → WARNING + Telegram при mismatch; read-only блок `fs_ownership` в `GET /queue`; опц. ручной `POST /fs-normalize/check`. Claim **не** блокируется (preflight repo-слеп → регресс enduro; queue_worker — дорогой FS-обход в hot-path + молчаливое зависание); внятный ранний отказ даёт D1 в точке launch.
|
||||
- **Процедура (D5):** обязательная операторская нормализация под root на хосте — в `docs/operations/INFRA.md` (раздел «Миграция uid: обязательная нормализация legacy root-файлов», все корни: `_wt`, оба `.git`, `data/runs`); фактический `chown` остаётся ручным шагом (контейнер без root его сделать не может) — задача гарантирует **внятность** отказа, а не его отсутствие.
|
||||
- **Флаги** (`src/config.py`, аддитивно): `ORCH_FS_NORMALIZE_ENABLED` (kill-switch), `ORCH_FS_NORMALIZE_REPOS` (CSV; пусто → self-hosting only), `ORCH_FS_TARGET_UID` (1000), `ORCH_FS_NORMALIZE_AUTO` (детект-only), `ORCH_FS_SCAN_ROOTS`, `ORCH_FS_SCAN_CACHE_TTL_S`. Тесты: `tests/test_fs_normalize.py`, `tests/test_git_worktree_perm.py`, `tests/test_fs_normalize_startup.py`, `tests/test_api_queue.py` (TC-01…TC-12).
|
||||
- **Лёгкий read-only `GET /metrics` — машинное «сырьё» о самом орке для sidecar F1b** (ORCH-099, FND/F1a, `feat`): добавлен версионируемый JSON-эндпоинт `GET /metrics`, отдающий снимок внутреннего состояния орка для будущего отдельного sidecar-наблюдателя F1b (`watchdog/`) — наблюдатель отделён от наблюдаемого (BRD §1): орк отдаёт ТОЛЬКО факты, которые знает лишь он сам; пороги/алерты/история/Telegram — на стороне F1b. **Аддитивно, строго read-only, never-raise:** `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict ключи / схема БД — **не тронуты**; `/health`/`/status`/`/queue` — байт-в-байт прежние. ADR: `docs/work-items/ORCH-099/06-adr/ADR-001-metrics-endpoint.md`, сквозной `docs/architecture/adr/adr-0030-metrics-endpoint.md`.
|
||||
- **Leaf-сборщик + тонкий эндпоинт (D1):** новый `src/metrics.py` (`build_metrics() -> dict`, never-raise по разделам, паттерн `serial_gate.snapshot()`) собирает конверт по-раздельно (каждый раздел в своём `try/except` → безопасный дефолт `null`/`[]`/`{}` + WARNING); эндпоинт `@app.get("/metrics")` в `src/main.py` — тонкая обёртка, возвращает результат как есть (стиль `GET /queue`). Тестируемость без ASGI: разделы проверяются прямым вызовом `build_metrics()`.
|
||||
- **Конверт + контракт `schema_version` (D2):** `schema_version` (стартует с `1`), `generated_at` (UTC ISO-8601, часовой домен орка → дельты CPU иммунны к skew орк↔sidecar, TR-3), `clk_tck` (`os.sysconf("SC_CLK_TCK")`, базис тиков). Политика: аддитивные изменения **НЕ бампят** версию (sidecar обязан игнорировать незнакомые ключи) — бамп только при ломающем (rename/remove/retype).
|
||||
- **Разделы сырья (D3–D7):** `stages` — незавершённые задачи (`stage NOT IN ('done','cancelled')`, ORCH-090) с `work_item`/`stage`/`age_in_stage_s`/`repo` (источник `db.get_active_tasks_for_reconcile()` + фильтр терминалов на потребителе, helper-инвариант ORCH-053/086 не тронут). `queue` — `db.job_status_counts()` (+`cancelled`-ключ дефолтом), глубина, сырьё ретраев (`db.queue_retry_stats()`: attempts/transient/в-backoff), `worker.breaker.snapshot()`, `max_concurrency`. `agents` (liveness) — по running-job (новый read-only `db.get_running_agents()`, dedicated SELECT, НЕ расширение hot-path `get_running_jobs()`): `agent`/`run_id`/`job_id`/`pid`/`runtime_s` (= `running_age_s` от `jobs.started_at`, D6)/`model`/`effort` + **CPU-сырьё** `cpu_ticks` (utime+stime из `/proc/<pid>/stat`, поля 14+15; орк дельту не считает — stateless, арбитр sidecar). `cost` — `running` (по running-job, `null` до завершения = честное сырьё) + `aggregate` (новый `db.agent_cost_totals()`, `COALESCE(SUM(...),0)` по `agent_runs`).
|
||||
- **Never-raise сырьё для liveness (FR-6/NFR-2):** `metrics._read_cpu_ticks(pid)` — `pid is None` / нет `/proc/<pid>` / мёртвый процесс / не-Linux → `cpu_ticks: null` у этого агента, прочие поля и весь эндпоинт целы (НЕ raise). Недоступный `worker` → `breaker: null`/`max_concurrency: null`, не 500. Пустые таблицы → `stages=[]`/`agents=[]`/`cost.aggregate=нули`.
|
||||
- **Kill-switch (D8):** `src/config.py` `metrics_endpoint_enabled: bool = True` (env `ORCH_METRICS_ENABLED` через явный `validation_alias` — документированное имя контракта реально управляет флагом). `False` → `200` с минимальным телом `{"schema_version":1,"enabled":false}` (НЕ 404 — контракт остаётся парсимым). Дефолт `True` → нулевая регрессия (эндпоинт доступен из коробки).
|
||||
- **Контракт задокументирован (AC-7):** формат `/metrics` зафиксирован в `docs/architecture/README.md` (раздел «Сырьё-эндпоинт `/metrics`» + строка в таблице API) как стабильный контракт для F1b. Тесты: `tests/test_metrics.py` (TC-01…TC-11: конверт/4 раздела, исключение терминалов, queue-поля, liveness-сырьё + cpu_ticks на живом pid, never-raise на `pid=None`/мёртвом pid/бросающем источнике/недоступном breaker, cost-агрегат + пустая таблица, эндпоинт через handler, read-only снимок БД до/после, аддитивность `/health`//status//queue, пустое состояние, kill-switch). Полный регресс `tests/ -q` зелёный (1480 → +14). Откат: `ORCH_METRICS_ENABLED=false` (мгновенный) или удаление модуля/эндпоинта/helper'ов (без следов в БД/схеме).
|
||||
- **Детерминированный гейт покрытия тестами — защита от тихой деградации coverage перед merge в `main`** (ORCH-027, `feat`): существующие тестовые гейты (`check_ci_green`, `check_tests_passed`, merge-gate re-test) судят только по **факту** прохождения, не по **полноте** — ни один не замечает «300 строк кода, 0 тестов», и при пакетном автономном прогоне (ORCH-088) покрытие монотонно деградирует. Введён детерминированный (без LLM) под-гейт ребра `deploy-staging → deploy` по образцу security-гейта (ORCH-022): leaf `src/coverage_gate.py` (never-raise) + тонкая обёртка `check_coverage_gate` в `QG_CHECKS` + врезка `_handle_coverage_gate` в `advance_stage`. **Аддитивно:** `STAGE_TRANSITIONS` / семантика существующих `check_*` / machine-verdict ключи (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`) — байт-в-байт прежние; новая БД-таблица аддитивна (NFR-5/AC-8). См. `docs/work-items/ORCH-027/06-adr/ADR-001-coverage-gate.md`, сквозной `docs/architecture/adr/adr-0029-coverage-gate.md`.
|
||||
- **Точка/порядок (D1, AC-2):** под-гейт исполняется **ПОСЛЕ merge-gate** (покрытие меряется на догнанном `auto_rebase_onto_main` HEAD — ровно том коде, что landed в `main`) и **ДО image-freshness** (фейл до дорогого docker-rebuild). FAIL → штатный откат на `development` (+ инкремент developer-retry, cap `MAX_DEVELOPER_RETRIES`) **и освобождение merge-lease** (merge-gate держал его на своём PASS — зеркало image-freshness rollback, TR-2). `STAGE_TRANSITIONS` не меняется (под-гейт, как security/merge/image-freshness).
|
||||
- **Измерение (D2, FR-1/AC-1):** `python -m pytest tests/ --cov=src --cov-report=json` в изолированном per-branch worktree (`ensure_worktree`, прецедент `check_tests_local`); метрика — `totals.percent_covered` (line coverage `src/`). Измеритель инкапсулирован за `measure_coverage(repo, branch) -> float | None` (стек-расширяемость BR-6: jest/jacoco — новая ветка `measure_*`, без переписывания ядра). Тайм-аут `coverage_run_timeout_s`. Новая pip-зависимость `pytest-cov==5.0.0` (offline на момент замера).
|
||||
|
||||
File diff suppressed because one or more lines are too long
@@ -31,17 +31,11 @@ Per-work-item решения живут в `docs/work-items/<id>/06-adr/ADR-NNN-
|
||||
| adr-0023 | Обзорная ось reviewer + закрытие эпика 52 | accepted | 2026-06-09 | ORCH-079 |
|
||||
| adr-0024 | Disk-watchdog — heartbeat-сигнал заполнения хост-ФС | proposed | 2026-06-09 | ORCH-063 |
|
||||
| adr-0025 | Build-cache-pruner — авто-prune docker build cache на хосте | proposed | 2026-06-09 | ORCH-062 |
|
||||
| adr-0026 | STOP / отмена задачи — системный терминал `cancelled` | proposed | 2026-06-09 | ORCH-090 |
|
||||
| adr-0027 | Merge-актор — ретрай транзиентных ошибок Gitea + гард «ветка уже в `main`» | proposed | 2026-06-09 | ORCH-093 |
|
||||
| adr-0028 | Terminal-window-aware гард deploy-фазовых статусов Plane | proposed | 2026-06-09 | ORCH-094 |
|
||||
| adr-0029 | Гейт покрытия тестами — edge sub-gate + ratchet-базовая линия | proposed | 2026-06-10 | ORCH-027 |
|
||||
| adr-0030 | Лёгкий read-only `/metrics` — сырьё о самом орке для sidecar (F1b) | proposed | 2026-06-10 | ORCH-099 |
|
||||
| adr-0031 | Нормализация legacy root-owned файлов при миграции uid — детект-leaf + actionable worktree-ошибка | proposed | 2026-06-10 | ORCH-057 |
|
||||
|
||||
> ⚠️ Историческая коллизия: номер `0007` занят двумя файлами —
|
||||
> `adr-0007-reconciler.md` (ORCH-053) и `adr-0007-executable-self-deploy.md`
|
||||
> (ORCH-036). Оба accepted; для новых сквозных ADR использовать следующий
|
||||
> свободный номер (текущий максимум — `0031`).
|
||||
> свободный номер (текущий максимум — `0020`).
|
||||
> adr-0014 **amends** adr-0013 (меняет критерий merge-verify на «SHA-в-main»).
|
||||
> adr-0016 **amends** adr-0013/0014 (гарантирует открытый код-PR перед merge_pr, ORCH-082).
|
||||
> adr-0020 реализует машинный слой к adr-0019 (ORCH-52b→52c).
|
||||
|
||||
@@ -1,88 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-099
|
||||
stage: architecture
|
||||
author_agent: architect
|
||||
status: proposed
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# adr-0030: Лёгкий read-only `/metrics` — сырьё о самом орке для sidecar (F1b)
|
||||
|
||||
- **Статус:** proposed
|
||||
- **Дата:** 2026-06-10
|
||||
- **Задача:** ORCH-099 (FND/F1a)
|
||||
- **Детальный ADR:** `docs/work-items/ORCH-099/06-adr/ADR-001-metrics-endpoint.md`
|
||||
|
||||
## Контекст
|
||||
Эпик автономного саморазвития, домен 0 «Фундамент». Рамка наблюдаемости (заказчик): **наблюдатель
|
||||
отделён от наблюдаемого** — мозг мониторинга (пороги/алерты/история/Telegram) живёт в отдельном
|
||||
sidecar-контейнере **F1b** (`watchdog/`), а орк отдаёт **только сырьё**, которое знает лишь он сам.
|
||||
Сегодня такого источника нет: `/health` = `{"status":"ok"}`, `/status` = активные задачи, `/queue` —
|
||||
«человеческий» снимок, перемешанный с конфигом демонов. Нет стабильного машинного контракта для
|
||||
детекта застрявшей стадии / зависшего агента / деградации очереди / всплеска стоимости. F1b
|
||||
заблокирована этой задачей. Self-hosting: прод общий с enduro-trails ⇒ эндпоинт обязан быть строго
|
||||
read-only и never-raise.
|
||||
|
||||
## Решение
|
||||
Новый **leaf-модуль** `src/metrics.py` (`build_metrics() -> dict`, чистый, never-raise по разделам —
|
||||
паттерн `serial_gate.snapshot()`) + тонкий эндпоинт `@app.get("/metrics")` в `src/main.py` (стиль
|
||||
`GET /queue`). Только чтение существующих таблиц (`tasks`/`jobs`/`agent_runs`) и in-memory-снапшотов
|
||||
+ два read-only helper'а в `src/db.py`. `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict-
|
||||
ключи/схема БД — **не трогаются**.
|
||||
|
||||
- **Конверт + контракт версии:** `schema_version` (старт `1`), `generated_at` (UTC ISO-8601 —
|
||||
момент снимка, домен часов орка), `clk_tck` (`os.sysconf("SC_CLK_TCK")`), разделы
|
||||
`stages`/`queue`/`agents`/`cost`. **Политика версии:** аддитивные изменения НЕ бампят (sidecar
|
||||
обязан игнорировать незнакомые ключи и толерировать отсутствие опциональных); бамп — только при
|
||||
ломающем (rename/remove/retype). Forward-compatible контракт для F1b.
|
||||
- **`stages`** — `db.get_active_tasks_for_reconcile()` + фильтр `stage NOT IN ('done','cancelled')`
|
||||
на слое metrics (helper намеренно отдаёт `cancelled` для ORCH-086 — не трогаем его инвариант);
|
||||
поля `work_item`/`stage`/`age_in_stage_s`/`repo`.
|
||||
- **`queue`** — `db.job_status_counts()` (+`cancelled`), глубина, сырьё ретраев
|
||||
(`attempts`/`max_attempts`/`transient_attempts`/в-backoff), `worker.breaker.snapshot()`,
|
||||
`max_concurrency`. Недоступный worker → `breaker: null`, не 500.
|
||||
- **`agents` (liveness)** — новый dedicated read-only helper `db.get_running_agents()` (НЕ расширение
|
||||
hot-path `get_running_jobs()` reaper'а, ORCH-065): `agent`/`run_id`/`job_id`/`pid`/`runtime_s`
|
||||
(= `running_age_s` от `jobs.started_at`)/`model`/`effort`. CPU-сырьё — **вариант A**: орк читает
|
||||
`/proc/<pid>/stat` (поля 14+15, utime+stime) → `cpu_ticks`; **дельту не считает** — арбитр
|
||||
«жив/завис» это sidecar (stateless-эмиссия). `pid is None`/мёртвый/нет `/proc`/не-Linux →
|
||||
`cpu_ticks: null`, не ошибка.
|
||||
- **`cost`** — `running` (по running-job, часто `null` до завершения — честное сырьё, `null` ≠ ноль)
|
||||
+ `aggregate` (новый helper `db.agent_cost_totals()`, `COALESCE(SUM(...),0)` по
|
||||
`cost_usd`/`input_tokens`/`output_tokens`/`cache_read_tokens`/`cache_creation_tokens`).
|
||||
- **Kill-switch** `metrics_endpoint_enabled` (env `ORCH_METRICS_ENABLED`, дефолт `True`): при `False`
|
||||
→ `200` с `{"schema_version":1,"enabled":false}` (контракт остаётся парсимым). Операторский
|
||||
off-switch на общем инстансе.
|
||||
- **Never-raise:** каждый раздел — свой `try/except` + `logger.warning` + дефолт (`null`/`[]`/`{}`);
|
||||
`build_metrics()` никогда не пробрасывает. Read-only: ни одного `INSERT/UPDATE/DELETE/CREATE/ALTER`.
|
||||
|
||||
## Альтернативы
|
||||
- **Расширить `/queue`** — отклонено: ломает байт-в-байт контракт (BR-6) + смешивает сырьё с
|
||||
человеческим снимком.
|
||||
- **Prometheus/OpenMetrics** — отклонено: заказчик задал тонкий кастомный sidecar (не Prometheus),
|
||||
контракт — JSON.
|
||||
- **Орк считает CPU-дельту сам** — отклонено: требует состояния; stateful-арбитр это sidecar (C-1).
|
||||
- **Расширить SELECT `get_running_jobs()`** — отклонено: перенос инварианта hot-path reaper'а;
|
||||
изолируем dedicated helper.
|
||||
- **Push в sidecar** — отклонено: нарушает разделение C-1; зависший орк ⇒ pull падает = сам сигнал.
|
||||
|
||||
## Последствия
|
||||
- F1b разблокирована стабильным машинным контрактом; домен наблюдаемости стартует.
|
||||
- Строго read-only + never-raise ⇒ near-zero риск для общего прод-конвейера (enduro-trails);
|
||||
`/health`/`/status`/`/queue` байт-в-байт; гейты/схема/machine-verdict-ключи не тронуты (NFR-5).
|
||||
- `schema_version` + аддитивно-толерантная политика ⇒ расширения не ломают F1b.
|
||||
- Плата: новая поверхность совместимости `/metrics`↔F1b (митигейшн — единый репо контракта + версия);
|
||||
CPU-liveness Linux-специфичен (`/proc`; не-Linux → `null`). Топология/схема не меняются (sidecar и
|
||||
его сетевая достижимость — объём F1b).
|
||||
- Новый компонент + публичный контракт → `arch:major-change` (хоть и аддитивно/read-only/обратимо);
|
||||
прод-деплой строго через staging-гейт (8501), без рестарта прод-контейнера.
|
||||
- **Откат:** `metrics_endpoint_enabled=False` (мгновенный) или удаление модуля/эндпоинта/helper'ов —
|
||||
без следов в БД/схеме.
|
||||
|
||||
## Связи
|
||||
adr-0002 (job-queue/circuit-breaker — источник `queue`-сырья), adr-0011 (job-reaper —
|
||||
`get_running_jobs`/pid/liveness-семантика, изоляция hot-path), adr-0026 (терминал `{done,cancelled}`
|
||||
— фильтр `stages`), adr-0017 (serial_gate — паттерн leaf `snapshot()`/never-raise), adr-0020
|
||||
(frontmatter-контракт — стиль версионируемого контракта). Прямой потребитель — **F1b** (sidecar
|
||||
`watchdog/`, отдельная задача).
|
||||
@@ -1,92 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-057
|
||||
stage: architecture
|
||||
author_agent: architect
|
||||
status: proposed
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# adr-0031: Нормализация legacy root-owned файлов при миграции uid — детект-leaf + actionable worktree-ошибка
|
||||
|
||||
- **Статус:** proposed
|
||||
- **Дата:** 2026-06-10
|
||||
- **Задача:** ORCH-057 (follow-up ORCH-040)
|
||||
- **Детальный ADR:** `docs/work-items/ORCH-057/06-adr/ADR-001-legacy-ownership-normalization.md`
|
||||
|
||||
## Контекст
|
||||
ORCH-040 перевёл контейнеры на `user: "1000:1000"`, изменив только `docker-compose.yml`. Владельца
|
||||
уже существующих `root:root` файлов в bind-mount `/repos` это не меняет. Под uid 1000
|
||||
`src/git_worktree.py::ensure_worktree` (`os.makedirs` стр. 78 / `git worktree add` стр. 81/85) не может
|
||||
создать worktree рядом с root-owned `/repos/_wt/` → `fatal: could not create leading directories …
|
||||
Permission denied`, который сейчас пробрасывается сырым. Конвейер приходит сюда из
|
||||
`launcher._spawn`/`_materialize_deferred_branch` (ORCH-088) — **агент не стартует** (launch-time
|
||||
инфра-сбой, не код задачи). Инцидент 06.06 на проде (первый запуск ORCH-043); workaround Стрима
|
||||
(`chown -R 1000:1000`) наложен вручную. ADR-040 описал нормализацию абстрактно («вне объёма кода») и
|
||||
не дал процедуры → баг воспроизводим на чистой среде / новом репо / после исторического запуска под
|
||||
root. Контейнер бежит **без root** → код физически не может `chown` чужие файлы; ему доступны лишь
|
||||
детект + диагностика.
|
||||
|
||||
## Решение
|
||||
Три аддитивных, обратимых kill-switch'ем слоя — паттерн условного leaf-гейта (`coverage_gate`/
|
||||
`serial_gate`) + best-effort startup-хук (`main.lifespan`, как lease-reclaim). `STAGE_TRANSITIONS` /
|
||||
`QG_CHECKS` / `check_*` / machine-verdict-ключи (`verdict:`/`result:`/`deploy_status:`/
|
||||
`staging_status:`/`security_status:`/`coverage_status:`) / схема БД — **байт-в-байт прежние**.
|
||||
|
||||
- **Actionable worktree-ошибка (D1):** `ensure_worktree` классифицирует класс «нет прав» (маркеры
|
||||
`Permission denied`/`could not create leading directories`/`insufficient permission`/`EACCES`/
|
||||
`EPERM`) и поднимает `RuntimeError` с причиной (legacy root-файлы после миграции uid) + лечащей
|
||||
командой + ссылкой на INFRA.md. Не-прав-ошибки сохраняют прежний текст/смысл (никакой подмены).
|
||||
Меняется лишь **формулировка**, не факт сбоя.
|
||||
- **Детект-leaf `src/fs_normalize.py` (D2):** чистый, never-raise, TTL-кэш (паттерн `preflight`).
|
||||
`scan_ownership(roots, target_uid)` обходит `/repos/_wt`, `<repo>/.git/objects`,
|
||||
`<repo>/.git/worktrees`, `data/runs`; ранний выход при первом `st_uid != target_uid`
|
||||
(`target_uid=os.getuid()` по умолчанию). `applies(repo)` (kill-switch + scope; пусто →
|
||||
`is_self_hosting_repo`) проверяется ПЕРВЫМ → дорогой обход только при applies. Идемпотентно;
|
||||
ошибка обхода → WARNING + консервативный `mismatch=False`.
|
||||
- **Интеграция = наблюдаемость, без блокировки claim (D3):** best-effort `scan_ownership()` на старте
|
||||
`main.lifespan` → WARNING + Telegram при mismatch. Claim НЕ гейтится: внятный ранний отказ даёт D1
|
||||
в точке launch (знает repo, агент ещё не тратил токены). Блокирующий preflight-гейт отвергнут —
|
||||
preflight не знает repo, заблокировал бы и enduro-trails на общем `/repos`.
|
||||
- **Опц. `normalize()` (D4):** chown только при `CAP_CHOWN`/root (под uid 1000 — no-op + лог),
|
||||
флаг `fs_normalize_auto` (дефолт `False`). Init-контейнер/root-entrypoint отвергнут: реинтродукция
|
||||
root-контекста (анти-цель ORCH-040) + правка compose = self-deploy/групповой риск. Реальную
|
||||
нормализацию несёт операторская процедура.
|
||||
- **Процедура (D5):** `INFRA.md` получает раздел «Миграция uid: обязательная нормализация legacy
|
||||
root-файлов» (точные команды по всем корням) как обязательный шаг миграции; forward-breadcrumb из
|
||||
ADR-040.
|
||||
- **Флаги:** `fs_normalize_enabled` (kill-switch, дефолт `True`), `fs_normalize_repos` (CSV, пусто →
|
||||
self-hosting only), `fs_target_uid` (1000), `fs_normalize_auto` (`False`), `fs_scan_roots`,
|
||||
`fs_scan_cache_ttl_s` (300). Наблюдаемость — блок `fs_ownership` в `GET /queue`; опц. `POST
|
||||
/fs-normalize/check`.
|
||||
|
||||
## Альтернативы
|
||||
- **Init-контейнер/root-entrypoint** — реинтродукция root (анти-цель ORCH-040), self-deploy compose,
|
||||
групповой риск ради разовой операции. Отвергнуто; носитель нормализации — операторская процедура.
|
||||
- **Блокирующий claim-гейт (preflight)** — preflight не знает repo → регресс enduro на общем `/repos`.
|
||||
Отвергнуто.
|
||||
- **Блокирующий claim-гейт (queue_worker/claim)** — дорогой FS-обход в hot-path + «молчаливое
|
||||
зависание» вместо диагноза D1. Отвергнуто.
|
||||
- **Авто-chown из app по умолчанию** — под uid 1000 невозможен; ложное ожидание самолечения.
|
||||
Отвергнуто (оставлен opt-in `fs_normalize_auto`).
|
||||
- **Hard-fail старта при mismatch** — нарушает never-raise, стопорит сервис всех проектов. Отвергнуто.
|
||||
|
||||
## Последствия
|
||||
- Класс «сырой git-fatal на launch после миграции uid» закрыт внятным диагнозом (D1) + проактивным
|
||||
startup-сигналом (D3); пробел процедуры ADR-040 закрыт (INFRA.md).
|
||||
- Нулевая регрессия enduro-trails (scope first); инварианты конвейера/схема БД — байт-в-байт.
|
||||
- Никакого root-контекста/рестарта прода/касания `main`/force-push/прод-образа (NFR-1).
|
||||
- Плата: фактический `chown` остаётся ручным операторским шагом (но теперь внятным, с инструкцией);
|
||||
+1 best-effort startup-хук и leaf-модуль; `fs_normalize_auto=True` под root реинтродуцирует
|
||||
chown-контекст (дефолт `False`, не для прод-self).
|
||||
- Аддитивно/обратимо: **не** `arch:major-change` (нет новой стадии/QG/таблицы/смены топологии) — leaf
|
||||
+ startup-хук + docs.
|
||||
- **Откат:** `fs_normalize_enabled=False` → полный no-op (мгновенный обратимый kill-switch).
|
||||
|
||||
## Связи
|
||||
adr-0005 (контейнер под host-uid — порождающее решение ORCH-040, чей пробел закрываем),
|
||||
adr-0029/adr-0012 (coverage/security-гейт — паттерн условного leaf `applies`/scope/never-raise/
|
||||
fail-open), adr-0017 (serial-gate — leaf never-raise + отложенный срез ветки `_materialize_deferred_
|
||||
branch`, чья точка падает в `ensure_worktree`), adr-0011 (job-reaper — образец best-effort
|
||||
startup-хука в `lifespan`), adr-0024 (disk-watchdog — образец «только читать/уведомлять, не трогать
|
||||
хост/прод»).
|
||||
@@ -47,35 +47,8 @@ ADR `docs/work-items/ORCH-040/06-adr/ADR-001-run-agents-as-host-uid.md` и гл
|
||||
- **P-3:** `id slin` → `1000:1000`; `/repos`, `/app/data` уже `1000:1000`.
|
||||
- **P-4:** прод-рестарт self — только в окно тишины (`GET /status` без активных задач):
|
||||
общий инстанс с enduro-trails.
|
||||
- **P-5 (блокер миграции uid, ORCH-057):** нормализация **всех** legacy `root:root` файлов в `/repos`
|
||||
— см. подраздел «Миграция uid: обязательная нормализация legacy root-файлов» ниже. Без неё первый
|
||||
job падает на launch при создании worktree (инцидент 06.06, ORCH-043).
|
||||
|
||||
### Миграция uid: обязательная нормализация legacy root-файлов (ORCH-057)
|
||||
ORCH-040 сменил `user:` контейнера, но **не** владельца уже существующих файлов в bind-mount `/repos`,
|
||||
созданных прежним root-контейнером. Под uid 1000 `src/git_worktree.py::ensure_worktree` не может
|
||||
создать worktree рядом с `root:root` каталогом `/repos/_wt/` → `fatal: could not create leading
|
||||
directories … Permission denied` (агент даже не стартует). С ORCH-057 эта ошибка распознаётся и
|
||||
выдаётся **внятно** (с лечащей командой) + детектится на старте сервиса (WARNING/Telegram, блок
|
||||
`fs_ownership` в `GET /queue`), но **фактический `chown` обязан выполнить оператор под root на хосте**
|
||||
(контейнер бежит без root и chown'ить чужие файлы не может).
|
||||
|
||||
**Обязательный разовый шаг при миграции uid / на новой среде (под root на mva154, ПЕРЕД стартом app):**
|
||||
```bash
|
||||
# 1) worktree-корень (все ветки всех проектов режутся здесь)
|
||||
sudo chown -R 1000:1000 /home/slin/repos/_wt
|
||||
# 2) .git обоих репо (objects / worktrees-административные записи)
|
||||
sudo chown -R 1000:1000 /home/slin/repos/orchestrator/.git \
|
||||
/home/slin/repos/enduro-trails/.git
|
||||
# 3) корень orchestrator целиком (включая data/runs/*.log — 37 root-логов в инциденте)
|
||||
sudo chown -R 1000:1000 /home/slin/repos/orchestrator
|
||||
# Проверка (пусто = ок):
|
||||
find /home/slin/repos/_wt ! -uid 1000 -print -quit
|
||||
```
|
||||
Процедура **идемпотентна** (повтор на корректной среде — no-op) и входит в **чеклист деплоя/миграции
|
||||
self**. Область охвата: `_wt`, оба `.git` (`objects`+`worktrees`), `data/runs`. См.
|
||||
`docs/work-items/ORCH-057/06-adr/ADR-001-legacy-ownership-normalization.md` и сквозной
|
||||
`docs/architecture/adr/adr-0031-legacy-ownership-normalization.md`.
|
||||
- Разовый разгребающий `chown -R 1000:1000 /home/slin/repos/orchestrator` для старых
|
||||
`root:root` файлов из истории (вне объёма кода).
|
||||
|
||||
### Тома (volumes)
|
||||
- `./data` → `/app/data` (БД; у staging — `./data/staging`)
|
||||
|
||||
@@ -1,7 +1,7 @@
|
||||
---
|
||||
post_deploy_status: HEALTHY
|
||||
action_taken: NONE
|
||||
work_item: ORCH-057
|
||||
work_item: ORCH-027
|
||||
window_s: 900
|
||||
checks_total: 30
|
||||
checks_failed: 0
|
||||
@@ -1,7 +0,0 @@
|
||||
# Business Request: BUG/follow-up ORCH-040: normalize legacy root-owned файлы при миграции на uid 1000 (one-time + защита)
|
||||
|
||||
Work Item ID: ORCH-057
|
||||
|
||||
## Description
|
||||
|
||||
TBD
|
||||
@@ -1,140 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-057
|
||||
stage: analysis
|
||||
author_agent: analyst
|
||||
status: ready-for-review
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 01 — BRD (бизнес-требования): ORCH-057 — нормализация legacy root-owned файлов при миграции на uid 1000 (one-time + защита)
|
||||
|
||||
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: analysis
|
||||
|
||||
## 1. Бизнес-контекст и проблема
|
||||
|
||||
ORCH-040 перевёл оба контейнера (`orchestrator` 8500, `orchestrator-staging` 8501) с root
|
||||
на `user: "1000:1000"` (slin). Изменён был **только** `docker-compose.yml`. Однако bind-mount
|
||||
`/home/slin/repos → /repos` уже содержал файлы и каталоги, созданные **прежним root-контейнером**
|
||||
(`root:root`). Смена `user:` владельца существующих файлов НЕ меняет.
|
||||
|
||||
**Реальный инцидент (прод, 06.06, поймали на первом запуске ORCH-043).** Первый job под uid 1000
|
||||
упал на стадии **launch** (НЕ на коде задачи):
|
||||
|
||||
```
|
||||
fatal: could not create leading directories of
|
||||
'/repos/_wt/orchestrator/feature_ORCH-043-.../.git': Permission denied
|
||||
```
|
||||
|
||||
Причина: `/repos/_wt/` и старые worktree-папки = `root:root` → uid 1000 не может создать рядом
|
||||
новый каталог worktree. Установлено фактически: ошибка возникает в `src/git_worktree.py::ensure_worktree`
|
||||
(вызов `git worktree add`), куда конвейер приходит из `src/agents/launcher.py::_spawn` (стр. 500)
|
||||
и `_materialize_deferred_branch` (ORCH-088). Агент даже не стартует — падает создание worktree.
|
||||
|
||||
**Ручной workaround (применён Стрим, прод снова рабочий, ОДНОРАЗОВО):**
|
||||
```
|
||||
sudo chown -R 1000:1000 /home/slin/repos/_wt
|
||||
sudo chown -R 1000:1000 /home/slin/repos/orchestrator/.git /home/slin/repos/enduro-trails/.git
|
||||
sudo chown -R 1000:1000 /home/slin/repos/orchestrator # +data/runs/*.log (37 root-логов)
|
||||
```
|
||||
|
||||
ADR-001 ORCH-040 упоминал «массовый chown старых root-файлов» лишь абстрактно («вне объёма кода»,
|
||||
«разовая операция Owner») и НЕ дал конкретной процедуры чистки legacy worktree — поэтому deployer
|
||||
её не выполнил, и баг проявился в проде. Прод сейчас рабочий (ручной фикс наложен), но проблема
|
||||
**воспроизведётся** на чистой среде, новом репо или после любого исторического запуска под root,
|
||||
если её не закрыть кодом + процедурой.
|
||||
|
||||
**Это follow-up / закрытие недоделанного AC ORCH-040** (legacy-файлы), а не новая фича.
|
||||
|
||||
## 2. Объём (scope)
|
||||
|
||||
### В объёме
|
||||
- **Защита launcher (код):** при `Permission denied` на создании worktree выдавать **внятную,
|
||||
диагностируемую** ошибку «legacy root-файлы в `/repos/_wt` — требуется нормализация прав»
|
||||
с указанием команды, а НЕ сырой `git fatal`.
|
||||
- **Раннее обнаружение (код):** детектирование наличия файлов с `uid != <target_uid>` в
|
||||
`ORCH_REPOS_DIR` (включая `_wt`, `.git/objects`, `.git/worktrees`, `data/runs`) при старте
|
||||
контейнера / перед претензией на job — чтобы конвейер падал **внятно и заранее**, а не сырым
|
||||
git-фаталом на launch.
|
||||
- **Процедура нормализации (документация):** в `docs/operations/INFRA.md` (и собственный ADR
|
||||
ORCH-057) — обязательная одноразовая процедура нормализации legacy root-файлов при миграции uid,
|
||||
с точными командами и областью охвата (`_wt`, `.git`, `data/runs`).
|
||||
- **Опционально (по решению архитектора):** механизм one-time нормализации при буте/деплое —
|
||||
init-контейнер/хук под root, либо blocking-entrypoint-проверка.
|
||||
|
||||
### Вне объёма
|
||||
- Изменение логики конвейера, `STAGE_TRANSITIONS`, `QG_CHECKS`, `check_*`, схемы БД.
|
||||
- Пересмотр самого решения ORCH-040 (uid 1000) — оно принято и остаётся.
|
||||
- Перенос инстанса на другой хост / другой uid (отдельная задача при миграции хоста).
|
||||
- Массовая ретроактивная переработка ADR-001 ORCH-040 (его история не переписывается;
|
||||
допускается forward-breadcrumb-ссылка на ORCH-057 — решает архитектор).
|
||||
- Выбор конкретного варианта реализации one-time нормализации (a/b/в) — зона архитектора (06-adr).
|
||||
|
||||
## 3. Заинтересованные стороны
|
||||
|
||||
- **Заказчик / Owner** — Слава (homenet542), инициатор; принимает результат.
|
||||
- **Эксплуатация** — Стрим (применял ручной workaround); потребитель процедуры в INFRA.md.
|
||||
- **Затронутые проекты** — `orchestrator` (self-hosting) и `enduro-trails` (общий инстанс, общая
|
||||
очередь, общий bind-mount `/repos`): нормализация прав `/repos` касается обоих репо.
|
||||
|
||||
## 4. Бизнес-требования (BR)
|
||||
|
||||
- **BR-1** — После миграции контейнера на новый uid конвейер запускается **без ручного `chown`**:
|
||||
либо авто-нормализация прав, либо **явная блокирующая ошибка с инструкцией** (никогда не сырой
|
||||
`git fatal` на launch).
|
||||
- **BR-2** — На свежей среде / новом репо / после исторического запуска под root проблема
|
||||
**не воспроизводится** (детект + понятная диагностика срабатывают до падения агента).
|
||||
- **BR-3** — `INFRA.md` и ADR содержат **конкретную процедуру** нормализации legacy root-файлов
|
||||
(точные команды, область: `_wt`, `.git/objects`, `.git/worktrees`, `data/runs`), помеченную как
|
||||
обязательный шаг миграции uid.
|
||||
- **BR-4** — Несоответствие владельца наблюдаемо: оператор узнаёт о проблеме из лога/уведомления/
|
||||
read-only статуса, а не по падению задачи на launch.
|
||||
- **BR-5** — Защита `ensure_worktree` распознаёт класс ошибки «нет прав на создание worktree» и
|
||||
сообщает причину + лечащую команду (опц. — авто-самолечение, если процесс имеет права).
|
||||
|
||||
## 5. Нефункциональные требования (NFR)
|
||||
|
||||
- **NFR-1 (self-hosting безопасность)** — Решение **никогда** не перезапускает/не роняет
|
||||
прод-контейнер `orchestrator`, не трогает `main`/force-push/прод-образ. Контейнер бежит под
|
||||
uid 1000 (без root) → код **не может** делать `chown` без root; код ограничивается
|
||||
детектом + внятной диагностикой/блокировкой, а фактический `chown` — операторская/init-процедура.
|
||||
- **NFR-2 (общий инстанс)** — Нулевая регрессия для `enduro-trails`: feature под kill-switch и
|
||||
scope-флагом (по образцу `serial_gate`/`coverage_gate`); выключено → поведение 1:1 как до ORCH-057.
|
||||
- **NFR-3 (never-raise / fail-safe)** — Детект-леаф никогда не бросает наружу неожиданное исключение
|
||||
и не блокирует старт сервиса по своей ошибке; деградирует в WARNING.
|
||||
- **NFR-4 (идемпотентность)** — Повторный запуск детекта/нормализации на уже корректной среде —
|
||||
no-op без побочных эффектов.
|
||||
- **NFR-5 (обратимость)** — Поведение откатывается выключением kill-switch без миграций/правки схемы.
|
||||
- **NFR-6 (наблюдаемость)** — Вердикт (есть/нет mismatch, сколько файлов, какие корни) логируется
|
||||
структурно; при проблеме — Telegram с кликабельным номером задачи (если применимо) + read-only
|
||||
отражение в `GET /queue`.
|
||||
|
||||
## 6. Допущения и ограничения
|
||||
|
||||
- Целевой uid:gid рантайма = `1000:1000` (slin), подтверждён ORCH-040 (P-3); на хосте `/repos`,
|
||||
`/app/data` штатно `1000:1000`.
|
||||
- Контейнер бежит под numeric uid 1000 без записи в `/etc/passwd` базового образа; в образе создан
|
||||
реальный user `slin` (uid 1000) для `getpwuid()` (ORCH-058, Dockerfile). Под uid 1000 `chown`
|
||||
чужих (root) файлов **невозможен** без CAP_CHOWN/root.
|
||||
- `git config --system --add safe.directory '*'` уже в образе — git доверяет bind-mount.
|
||||
- Корни проверки: `ORCH_REPOS_DIR` (`/repos`), включая `_wt`, `<repo>/.git/objects`,
|
||||
`<repo>/.git/worktrees`, и `data/runs` (37 root-логов в инциденте).
|
||||
- `start_pipeline` (ORCH-088) отложил срез ветки на момент claim analyst-job → детект уместен
|
||||
и на старте сервиса, и перед claim'ом (точку выбирает архитектор).
|
||||
|
||||
## 7. Критерии успеха
|
||||
|
||||
После миграции uid (или на чистой среде) первый же job проходит launch без ручного `chown`, либо —
|
||||
если права не нормализованы — конвейер выдаёт **понятную блокирующую диагностику** с командой
|
||||
исправления вместо сырого `git fatal`. INFRA.md/ADR содержат воспроизводимую процедуру.
|
||||
Для `enduro-trails` — нулевая регрессия. Детальные PASS/FAIL — в `03-acceptance-criteria.md`.
|
||||
|
||||
## 8. Риски
|
||||
|
||||
- Контейнер без root не может `chown` → авто-самолечение возможно только частично/при наличии прав;
|
||||
основной гарант — детект+диагностика+процедура (детали — `10-tech-risks.md`, архитектор).
|
||||
- Рекурсивный обход больших `.git/objects` / `_wt` может быть дорог → нужен дешёвый/семплированный
|
||||
детект и кэш (как preflight TTL).
|
||||
- Ложно-блокирующая ошибка может застопорить и enduro-trails (общий `/repos`) → строгий scope/fail-safe.
|
||||
- Правка `docker-compose.yml`/entrypoint (init-контейнер) = деплой self → групповой риск (NFR-1),
|
||||
обязательная страховка staging.
|
||||
@@ -1,117 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-057
|
||||
stage: analysis
|
||||
author_agent: analyst
|
||||
status: ready-for-review
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 02 — ТЗ (TRZ): ORCH-057 — нормализация legacy root-owned файлов при миграции на uid 1000
|
||||
|
||||
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: analysis
|
||||
|
||||
> ТЗ описывает **конкретные изменения к реализации**, выведенные из BRD и фактического кода.
|
||||
> Архитектурное обоснование/выбор варианта one-time нормализации (init-контейнер vs blocking-entrypoint
|
||||
> vs ансибл) — задача архитектора (`06-adr/`). Здесь — требования, контракты и ограничения.
|
||||
|
||||
## 1. Сводка изменения
|
||||
|
||||
Закрыть недоделанный AC ORCH-040 по legacy-файлам. Три слоя:
|
||||
1. **Защита launcher** — `ensure_worktree` распознаёт `Permission denied`/git-fatal на создании
|
||||
worktree и поднимает **внятную** ошибку с диагнозом «legacy root-файлы в `/repos/_wt` — нужна
|
||||
нормализация прав» + лечащая команда (опц. авто-самолечение при наличии прав).
|
||||
2. **Ранний детект** — новый чистый леаф находит файлы с `uid != target_uid` в `ORCH_REPOS_DIR`
|
||||
(`_wt`, `.git/objects`, `.git/worktrees`, `data/runs`); вызывается на старте сервиса и/или перед
|
||||
claim'ом job; never-raise, config-gated, с наблюдаемостью.
|
||||
3. **Процедура** — `INFRA.md` + ADR ORCH-057: точные команды разовой нормализации как обязательный
|
||||
шаг миграции uid. Опционально — one-time нормализация под root через init-механизм (решает архитектор).
|
||||
|
||||
Инвариант: `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict-ключи / схема БД —
|
||||
**байт-в-байт прежние**. Изменение аддитивно и обратимо kill-switch'ем.
|
||||
|
||||
## 2. Задействованные модули / пути
|
||||
|
||||
| Путь | Действие |
|
||||
|------|----------|
|
||||
| `src/git_worktree.py` (`ensure_worktree`, `remove_worktree`) | изменить — классификация `Permission denied`/git-fatal на `git worktree add` / `os.makedirs` → внятный actionable `RuntimeError` (опц. self-heal при правах) |
|
||||
| `src/fs_normalize.py` | **создать** — чистый леаф (never-raise): `scan_ownership(roots, target_uid) -> результат`; опц. `normalize(...)` (chown только при наличии прав); хелпер `applies(repo)` + кэш (TTL, как preflight) |
|
||||
| `src/config.py` | изменить — добавить флаги (см. §7); без правки существующих значений |
|
||||
| `src/main.py` (`lifespan`) | изменить — добавить startup-вызов детекта (best-effort, never-fatal по образцу L-2/lease-reclaim), лог + Telegram при mismatch; read-only блок в `GET /queue` |
|
||||
| `src/preflight.py` **или** `src/queue_worker.py` | изменить (на выбор архитектора) — опц. гейт claim'а job при обнаруженном mismatch, чтобы падать внятно ДО launch (по образцу preflight-гейта) |
|
||||
| `docker-compose.yml` / `Dockerfile` / `scripts/*entrypoint*` | **кандидат** (решает архитектор) — one-time root-нормализация (init-контейнер/хук) ПЕРЕД стартом app; если выбрано — деплой self, обязательная staging-страховка |
|
||||
| `docs/operations/INFRA.md` | изменить — раздел «Миграция uid: обязательная нормализация legacy root-файлов» (команды + область) |
|
||||
| `docs/work-items/ORCH-057/06-adr/ADR-001-*.md` | создать (architect) — решение + процедура; опц. forward-breadcrumb из ADR-001 ORCH-040 (без переписывания истории) |
|
||||
| `CHANGELOG.md` | изменить — запись о ORCH-057 |
|
||||
| `tests/test_*` | создать — см. `04-test-plan.yaml` |
|
||||
|
||||
## 3. Функциональные требования
|
||||
|
||||
### FR-1 — Внятная ошибка `ensure_worktree` (BR-1, BR-5)
|
||||
При неуспехе `git worktree add` / `os.makedirs(os.path.dirname(wt))` по причине отказа доступа
|
||||
(`Permission denied`, `could not create leading directories`, `insufficient permission for adding an
|
||||
object`) `ensure_worktree` поднимает `RuntimeError` с сообщением, которое: (а) называет корневую
|
||||
причину (legacy root-owned файлы в `/repos/_wt` или `.git` после миграции uid ORCH-040); (б) указывает
|
||||
лечащую команду (`chown -R <uid>:<gid> …`) или ссылку на процедуру INFRA.md; (в) НЕ является сырым
|
||||
git stderr. Прочие (нет-прав-несвязанные) ошибки сохраняют текущий контракт (никакой подмены смысла).
|
||||
|
||||
### FR-2 — Детект несоответствия владельца (BR-2, BR-4)
|
||||
Леаф `fs_normalize.scan_ownership` обходит корни (`/repos/_wt`, `<repo>/.git/objects`,
|
||||
`<repo>/.git/worktrees`, `data/runs`) и возвращает: есть ли файлы с `uid != target_uid`, их число
|
||||
(или флаг «≥1»), список затронутых корней. Обход дешёвый/ограниченный (ранний выход при первом
|
||||
mismatch для быстрого вердикта; полный подсчёт — опционально/семплировано). Результат кэшируется по
|
||||
TTL (по образцу `preflight._cache`). `target_uid` = `os.getuid()` или конфиг (дефолт 1000).
|
||||
|
||||
### FR-3 — Реакция на детект (BR-1, BR-4)
|
||||
- **Startup (main.lifespan):** вызвать детект best-effort; при mismatch — структурный WARNING +
|
||||
Telegram (если включён) с числом/корнями и лечащей командой. Никогда не падать на старте по
|
||||
ошибке детекта (NFR-3).
|
||||
- **Опц. гейт claim'а:** при обнаруженном mismatch и `target_uid` без прав на chown — не претендовать
|
||||
на job (или претендовать и сразу честно фейлить с FR-1-сообщением), чтобы исход был внятным до launch.
|
||||
Конкретную точку (preflight vs queue_worker) выбирает архитектор; требование — «внятно и заранее».
|
||||
|
||||
### FR-4 — Опциональная авто-нормализация (BR-1)
|
||||
`fs_normalize.normalize` выполняет `chown -R target_uid:target_gid` по корням **только если процесс
|
||||
имеет на это право** (CAP_CHOWN/root). Под uid 1000 без прав — no-op + честный лог «нужна операторская
|
||||
процедура» (НЕ ошибка). Включается отдельным флагом (`*_AUTO`), по умолчанию — выкл (детект-only).
|
||||
Если архитектор выбирает init-контейнер под root — это и есть носитель FR-4 на буте.
|
||||
|
||||
### FR-5 — Документированная процедура (BR-3)
|
||||
`INFRA.md` получает раздел с точными командами разовой нормализации (`_wt`, оба `.git`, `data/runs`),
|
||||
помеченный как **обязательный** шаг миграции uid и часть чеклиста деплоя self. ADR ORCH-057 фиксирует
|
||||
решение и ссылается на процедуру; ADR-001 ORCH-040 опц. получает forward-ссылку.
|
||||
|
||||
## 4. Изменения API
|
||||
|
||||
Нет новых обязательных эндпоинтов. **Опционально** (наблюдаемость, решает архитектор):
|
||||
- расширить `GET /queue` read-only блоком `fs_ownership` (`{enabled, target_uid, mismatch, roots, checked_at}`);
|
||||
- ручной триггер `POST /fs-normalize/check` (форс-пересчёт детекта) — по образцу `POST /serial-gate/unfreeze`.
|
||||
|
||||
## 5. Изменения схемы БД
|
||||
|
||||
Нет. Состояние детекта — в памяти (TTL-кэш), как `preflight`. Таблицы/миграции/индексы не вводятся.
|
||||
|
||||
## 6. Требования к новым/изменённым QG checks
|
||||
|
||||
Нет. Это **не** stage-гейт и **не** под-гейт ребра. `QG_CHECKS` / `check_*` / `STAGE_TRANSITIONS` /
|
||||
machine-verdict-ключи (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`/
|
||||
`coverage_status:`) — не трогаются. (В описании баг-репорта «deploy-гейт ORCH-040» — это деплой-хук/
|
||||
процедура, а не зарегистрированный QG.)
|
||||
|
||||
## 7. Совместимость / регресс
|
||||
|
||||
- **Kill-switch** `ORCH_FS_NORMALIZE_ENABLED` (дефолт по решению архитектора; `False` → весь код инертен,
|
||||
поведение 1:1 как до ORCH-057).
|
||||
- **Scope** `ORCH_FS_NORMALIZE_REPOS` (CSV; пусто → **self-hosting only**, как `coverage_gate_repos` →
|
||||
enduro-trails не затронут). Локальный `applies(repo)` проверяется ПЕРВЫМ (дешёвый обход только при applies).
|
||||
- **Флаги** (рабочие имена, финал — за архитектором): `ORCH_FS_TARGET_UID` (дефолт 1000),
|
||||
`ORCH_FS_NORMALIZE_AUTO` (дефолт `False` — детект-only; `True` → попытка chown при наличии прав),
|
||||
`ORCH_FS_SCAN_ROOTS` (CSV переопределения корней), `ORCH_FS_SCAN_CACHE_TTL_S`.
|
||||
- **Never-raise / fail-safe** — ошибка детекта/нормализации деградирует в WARNING, не блокирует старт
|
||||
сервиса по своей вине; FR-1 меняет лишь **формулировку** ошибки worktree, не её факт.
|
||||
- **Self-hosting** (NFR-1) — код только читает/детектит/диагностирует (и chown ТОЛЬКО при наличии прав);
|
||||
не деплоит/не рестартит прод/не трогает `main`. Любое касание `docker-compose.yml`/entrypoint требует
|
||||
staging-прогона (8501) перед прод-рестартом в окно тишины.
|
||||
- **Обратимость** — выкл kill-switch → прежнее поведение; миграций/правки схемы нет.
|
||||
- **Пайплайн-артефакты:** обновляются `01..04` (analysis), `06-adr/`+`07-infra-requirements.md`+`10-tech-risks.md`
|
||||
(architecture), `12/13/15/14` (review/testing/staging/deploy), `INFRA.md`, `CHANGELOG.md`.
|
||||
@@ -1,99 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-057
|
||||
stage: analysis
|
||||
author_agent: analyst
|
||||
status: ready-for-review
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 03 — Критерии приёмки (Acceptance Criteria): ORCH-057 — нормализация legacy root-owned файлов
|
||||
|
||||
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: analysis
|
||||
|
||||
Формат: каждый критерий имеет **PASS** (что должно быть истинно для приёмки) и **FAIL**
|
||||
(что считается провалом). Любой машинный/ручной reviewer проверяет их буквально по файлам репозитория.
|
||||
|
||||
---
|
||||
|
||||
## AC-1 — Конвейер стартует без ручного chown (или внятная блокирующая ошибка)
|
||||
|
||||
**Условие:** после миграции контейнера на новый uid первый job не падает сырым git-фаталом на launch.
|
||||
- **PASS:** при нормализованных правах worktree создаётся и агент стартует; при НЕнормализованных
|
||||
правах конвейер выдаёт понятную блокирующую ошибку с диагнозом и лечащей командой (НЕ сырой
|
||||
`fatal: could not create leading directories … Permission denied`).
|
||||
- **FAIL:** на launch всплывает сырой git-fatal/Permission denied без диагноза причины и инструкции.
|
||||
|
||||
---
|
||||
|
||||
## AC-2 — `ensure_worktree` даёт actionable-ошибку при отказе доступа
|
||||
|
||||
**Условие:** `src/git_worktree.py::ensure_worktree` классифицирует ошибки прав.
|
||||
- **PASS:** при `Permission denied`/`could not create leading directories`/`insufficient permission`
|
||||
поднимается `RuntimeError`, текст которого называет причину (legacy root-файлы в `/repos/_wt`/`.git`
|
||||
после миграции uid) и указывает команду/ссылку на процедуру; ошибки, не связанные с правами,
|
||||
сохраняют прежний контракт.
|
||||
- **FAIL:** сырой git stderr пробрасывается без диагноза; либо подменяется смысл не-прав-ошибок;
|
||||
либо `ensure_worktree` падает необработанно.
|
||||
|
||||
---
|
||||
|
||||
## AC-3 — Детект несоответствия владельца
|
||||
|
||||
**Условие:** новый леаф `src/fs_normalize.py` обнаруживает файлы с `uid != target_uid` в корнях
|
||||
(`/repos/_wt`, `<repo>/.git/objects`, `<repo>/.git/worktrees`, `data/runs`).
|
||||
- **PASS:** на среде с root-файлами `scan_ownership` возвращает mismatch=True + затронутые корни;
|
||||
на чистой (`1000:1000`) среде — mismatch=False (no-op, идемпотентно); леаф never-raise.
|
||||
- **FAIL:** mismatch не обнаружен на грязной среде / ложный mismatch на чистой / леаф бросает наружу.
|
||||
|
||||
---
|
||||
|
||||
## AC-4 — Наблюдаемость детекта
|
||||
|
||||
**Условие:** результат детекта виден оператору без падения задачи.
|
||||
- **PASS:** при mismatch — структурный лог-WARNING (число/корни/лечащая команда) и Telegram (если
|
||||
включён); опц. read-only отражение в `GET /queue`.
|
||||
- **FAIL:** mismatch обнаружен, но никак не сообщён; оператор узнаёт о проблеме только по упавшей задаче.
|
||||
|
||||
---
|
||||
|
||||
## AC-5 — Self-hosting безопасность и нулевая регрессия enduro-trails
|
||||
|
||||
**Условие:** изменение безопасно для общего инстанса.
|
||||
- **PASS:** код не рестартит/не роняет прод, не трогает `main`/force-push/прод-образ; chown — только
|
||||
при наличии прав; при выключенном kill-switch поведение 1:1 как до ORCH-057; при пустом scope-CSV
|
||||
feature активен только для self-hosting (enduro-trails не затронут); регресс `pytest tests/ -q` зелёный.
|
||||
- **FAIL:** любой рестарт/деградация прода из кода задачи; ненулевая регрессия enduro-trails;
|
||||
поведение меняется при выключенном флаге; падение всего регресса.
|
||||
|
||||
---
|
||||
|
||||
## AC-6 — Инварианты конвейера сохранены
|
||||
|
||||
**Условие:** изменение аддитивно.
|
||||
- **PASS:** `STAGE_TRANSITIONS`, `QG_CHECKS`, `check_*`, machine-verdict-ключи и схема БД —
|
||||
байт-в-байт прежние; новые флаги аддитивны и обратимы.
|
||||
- **FAIL:** затронут любой exit/под-гейт, изменён machine-key, добавлена миграция схемы.
|
||||
|
||||
---
|
||||
|
||||
## AC-7 — Документированная процедура нормализации
|
||||
|
||||
**Условие:** процедура воспроизводима.
|
||||
- **PASS:** `INFRA.md` содержит раздел «Миграция uid: обязательная нормализация legacy root-файлов»
|
||||
с точными командами (`_wt`, оба `.git`, `data/runs`) как обязательный шаг миграции; ADR ORCH-057
|
||||
фиксирует решение и ссылается на процедуру.
|
||||
- **FAIL:** процедура отсутствует/абстрактна (как было в ORCH-040) либо не покрывает все корни.
|
||||
|
||||
---
|
||||
|
||||
## Сводная матрица AC ↔ FR/BR
|
||||
| AC | Покрывает |
|
||||
|----|-----------|
|
||||
| AC-1 | BR-1 / FR-1, FR-3 |
|
||||
| AC-2 | BR-1, BR-5 / FR-1 |
|
||||
| AC-3 | BR-2 / FR-2 |
|
||||
| AC-4 | BR-4 / FR-3 |
|
||||
| AC-5 | NFR-1, NFR-2, NFR-5 / FR-4 |
|
||||
| AC-6 | NFR-5 (инварианты) |
|
||||
| AC-7 | BR-3 / FR-5 |
|
||||
@@ -1,92 +0,0 @@
|
||||
work_item: ORCH-057
|
||||
stage: analysis
|
||||
author_agent: analyst
|
||||
status: ready-for-review
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
title: "Нормализация legacy root-owned файлов при миграции на uid 1000 (детект + защита worktree)"
|
||||
framework: pytest
|
||||
scope: >
|
||||
Покрывается: классификация ошибки прав в ensure_worktree (внятная actionable-ошибка),
|
||||
детект несоответствия владельца (fs_normalize.scan_ownership), идемпотентность на чистой среде,
|
||||
fail-safe/never-raise, scope/kill-switch (self-hosting only при пустом CSV), опц. self-heal-noop
|
||||
без прав. ВНЕ покрытия: реальный chown под root (требует привилегий — проверяется на staging
|
||||
вручную), правка docker-compose/entrypoint (инфра, ручная проверка на 8501).
|
||||
notes: >
|
||||
Все FS-зависимые тесты используют tmp_path и monkeypatch os.getuid/os.stat — без реального chown
|
||||
и без записи в /repos. Telegram/Plane мокаются. Полный регресс tests/ должен оставаться зелёным;
|
||||
STAGE_TRANSITIONS/QG_CHECKS/схема БД не затрагиваются — отдельные guard-тесты не требуются, но
|
||||
существующие тесты на инварианты должны пройти без изменений.
|
||||
|
||||
tests:
|
||||
- id: TC-01
|
||||
type: unit
|
||||
description: "ensure_worktree при git-fatal 'could not create leading directories / Permission denied' поднимает RuntimeError с диагнозом legacy-root + лечащей командой, а не сырой git stderr"
|
||||
module: tests/test_git_worktree_perm.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-02
|
||||
type: unit
|
||||
description: "ensure_worktree при ошибке, НЕ связанной с правами (например branch conflict), сохраняет прежний контракт сообщения (не подменяет смысл)"
|
||||
module: tests/test_git_worktree_perm.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-03
|
||||
type: unit
|
||||
description: "scan_ownership на дереве с файлом uid != target_uid возвращает mismatch=True и список затронутых корней"
|
||||
module: tests/test_fs_normalize.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-04
|
||||
type: unit
|
||||
description: "scan_ownership на чистом дереве (все файлы target_uid) возвращает mismatch=False (идемпотентный no-op)"
|
||||
module: tests/test_fs_normalize.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-05
|
||||
type: unit
|
||||
description: "scan_ownership never-raise: при недоступном/несуществующем корне деградирует в WARNING и не бросает наружу"
|
||||
module: tests/test_fs_normalize.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-06
|
||||
type: unit
|
||||
description: "applies(repo): пустой ORCH_FS_NORMALIZE_REPOS → True только для self-hosting репо (orchestrator), False для enduro-trails; непустой CSV — по списку"
|
||||
module: tests/test_fs_normalize.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-07
|
||||
type: unit
|
||||
description: "kill-switch ORCH_FS_NORMALIZE_ENABLED=False → scan/normalize инертны (no-op), поведение 1:1 как до ORCH-057"
|
||||
module: tests/test_fs_normalize.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-08
|
||||
type: unit
|
||||
description: "normalize без прав (uid 1000, чужие root-файлы, ORCH_FS_NORMALIZE_AUTO=True) → no-op + честный лог 'нужна операторская процедура', НЕ исключение"
|
||||
module: tests/test_fs_normalize.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-09
|
||||
type: unit
|
||||
description: "TTL-кэш детекта: повторный вызов в окне TTL не пере-сканирует дерево (по образцу preflight._cache); force/reset инвалидирует"
|
||||
module: tests/test_fs_normalize.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-10
|
||||
type: integration
|
||||
description: "startup-хук lifespan при mismatch вызывает send_telegram (мок) и логирует WARNING; при ошибке детекта старт сервиса не падает (never-fatal)"
|
||||
module: tests/test_fs_normalize_startup.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-11
|
||||
type: integration
|
||||
description: "опц. гейт claim'а: при обнаруженном mismatch без прав исход job внятный (FR-1-сообщение / не-claim) ДО launch, а не сырой git-fatal"
|
||||
module: tests/test_fs_normalize_startup.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-12
|
||||
type: integration
|
||||
description: "GET /queue (если реализован read-only блок fs_ownership) отдаёт {enabled,target_uid,mismatch,roots,checked_at} и не 5xx-ит при выключенном флаге"
|
||||
module: tests/test_api_queue.py
|
||||
expected: PASS
|
||||
@@ -1,210 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-057
|
||||
stage: architecture
|
||||
author_agent: architect
|
||||
status: proposed
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# ADR-001: Нормализация legacy root-owned файлов при миграции на uid 1000 — детект + actionable-ошибка + процедура
|
||||
|
||||
Work Item: **ORCH-057** — follow-up ORCH-040 (legacy `root:root` файлы в `/repos` ломают создание worktree под uid 1000)
|
||||
Стадия: **architecture**
|
||||
Сквозная регистрация: **`docs/architecture/adr/adr-0031-legacy-ownership-normalization.md`** (новый
|
||||
leaf-компонент + startup-поведение, затрагивает весь инстанс → кросс-каттинг).
|
||||
|
||||
## Статус
|
||||
Proposed
|
||||
|
||||
## Контекст
|
||||
|
||||
ORCH-040 перевёл оба контейнера на `user: "1000:1000"`, изменив **только** `docker-compose.yml`.
|
||||
Смена `user:` не меняет владельца уже существующих файлов, созданных прежним root-контейнером.
|
||||
Bind-mount `/home/slin/repos → /repos` содержал `root:root` каталоги (`_wt/`, старые worktree,
|
||||
`.git/objects`, `data/runs` — 37 root-логов).
|
||||
|
||||
**Сверено по коду:**
|
||||
- `src/git_worktree.py::ensure_worktree` (стр. 78 `os.makedirs(os.path.dirname(wt))`, стр. 81/85
|
||||
`git worktree add`) — точка реального падения. При `root:root` владельце `/repos/_wt/` uid 1000
|
||||
не может создать рядом новый каталог worktree → `fatal: could not create leading directories …
|
||||
Permission denied`. Сейчас этот stderr пробрасывается «сырым» в `RuntimeError` (стр. 90–93) без
|
||||
диагноза причины.
|
||||
- Конвейер приходит сюда из `src/agents/launcher.py::_spawn` и `_materialize_deferred_branch`
|
||||
(ORCH-088, отложенный срез ветки на момент claim analyst-job). **Агент не стартует** — падает
|
||||
создание worktree (НЕ код задачи), т.е. это launch-time инфраструктурный сбой.
|
||||
- Контейнер бежит под numeric uid 1000 **без root** (ORCH-040 P-3, ORCH-058 реальный user `slin`
|
||||
в образе). Под uid 1000 `chown` чужих (root) файлов **невозможен** без `CAP_CHOWN`. Значит код
|
||||
физически не может «починить» права сам — ему доступны только **детект + диагностика**, а
|
||||
фактический `chown` — операторская процедура.
|
||||
- ADR-001 ORCH-040 упоминал «массовый chown старых root-файлов» лишь абстрактно («вне объёма кода»,
|
||||
«разовая операция Owner») и не дал конкретной процедуры → deployer её не выполнил → баг проявился
|
||||
в проде 06.06 на первом запуске ORCH-043. Прод сейчас рабочий (ручной workaround Стрима наложен),
|
||||
но проблема **воспроизводится** на чистой среде / новом репо / после любого исторического запуска
|
||||
под root.
|
||||
|
||||
Это **закрытие недоделанного AC ORCH-040**, а не новая фича. Существующие гейты/паттерны для опоры:
|
||||
условный leaf-гейт `coverage_gate`/`serial_gate` (kill-switch + scope + `is_self_hosting_repo`),
|
||||
best-effort startup-хуки в `main.lifespan` (lease-reclaim, log-rotation — never-fatal),
|
||||
read-only снимки `GET /queue` (`serial_gate.snapshot()`), TTL-кэш `preflight._cache`.
|
||||
|
||||
## Решение
|
||||
|
||||
### Сводка
|
||||
Три аддитивных, обратимых kill-switch'ем слоя, **без** изменения `STAGE_TRANSITIONS` / `QG_CHECKS` /
|
||||
`check_*` / machine-verdict-ключей / схемы БД:
|
||||
|
||||
1. **Actionable-ошибка** в `ensure_worktree` — класс «нет прав на создание worktree» распознаётся и
|
||||
превращается в диагностируемый `RuntimeError` с причиной + лечащей командой (FR-1).
|
||||
2. **Детект-леаф** `src/fs_normalize.py` — чистый, never-raise, TTL-кэшируемый обход корней, ищет
|
||||
файлы с `uid != target_uid` (FR-2); вызывается best-effort на старте сервиса с наблюдаемостью
|
||||
(FR-3).
|
||||
3. **Операторская процедура** в `INFRA.md` + forward-breadcrumb из ADR-040 — точные команды разовой
|
||||
нормализации как обязательный шаг миграции uid (FR-5).
|
||||
|
||||
Фактический `chown` остаётся **операторской процедурой** (NFR-1: код под uid 1000 без root его делать
|
||||
не может и не должен).
|
||||
|
||||
### D1 — `ensure_worktree`: классификация отказа доступа (FR-1, AC-1, AC-2)
|
||||
Оборачиваем **обе** точки сбоя по правам — `os.makedirs(os.path.dirname(wt))` (стр. 78) и оба
|
||||
`git worktree add` (стр. 81/85). Класс «нет прав» детектируется по маркерам в `stderr`/исключении:
|
||||
`Permission denied`, `could not create leading directories`, `insufficient permission for adding an
|
||||
object`, `PermissionError` (errno `EACCES`/`EPERM`). При совпадении — `RuntimeError`, текст которого:
|
||||
(а) называет корневую причину («legacy root-owned файлы в `/repos/_wt` или `.git` после миграции uid
|
||||
ORCH-040»); (б) указывает лечащую команду (`chown -R <target_uid>:<gid> /repos/_wt …`) и ссылку на
|
||||
раздел INFRA.md; (в) **не** является сырым git stderr.
|
||||
|
||||
**Инвариант контракта (AC-2 FAIL-условие):** ошибки, **не** связанные с правами (реальный git-конфликт,
|
||||
отсутствие `origin/main`, таймаут), сохраняют **прежний** текст/смысл — никакой подмены. Классификатор —
|
||||
чистая функция `classify_worktree_error(stderr_or_exc) -> bool` (или хелпер в `fs_normalize`),
|
||||
покрытая юнит-тестами на обе ветки. Помощь-сообщение строится только при `True`. Это **меняет лишь
|
||||
формулировку** ошибки, не её факт (NFR-3): worktree как падал, так и падает — но теперь внятно.
|
||||
|
||||
### D2 — Детект-леаф `src/fs_normalize.py` (FR-2, AC-3)
|
||||
Новый чистый модуль по образцу `serial_gate`/`post_deploy` (импортирует только `config`/`logging`/
|
||||
`os`/`pwd`; не тянет `stage_engine`/`launcher`). API:
|
||||
|
||||
- `scan_ownership(roots: list[str] | None = None, target_uid: int | None = None) -> OwnershipScan` —
|
||||
обходит корни, возвращает `{mismatch: bool, target_uid: int, roots_checked: list, roots_mismatch:
|
||||
list, sample_path: str | None, count: int | None, checked_at: float}`.
|
||||
- **`target_uid`** по умолчанию = `os.getuid()` (uid, под которым реально бежит процесс — ровно тот
|
||||
субъект, что «не может создать файл»); переопределяется `fs_target_uid` (дефолт 1000) для тестов/
|
||||
нестандартного рантайма.
|
||||
- **Корни** по умолчанию: `/repos/_wt`, `<repo>/.git/objects`, `<repo>/.git/worktrees` (для репо из
|
||||
скоупа), `data/runs` (`os.path.dirname(settings.db_path)/runs`). Переопределяемы `fs_scan_roots`
|
||||
(CSV).
|
||||
- **Дешевизна (риск стоимости обхода):** **ранний выход при первом mismatch** (для быстрого булева
|
||||
вердикта `os.lstat(...).st_uid != target_uid`). Полный `count` — опционален/семплирован (отдельный
|
||||
дешёвый режим, по умолчанию выключен), чтобы не обходить целиком большие `.git/objects`. Результат
|
||||
**кэшируется по TTL** `fs_scan_cache_ttl_s` (паттерн `preflight._cache`, `force=` обходит кэш).
|
||||
- **never-raise (NFR-3):** любая ошибка обхода (исчезнувший путь, отказ stat) → деградирует в WARNING
|
||||
и консервативный вердикт `mismatch=False` (не блокирует и не паникует); идемпотентно (AC-3:
|
||||
повторный скан на чистой среде — `mismatch=False`, no-op).
|
||||
- **`applies(repo: str) -> bool`** — `fs_normalize_enabled` (kill-switch) И scope (`fs_normalize_repos`
|
||||
CSV; пусто → `is_self_hosting_repo(repo)`, как `coverage_gate`); проверяется **ПЕРВЫМ**, дорогой
|
||||
обход — только при `applies==True` (NFR-2: enduro-trails не сканируется при пустом CSV).
|
||||
- **`snapshot() -> dict`** — read-only для `GET /queue`.
|
||||
|
||||
### D3 — Точка интеграции: startup-наблюдаемость, БЕЗ блокировки claim (FR-3 — разрешение открытого выбора TRZ)
|
||||
TRZ §2 оставил архитектору выбор «preflight vs queue_worker» для опц. гейта claim'а. **Решение:
|
||||
claim НЕ блокируем.**
|
||||
|
||||
- **Startup (`main.lifespan`):** best-effort вызов `scan_ownership()` рядом с lease-reclaim/log-rotation
|
||||
(стр. 63–90), обёрнут `try/except` (never-fatal). При `mismatch` — структурный WARNING (число/корни/
|
||||
лечащая команда) + Telegram (если включён). Это даёт оператору **проактивный сигнал заранее**
|
||||
(AC-4), не дожидаясь падения задачи.
|
||||
- **«Внятно и заранее» обеспечивает D1, а не claim-гейт.** `ensure_worktree` знает `repo` и падает
|
||||
до того, как агент потратит хоть один токен (агент не стартует). Это и есть требуемый ранний внятный
|
||||
исход.
|
||||
|
||||
**Почему НЕ блокирующий claim-гейт (отвергнуто):**
|
||||
- `preflight.check()` **не знает repo** и гейтит claim **всех** репо → при mismatch в общем `/repos/_wt`
|
||||
заблокировал бы и enduro-trails (нарушение NFR-2 при включённом флаге). Сделать его scope-aware
|
||||
внутри preflight нельзя без знания репо в точке вызова.
|
||||
- Гейт в `queue_worker`/`db.claim_next_job` (как `serial_gate`) технически scope-aware, но: (1)
|
||||
оставил бы задачу «молча висеть» в очереди вместо явного диагноза; (2) добавил бы дорогой FS-обход
|
||||
в offline hot-path claim'а; (3) дублировал бы исход, который D1 уже даёт внятно. Лишняя поверхность
|
||||
без выигрыша.
|
||||
|
||||
Итог: **детект = наблюдаемость (startup + опц. ручной POST), а внятный отказ = D1 в точке launch.**
|
||||
|
||||
### D4 — Опциональная авто-нормализация `normalize()` (FR-4) — не init-контейнер
|
||||
`fs_normalize.normalize(roots, target_uid)` выполняет `os.chown`/`chown -R` по корням **только если
|
||||
процесс имеет `CAP_CHOWN`/root**. Под uid 1000 без прав — **no-op + честный лог** «нужна операторская
|
||||
процедура» (НЕ ошибка). Включается отдельным флагом `fs_normalize_auto` (дефолт `False` — детект-only).
|
||||
|
||||
**Init-контейнер/root-entrypoint отвергнут (см. Альтернативы):** он (а) реинтродуцирует root-контекст,
|
||||
ровно который ORCH-040 убрал ради безопасности; (б) требует правки `docker-compose.yml`/entrypoint →
|
||||
**self-deploy** с групповым риском (NFR-1) и обязательной staging-страховкой ради разовой задачи;
|
||||
(в) discretionary по BRD §2 «Опционально». Носитель реальной нормализации — **документированная
|
||||
операторская процедура** (D5), запускаемая под root **на хосте** один раз при миграции uid.
|
||||
|
||||
### D5 — Процедура в INFRA.md + forward-breadcrumb (FR-5, AC-7)
|
||||
В `docs/operations/INFRA.md` (раздел «Рантайм-uid (ORCH-040)») добавляется подраздел **«Миграция uid:
|
||||
обязательная нормализация legacy root-файлов»** с точными командами, покрывающими **все** корни
|
||||
(`_wt`, оба `.git`, `data/runs`), помеченный как **обязательный** шаг миграции uid и пункт чеклиста
|
||||
деплоя self. Существующий абстрактный буллет (стр. 50–51) заменяется ссылкой на новый подраздел.
|
||||
В ADR-040 — необязательный forward-breadcrumb на ORCH-057 (история ORCH-040 не переписывается, §2 BRD).
|
||||
|
||||
### D6 — Конфиг-флаги (TRZ §7) и наблюдаемость
|
||||
Аддитивно в `src/config.py` (существующие значения не трогаются):
|
||||
|
||||
| Флаг (env) | Дефолт | Смысл |
|
||||
|------------|--------|-------|
|
||||
| `fs_normalize_enabled` (`ORCH_FS_NORMALIZE_ENABLED`) | `True` | kill-switch; `False` → весь код инертен, поведение 1:1 как до ORCH-057 (D1 тоже гардится — при выкл. контракт ошибки прежний) |
|
||||
| `fs_normalize_repos` (`ORCH_FS_NORMALIZE_REPOS`) | `""` | scope CSV; пусто → self-hosting only (`is_self_hosting_repo`) |
|
||||
| `fs_target_uid` (`ORCH_FS_TARGET_UID`) | `1000` | целевой uid (фолбэк, если `os.getuid()` неприменим) |
|
||||
| `fs_normalize_auto` (`ORCH_FS_NORMALIZE_AUTO`) | `False` | детект-only; `True` → попытка chown при наличии прав (D4) |
|
||||
| `fs_scan_roots` (`ORCH_FS_SCAN_ROOTS`) | `""` | CSV-переопределение корней |
|
||||
| `fs_scan_cache_ttl_s` (`ORCH_FS_SCAN_CACHE_TTL_S`) | `300` | TTL детект-кэша |
|
||||
|
||||
Наблюдаемость (AC-4): read-only блок `fs_ownership` в `GET /queue` (`snapshot()`:
|
||||
`{enabled, target_uid, mismatch, roots_checked, roots_mismatch, checked_at}`); опц. ручной триггер
|
||||
`POST /fs-normalize/check` (форс-пересчёт, по образцу `POST /serial-gate/unfreeze`). Telegram при
|
||||
mismatch — с кликабельным номером задачи (если в контексте есть `work_item_id`), числом/корнями,
|
||||
лечащей командой.
|
||||
|
||||
## Альтернативы
|
||||
- **Init-контейнер / root-entrypoint, выполняющий `chown` на буте** — отвергнуто: реинтродуцирует
|
||||
root-контекст (анти-цель ORCH-040), требует правки `docker-compose.yml`/entrypoint = self-deploy +
|
||||
групповой риск + обязательная staging-страховка ради одноразовой операции; BRD помечает его
|
||||
«Опционально». Реальную нормализацию несёт документированная разовая операторская процедура.
|
||||
- **Блокирующий claim-гейт в `preflight`** — отвергнуто: preflight не знает repo → блокирует claim
|
||||
ВСЕХ репо, регресс enduro-trails на общем `/repos` (нарушение NFR-2).
|
||||
- **Блокирующий claim-гейт в `queue_worker`/`claim_next_job`** — отвергнуто: дорогой FS-обход в
|
||||
offline hot-path, «молчаливое зависание» вместо внятного диагноза, дублирует исход D1.
|
||||
- **Авто-`chown` из app-кода по умолчанию** — отвергнуто: под uid 1000 невозможен; включение по
|
||||
умолчанию создавало бы ложное ожидание самолечения. Оставлен как opt-in `fs_normalize_auto` для
|
||||
сред, где процесс имеет CAP_CHOWN.
|
||||
- **Жёсткий fail на старте при mismatch** — отвергнуто: нарушает never-raise (NFR-3) и мог бы
|
||||
застопорить старт сервиса всех проектов из-за грязного `/repos`. Детект — only WARNING/Telegram.
|
||||
|
||||
## Последствия
|
||||
- **+** Класс «сырой git-fatal на launch после миграции uid» закрыт: оператор получает внятный
|
||||
диагноз + лечащую команду в точке падения (D1) и проактивный сигнал на старте (D3).
|
||||
- **+** Воспроизводимая процедура в INFRA.md закрывает пробел ADR-040 (AC-7).
|
||||
- **+** Нулевая регрессия enduro-trails (scope `applies()` first, пустой CSV → self-hosting only);
|
||||
`STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict/схема БД — байт-в-байт прежние (AC-6).
|
||||
- **+** Никакого root-контекста, рестарта прода, касания `main`/force-push/прод-образа (NFR-1, AC-5).
|
||||
- **−** Фактический `chown` остаётся **ручным** операторским шагом — на средах, где его забыли, баг
|
||||
всё ещё проявится, но теперь **внятно** (с инструкцией), а не сырым git-fatal. Митигейшн:
|
||||
startup-WARNING+Telegram + обязательный пункт чеклиста миграции в INFRA.md.
|
||||
- **−** Ещё один best-effort startup-хук + leaf-модуль (рост поверхности). Митигейшн: чистый
|
||||
never-raise leaf, TTL-кэш, ранний выход обхода, kill-switch.
|
||||
- **−** `fs_normalize_auto=True` под root реинтродуцирует chown-контекст — поэтому дефолт `False` и
|
||||
он не для прод-self (прод бежит под uid 1000).
|
||||
- **Откат:** `fs_normalize_enabled=False` → весь код инертен (D1 контракт ошибки прежний, детект не
|
||||
запускается); миграций/правки схемы нет → мгновенный обратимый kill-switch.
|
||||
|
||||
## Ссылки
|
||||
- BRD: `docs/work-items/ORCH-057/01-brd.md`
|
||||
- TRZ: `docs/work-items/ORCH-057/02-trz.md`
|
||||
- Acceptance: `docs/work-items/ORCH-057/03-acceptance-criteria.md`
|
||||
- Инфра: `docs/work-items/ORCH-057/07-infra-requirements.md`
|
||||
- Риски: `docs/work-items/ORCH-057/10-tech-risks.md`
|
||||
- Сквозной ADR: `docs/architecture/adr/adr-0031-legacy-ownership-normalization.md`
|
||||
- Сверено по коду: `src/git_worktree.py` (`ensure_worktree` стр. 78/81/85/90), `src/preflight.py`
|
||||
(TTL-кэш), `src/main.py` (`lifespan` стр. 63–114), `src/serial_gate.py` / `src/coverage_gate.py`
|
||||
(паттерн условного leaf `applies`/scope/`is_self_hosting_repo`).
|
||||
- Предшественник: `docs/work-items/ORCH-040/06-adr/ADR-001-run-agents-as-host-uid.md`,
|
||||
`docs/architecture/adr/adr-0005-container-runs-as-host-uid.md`.
|
||||
@@ -1,63 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-057
|
||||
stage: architecture
|
||||
author_agent: architect
|
||||
status: proposed
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 07 — Инфра-требования: ORCH-057 — нормализация legacy root-owned файлов при миграции на uid 1000
|
||||
|
||||
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: architecture
|
||||
|
||||
> When-applicable. Топология контейнеров **не меняется** (init-контейнер/правка `docker-compose.yml`
|
||||
> отвергнуты — ADR-001 D4). Файл фиксирует новые env-флаги и **обязательную операторскую процедуру**
|
||||
> нормализации legacy root-файлов как шаг миграции uid.
|
||||
|
||||
## I-1. Топология / окружения
|
||||
**Без изменений.** Контейнеры `orchestrator` (8500) / `orchestrator-staging` (8501), `user:
|
||||
"1000:1000"`, bind-mount `/home/slin/repos → /repos`, `network_mode: host` — как есть. Init-контейнер
|
||||
/ root-entrypoint **сознательно НЕ вводятся** (реинтродуцировали бы root-контекст, убранный ORCH-040,
|
||||
и потребовали бы self-deploy compose с групповым риском — ADR-001 D4, Альтернативы).
|
||||
|
||||
## I-2. Переменные окружения / секреты
|
||||
Новые env-флаги (аддитивно в `src/config.py`, дефолты сохраняют поведение до ORCH-057). Добавить в
|
||||
`.env.example` (секретов нет):
|
||||
|
||||
| Env | Дефолт | Назначение |
|
||||
|-----|--------|------------|
|
||||
| `ORCH_FS_NORMALIZE_ENABLED` | `true` | kill-switch всего слоя ORCH-057 |
|
||||
| `ORCH_FS_NORMALIZE_REPOS` | `` (пусто) | scope CSV; пусто → self-hosting only (enduro не затронут) |
|
||||
| `ORCH_FS_TARGET_UID` | `1000` | целевой uid (фолбэк к `os.getuid()`) |
|
||||
| `ORCH_FS_NORMALIZE_AUTO` | `false` | детект-only; `true` → попытка chown при наличии CAP_CHOWN |
|
||||
| `ORCH_FS_SCAN_ROOTS` | `` (пусто) | CSV-переопределение корней обхода |
|
||||
| `ORCH_FS_SCAN_CACHE_TTL_S` | `300` | TTL детект-кэша |
|
||||
|
||||
Секреты не вводятся.
|
||||
|
||||
## I-3. Деплой / рестарт
|
||||
- **Self-hosting инвариант (NFR-1):** код задачи **не** рестартит/не роняет прод-контейнер
|
||||
`orchestrator`, не трогает `main`/force-push/прод-образ. `chown` из кода возможен лишь при наличии
|
||||
прав (под uid 1000 — no-op).
|
||||
- Изменение **только** `src/**` + docs → штатный деплой self **через staging-гейт (8501)**, затем
|
||||
прод-рестарт **в окно тишины** (`GET /status` без активных задач). Правки `docker-compose.yml`/
|
||||
entrypoint в задаче **нет** → нет дополнительного инфра-риска сверх обычного self-деплоя.
|
||||
- **Обязательная операторская процедура нормализации (host-prerequisite миграции uid)** — выполняется
|
||||
**под root на хосте mva154 один раз** при миграции uid / на новой среде, ПЕРЕД стартом app.
|
||||
Каноничный текст — в `docs/operations/INFRA.md` (раздел «Миграция uid: обязательная нормализация
|
||||
legacy root-файлов»). Команды покрывают все корни:
|
||||
```
|
||||
sudo chown -R 1000:1000 /home/slin/repos/_wt
|
||||
sudo chown -R 1000:1000 /home/slin/repos/orchestrator/.git \
|
||||
/home/slin/repos/enduro-trails/.git
|
||||
sudo chown -R 1000:1000 /home/slin/repos/orchestrator # incl. data/runs/*.log
|
||||
# Проверка: find /home/slin/repos/_wt ! -uid 1000 -print -quit (пусто = ок)
|
||||
```
|
||||
Идемпотентна (повтор на корректной среде — no-op). Помечена обязательным пунктом чеклиста
|
||||
деплоя/миграции self.
|
||||
|
||||
## I-4. CI/CD
|
||||
Без изменений в `.gitea/workflows/`. Новые юнит-тесты (`tests/test_fs_normalize.py`,
|
||||
`tests/test_git_worktree_perm_error.py` — см. `04-test-plan.yaml`) гоняются существующим
|
||||
`pytest tests/ -q`. Новых системных зависимостей образа нет.
|
||||
@@ -1,37 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-057
|
||||
stage: architecture
|
||||
author_agent: architect
|
||||
status: proposed
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 10 — Технические риски: ORCH-057 — нормализация legacy root-owned файлов при миграции на uid 1000
|
||||
|
||||
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: architecture
|
||||
|
||||
> Информационный (гейтом не парсится). Перечисляет риски реализации и их митигейшн.
|
||||
|
||||
## Реестр рисков
|
||||
|
||||
| ID | Риск | Вер. | Влия. | Митигейшн |
|
||||
|----|------|------|-------|-----------|
|
||||
| TR-1 | **Ложная классификация ошибки worktree** (D1): не-прав-ошибка распознана как «нет прав» → подмена смысла (FAIL AC-2). | Низ. | Сред. | Узкий набор маркеров (`Permission denied`/`could not create leading directories`/`insufficient permission`/`EACCES`/`EPERM`); классификатор — чистая функция с юнит-тестами на обе ветки; не-совпадение → прежний сырой текст без изменений. |
|
||||
| TR-2 | **Дорогой рекурсивный обход** больших `.git/objects` / `_wt` тормозит старт сервиса. | Сред. | Сред. | Ранний выход при первом mismatch (булев вердикт); полный `count` опционален/семплирован; TTL-кэш (`fs_scan_cache_ttl_s`); вызов best-effort на старте, не в hot-path claim'а; `applies()` first → обход только при applies. |
|
||||
| TR-3 | **Ложно-блокирующий эффект на enduro-trails** через общий `/repos`. | Низ. | Выс. | Claim НЕ блокируется (D3 — только наблюдаемость); scope `applies()` first, пустой CSV → self-hosting only → enduro не сканируется; детект never-raise. |
|
||||
| TR-4 | **Забытый ручной `chown`**: на среде без выполненной процедуры баг всё ещё проявится. | Сред. | Сред. | Теперь проявляется **внятно** (D1 actionable-ошибка + startup WARNING/Telegram, не сырой git-fatal); процедура — обязательный пункт чеклиста миграции в INFRA.md; идемпотентна. Остаточный риск принят (код под uid 1000 не может chown). |
|
||||
| TR-5 | **`fs_normalize_auto=True` под root** реинтродуцирует chown-контекст / неожиданный массовый chown. | Низ. | Сред. | Дефолт `False`; прод-self бежит под uid 1000 (chown = no-op); auto-режим — opt-in для сред с CAP_CHOWN; init-контейнер отвергнут (ADR-001 D4). |
|
||||
| TR-6 | **never-raise дыра**: необработанное исключение детекта роняет старт сервиса всех проектов. | Низ. | Выс. | Леаф never-raise (паттерн `serial_gate`/`post_deploy`); startup-вызов в `try/except` (как lease-reclaim/log-rotation); ошибка → WARNING + консервативный `mismatch=False`. |
|
||||
| TR-7 | **`os.getuid()` неприменим** в нестандартном рантайме → неверный target_uid → ложный mismatch. | Низ. | Низ. | Фолбэк `fs_target_uid` (дефолт 1000); идемпотентность скана; вердикт only-наблюдательный (не блокирует). |
|
||||
| TR-8 | **Кэш устарел** после выполнения нормализации → stale `mismatch=True` в `GET /queue`. | Низ. | Низ. | TTL-инвалидизация; ручной `POST /fs-normalize/check` (`force=True`) для немедленного пересчёта. |
|
||||
|
||||
## Сводный вывод
|
||||
Доминирующий класс — **операционные риски разовой нормализации**, а не алгоритмические: код только
|
||||
читает/детектит/диагностирует (chown — операторская процедура под root на хосте). Самостоятельный
|
||||
техдолг (TR-4) — остаточный и **принят**: контейнер без root физически не может починить права сам;
|
||||
решение гарантирует **внятность** отказа, а не его отсутствие. Self-hosting-безопасность соблюдена
|
||||
(никакого рестарта прода / касания `main` / root-контекста в коде). Изменение аддитивно и обратимо
|
||||
kill-switch'ем → **эскалация `arch:major-change` НЕ требуется** (нет новой стадии/QG/таблицы/смены
|
||||
топологии). Возврат в анализ не нужен — ТЗ удовлетворяется без нарушения принципов архитектуры.
|
||||
Остаточный риск для прод-конвейера — **низкий**.
|
||||
@@ -1,105 +0,0 @@
|
||||
---
|
||||
verdict: APPROVED
|
||||
work_item: ORCH-057
|
||||
stage: review
|
||||
author_agent: reviewer
|
||||
status: approved
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
type: review
|
||||
work_item_id: ORCH-057
|
||||
version: 1
|
||||
---
|
||||
|
||||
# Review ORCH-057
|
||||
|
||||
## Summary
|
||||
|
||||
Follow-up ORCH-040: закрыт недоделанный AC по legacy `root:root` файлам, ломавшим создание
|
||||
worktree под uid 1000. Реализованы три аддитивных, обратимых kill-switch'ем слоя ровно по ADR-001:
|
||||
**D1** actionable-ошибка в `ensure_worktree`, **D2** детект-леаф `src/fs_normalize.py`
|
||||
(never-raise, TTL-кэш, scope-aware), **D3** best-effort startup-наблюдаемость в `main.lifespan`
|
||||
(WARNING + Telegram, claim не блокируется), плюс `GET /queue` блок `fs_ownership` и
|
||||
`POST /fs-normalize/check`. Документация (INFRA.md процедура, architecture/README.md, сквозной
|
||||
adr-0031, CHANGELOG, .env.example) обновлена в том же PR.
|
||||
|
||||
Проверено по 4 осям; все 7 AC выполнены, P0/P1 findings нет. Регресс `pytest tests/ -q` —
|
||||
**1507 passed**; целевые модули (`test_fs_normalize`, `test_fs_normalize_startup`,
|
||||
`test_git_worktree_perm`, `test_api_queue`) — **25 passed**, покрывают TC-01…TC-12.
|
||||
|
||||
## Соответствие ТЗ (02-trz) и AC (03-acceptance-criteria)
|
||||
|
||||
- **FR-1 / AC-1, AC-2** ✓ — `git_worktree._raise_if_permission` + `fs_normalize.is_permission_failure`/
|
||||
`build_worktree_help`: класс «нет прав» (`Permission denied`/`could not create leading directories`/
|
||||
`insufficient permission`/`PermissionError`/`EACCES`/`EPERM`) → actionable `RuntimeError` с причиной,
|
||||
`chown`-командой и ссылкой на INFRA.md. Обе точки сбоя обёрнуты (`os.makedirs` + оба `worktree add`).
|
||||
Не-прав-ошибки сохраняют прежний raw-контракт (TC-02 PASS). Под kill-switch — no-op, контракт 1:1.
|
||||
- **FR-2 / AC-3** ✓ — `scan_ownership` обходит `/repos/_wt`, `<repo>/.git/{objects,worktrees}`,
|
||||
`data/runs`; ранний выход на первом `lstat.st_uid != target_uid`; чистая среда → `mismatch=False`
|
||||
идемпотентно; never-raise → консервативный `mismatch=False` (TC-03/04/05).
|
||||
- **FR-3 / AC-4** ✓ — startup-хук never-fatal: WARNING + Telegram при mismatch; claim не блокируется
|
||||
(D3, преднамеренно — внятный ранний отказ даёт D1, знающий repo). Read-only блок `fs_ownership` в
|
||||
`GET /queue` (TC-10/TC-12).
|
||||
- **FR-4** ✓ — `normalize()` chown только при `_is_privileged()` (geteuid==0); под uid 1000 — no-op +
|
||||
честный лог, НЕ ошибка; gated `fs_normalize_auto` (дефолт False) (TC-08).
|
||||
- **FR-5 / AC-7** ✓ — INFRA.md: блокер P-5 + подраздел «Миграция uid: обязательная нормализация»
|
||||
со всеми корнями; work-item ADR + сквозной adr-0031.
|
||||
- **§7 совместимость / AC-5** ✓ — `applies(repo)` first (kill-switch + scope; пустой CSV →
|
||||
self-hosting only через `is_self_hosting_repo`); enduro-trails не сканируется при дефолте.
|
||||
TTL-кэш (`fs_scan_cache_ttl_s`). Регресс зелёный (1507 passed).
|
||||
|
||||
## Соответствие ADR
|
||||
|
||||
- Реализация совпадает с ADR-001 D1–D6 (включая сознательный отказ от блокирующего claim-гейта и
|
||||
init-контейнера — обоснование в «Альтернативах»). Сквозная регистрация adr-0031 присутствует и
|
||||
отражена в architecture/README.md.
|
||||
- **Трассировка (AC-6 / TRACEABILITY):** инварианты конвейера не тронуты — commit `9852871` НЕ
|
||||
затрагивает `src/stages.py`, `src/qg/checks.py`, `src/db.py`, `src/stage_engine.py`. Маркеры
|
||||
ORCH-040/088 в `git_worktree`/`main` читаются, зафиксированные инварианты (never-fatal startup,
|
||||
отложенный срез ветки) не сломаны. `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict/схема
|
||||
БД — байт-в-байт прежние.
|
||||
|
||||
## Качество кода
|
||||
|
||||
- `src/fs_normalize.py` — чистый leaf (импортирует только `config`/`logging`/`os`/`time`,
|
||||
лениво `qg.checks`/`notifications`); строгий never-raise на каждой публичной функции; docstrings
|
||||
на всех публичных символах; `os.lstat` (не `stat`) для честной оценки симлинков. Зависимость
|
||||
односторонняя (`git_worktree` → `fs_normalize`).
|
||||
- Узкий `_PERM_MARKERS` сознательно не реклассифицирует не-прав-ошибки (защита AC-2).
|
||||
- Тесты содержательны (214/136/139/68 строк), используют `tmp_path`/monkeypatch, без реального
|
||||
chown и записи в `/repos`; покрывают обе ветки классификатора, идемпотентность, scope, kill-switch,
|
||||
TTL-кэш, startup-never-fatal.
|
||||
- Утечек/секретов/security-дыр не выявлено; chown физически возможен только под root (`_is_privileged`).
|
||||
|
||||
## Findings
|
||||
|
||||
### P0 — Blocker
|
||||
- Нет.
|
||||
|
||||
### P1 — Must fix
|
||||
- Нет.
|
||||
|
||||
### P2 — Should fix
|
||||
- Нет.
|
||||
|
||||
### P3 — Nice-to-have (не блокирует)
|
||||
- [ ] `snapshot()` в `GET /queue` на холодном кэше инициирует реальный обход `.git/objects` синхронно
|
||||
в обработчике запроса. На практике кэш прогрет startup-хуком и TTL=300s, обход только для
|
||||
self-hosting — латентность пренебрежима, паттерн зеркалит `coverage_gate`. Можно при желании
|
||||
отдавать в `/queue` только кэш без форс-скана. Информационно.
|
||||
|
||||
## Документация
|
||||
|
||||
Обновлена в том же PR — golden source синхронен с кодом:
|
||||
- `docs/operations/INFRA.md` — P-5 (блокер миграции uid) + подраздел процедуры со всеми корнями ✓
|
||||
- `docs/architecture/README.md` — компонент «FS ownership detect» (D1–D3, условность, наблюдаемость) ✓
|
||||
- `docs/architecture/adr/adr-0031-legacy-ownership-normalization.md` — сквозной ADR (tracked) ✓
|
||||
- `docs/work-items/ORCH-057/06-adr/ADR-001-…md` — work-item ADR ✓
|
||||
- `CHANGELOG.md` — запись ORCH-057 ✓
|
||||
- `.env.example` — 6 флагов `ORCH_FS_*` ✓
|
||||
|
||||
`README.md` «Известные ограничения» (ORCH-079): пункт про legacy-ownership/uid-миграцию там
|
||||
отсутствует — закрывать/снимать нечего, обзорная витрина в обновлении не нуждается.
|
||||
|
||||
**Вывод:** изменение `src/` сопровождено обновлением документации → требование правила 6
|
||||
выполнено.
|
||||
@@ -1,94 +0,0 @@
|
||||
---
|
||||
result: PASS # PASS | FAIL — машинный вердикт, UPPERCASE
|
||||
work_item: ORCH-057
|
||||
stage: testing
|
||||
author_agent: tester
|
||||
status: pass
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
type: test-report
|
||||
work_item_id: ORCH-057
|
||||
---
|
||||
|
||||
# Test Report — ORCH-057
|
||||
|
||||
Нормализация legacy root-owned файлов при миграции на uid 1000 (детект + защита worktree).
|
||||
Review-вердикт `12-review.md` — **APPROVED**, P0/P1 findings нет.
|
||||
|
||||
## Окружение
|
||||
- Python: 3.12.13
|
||||
- pytest: 8.3.3 (plugins: cov-5.0.0, anyio-4.13.0, asyncio-0.23.8)
|
||||
- Дата: 2026-06-10
|
||||
- Worktree: `/repos/_wt/orchestrator/feature_ORCH-057-bug-follow-up-orch-040-normali`
|
||||
(ветка `feature/ORCH-057-bug-follow-up-orch-040-normali`, тесты прогнаны из рабочего дерева
|
||||
именно этой задачи, НЕ из общего `/repos/orchestrator`)
|
||||
|
||||
## Smoke API (read-only, прод-контейнер 8500 не тронут)
|
||||
| Эндпоинт | Результат |
|
||||
|----------|-----------|
|
||||
| `GET /health` | `{"status":"ok","service":"orchestrator"}` — OK |
|
||||
| `GET /status` | OK — задача ORCH-057 (id 83) видна на стадии `testing` |
|
||||
| `GET /queue` | OK — присутствуют блоки `serial_gate` (ORCH-088) ✓ и `auto_labels` (ORCH-089) ✓ |
|
||||
|
||||
> Примечание: блок `fs_ownership` (ORCH-057) на прод-контейнере 8500 **отсутствует** —
|
||||
> это ожидаемо: ORCH-057 ещё не задеплоен, прод исполняет предыдущий образ. Read-only блок
|
||||
> `fs_ownership` присутствует и протестирован в коде ветки (TC-12, `test_api_queue.py` PASS).
|
||||
> Это НЕ регресс смока: обязательные блоки `serial_gate` + `auto_labels` на месте.
|
||||
|
||||
## Результаты
|
||||
|
||||
### Полный регресс
|
||||
`pytest tests/ -q` → **1507 passed, 1 warning in 52.22s** (warning — Pydantic V2 deprecation,
|
||||
предсуществующий, не относится к ORCH-057). Прод-контейнер не трогался.
|
||||
|
||||
### Профильные сюиты
|
||||
`pytest tests/test_git_worktree_perm.py tests/test_fs_normalize.py tests/test_fs_normalize_startup.py tests/test_api_queue.py -v`
|
||||
→ **25 passed** — покрывают TC-01…TC-12.
|
||||
|
||||
### Сопоставление с тест-планом (04-test-plan.yaml)
|
||||
| TC ID | Описание | Тест-функция | Результат |
|
||||
|-------|----------|--------------|-----------|
|
||||
| TC-01 | `ensure_worktree` на git-fatal Permission denied → actionable RuntimeError | `test_git_worktree_perm::test_tc01_permission_git_fatal_becomes_actionable`, `test_tc01_makedirs_permission_error_becomes_actionable` | PASS |
|
||||
| TC-02 | не-прав-ошибка сохраняет прежний raw-контракт | `test_git_worktree_perm::test_tc02_non_permission_error_keeps_prior_contract`, `test_tc02_killswitch_off_keeps_raw_contract_even_for_permission` | PASS |
|
||||
| TC-03 | `scan_ownership` на дереве с uid≠target → mismatch=True + корни | `test_fs_normalize::test_tc03_scan_detects_mismatch` | PASS |
|
||||
| TC-04 | `scan_ownership` на чистом дереве → mismatch=False (идемпотентно) | `test_fs_normalize::test_tc04_clean_tree_no_mismatch` | PASS |
|
||||
| TC-05 | never-raise при недоступном/несуществующем корне → WARNING | `test_fs_normalize::test_tc05_never_raise_on_missing_root`, `test_tc05_never_raise_on_walk_error` | PASS |
|
||||
| TC-06 | `applies(repo)`: пустой CSV → self-hosting only; непустой — по списку | `test_fs_normalize::test_tc06_applies_empty_csv_self_hosting_only`, `test_tc06_applies_explicit_csv` | PASS |
|
||||
| TC-07 | kill-switch OFF → scan/normalize инертны (1:1 как до ORCH-057) | `test_fs_normalize::test_tc07_killswitch_off_scan_inert`, `test_tc07_killswitch_off_normalize_inert` | PASS |
|
||||
| TC-08 | `normalize` без прав → no-op + честный лог, НЕ исключение | `test_fs_normalize::test_tc08_normalize_without_rights_is_noop_not_error` | PASS |
|
||||
| TC-09 | TTL-кэш: повтор в окне TTL не пере-сканирует; ключ по roots+uid | `test_fs_normalize::test_tc09_ttl_cache_avoids_rescan`, `test_tc09_cache_keyed_by_roots_and_uid` | PASS |
|
||||
| TC-10 | startup-хук: mismatch → send_telegram + WARNING; ошибка детекта never-fatal | `test_fs_normalize_startup::test_tc10_startup_mismatch_warns_and_telegrams`, `test_tc10_startup_detect_error_never_fatal`, `test_tc10_startup_clean_no_telegram` | PASS |
|
||||
| TC-11 | гейт claim'а: mismatch без прав → внятный исход ДО launch, не сырой git-fatal | `test_fs_normalize_startup::test_tc11_launch_permission_failure_is_actionable_not_raw` | PASS |
|
||||
| TC-12 | `GET /queue` блок `fs_ownership` отдаёт поля и не 5xx-ит при выключенном флаге | `test_api_queue::test_tc12_queue_exposes_fs_ownership_block`, `test_tc12_queue_no_5xx_when_disabled`, `test_fs_normalize_check_endpoint` | PASS |
|
||||
|
||||
Доп. целевые тесты (сверх плана, усиливают покрытие): `test_classify_worktree_error_markers`,
|
||||
`test_is_permission_failure_from_exc`, `test_snapshot_shape` — PASS.
|
||||
|
||||
### Сопоставление с критериями приёмки (03-acceptance-criteria.md)
|
||||
| AC | Покрыто | Результат |
|
||||
|----|---------|-----------|
|
||||
| AC-1 — конвейер стартует без ручного chown / внятная блокирующая ошибка | TC-01, TC-11 | PASS |
|
||||
| AC-2 — `ensure_worktree` actionable-ошибка при отказе доступа, не-прав сохраняет контракт | TC-01, TC-02 | PASS |
|
||||
| AC-3 — детект несоответствия владельца (mismatch на грязной, no-op на чистой) | TC-03, TC-04, TC-05 | PASS |
|
||||
| AC-4 — наблюдаемость детекта (WARNING + Telegram + `GET /queue`) | TC-10, TC-12 | PASS |
|
||||
| AC-5 — self-hosting безопасность, нулевая регрессия enduro, зелёный регресс | TC-06, TC-07, TC-08 + 1507 passed | PASS |
|
||||
| AC-6 — инварианты конвейера (STAGE_TRANSITIONS/QG_CHECKS/check_*/machine-key/схема БД) | полный регресс зелёный, guard-тесты пройдены | PASS |
|
||||
| AC-7 — документированная процедура нормализации (INFRA.md + ADR) | проверено reviewer (12-review.md), вне scope pytest | PASS (док.) |
|
||||
|
||||
## Вывод pytest
|
||||
```
|
||||
============================= test session starts ==============================
|
||||
platform linux -- Python 3.12.13, pytest-8.3.3, pluggy-1.6.0
|
||||
rootdir: /repos/_wt/orchestrator/feature_ORCH-057-bug-follow-up-orch-040-normali
|
||||
plugins: cov-5.0.0, anyio-4.13.0, asyncio-0.23.8
|
||||
collected 25 items (профильные сюиты)
|
||||
... 25 passed, 1 warning in 2.19s
|
||||
|
||||
Полный регресс:
|
||||
1507 passed, 1 warning in 52.22s
|
||||
```
|
||||
|
||||
## Итог
|
||||
**PASS** — все 12 TC выполнены и сопоставлены с тест-планом и критериями приёмки; профильные
|
||||
сюиты 25 passed; полный регресс 1507 passed; smoke (`/health`, `/status`, `/queue` c блоками
|
||||
`serial_gate` + `auto_labels`) — зелёный. Задача переходит на `deploy-staging`.
|
||||
@@ -1,12 +0,0 @@
|
||||
---
|
||||
deploy_status: SUCCESS
|
||||
work_item: ORCH-057
|
||||
hook_exit_code: 0
|
||||
deployed_by: deploy-finalizer
|
||||
---
|
||||
|
||||
# Deploy log — ORCH-036 executable self-deploy
|
||||
|
||||
Прод-деплой завершён хост-хуком с exit-code `0` -> `deploy_status: SUCCESS`.
|
||||
|
||||
Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.
|
||||
@@ -1,33 +0,0 @@
|
||||
---
|
||||
staging_status: SUCCESS
|
||||
work_item: ORCH-057
|
||||
stage: deploy-staging
|
||||
author_agent: deployer
|
||||
status: success
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
timestamp: 2026-06-10T00:02:11Z
|
||||
base_url: http://localhost:8501
|
||||
---
|
||||
|
||||
# Staging Gate Log
|
||||
|
||||
> Машинный вердикт читается ТОЛЬКО из `staging_status:` во frontmatter. `SUCCESS` → дальше; `FAILED` → откат.
|
||||
|
||||
Staging test suite завершён против живого стенда `orchestrator-staging` (8501). Запуск канонический —
|
||||
`docker exec orchestrator-staging python3 /repos/orchestrator/scripts/staging_check.py --base-url http://localhost:8501 --mode stub`
|
||||
(ORCH-048, ADR-001). Скрипт завершился с **exit code 0** → `staging_status: SUCCESS`.
|
||||
|
||||
Итог: **8/10 checks PASS**. Все REAL-проверки зелёные; два FAIL — известные sandbox-infra-проверки
|
||||
(C9a/C9b), waived согласно ORCH-061 (зависят от членства SANDBOX bot-аккаунтов в проекте, не от
|
||||
конвейера). Exit-code → вердикт не меняется: trust the exit code, REAL failed = none.
|
||||
|
||||
INFRA-WAIVED: C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue (known sandbox-infra; real checks green)
|
||||
VERDICT: SUCCESS (exit 0) — SUCCESS (infra-waived): ['C9a Branch appears in orchestrator-sandbox', 'C9b Analyst job enqueued in staging queue'] are known sandbox-infra checks; all real checks green
|
||||
|
||||
## Results
|
||||
- **Block A (SMOKE)**: PASS — A1 `/health` → 200 `status=ok`; A2 `/queue` → 200 с counts/max_concurrency/resilience; A3 `ORCH_STAGING=true` (не прод).
|
||||
- **Block B (ACCESS)**: PASS — B4 Plane sandbox доступен (5 projects, sandbox=YES); B5 Gitea `orchestrator-sandbox` доступен, push=true; B6 Registry изолирован (sandbox present, prod ET/ORCH absent).
|
||||
- **Block C (E2E, mode=stub)**: C7 создать issue в Plane SANDBOX → PASS; C8 триггер конвейера `/webhook/plane` → PASS; C9a (branch в sandbox) и C9b (analyst job в очереди) → FAIL, **INFRA-WAIVED** (sandbox bot-accounts не члены проекта). Cleanup: Plane issue удалён (HTTP 204).
|
||||
|
||||
REAL failed: none.
|
||||
@@ -1,7 +0,0 @@
|
||||
# Business Request: FND/F1a: лёгкий /metrics в орке — отдать сырьё (стадии/очередь/agent-liveness/cost)
|
||||
|
||||
Work Item ID: ORCH-099
|
||||
|
||||
## Description
|
||||
|
||||
TBD
|
||||
@@ -1,141 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-099
|
||||
stage: analysis
|
||||
author_agent: analyst
|
||||
status: ready-for-review
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 01 — BRD (бизнес-требования): ORCH-099 — FND/F1a: лёгкий `/metrics` в орке (отдать сырьё)
|
||||
|
||||
Work Item: **ORCH-099** · Repo: **orchestrator** · Стадия: analysis
|
||||
|
||||
## 1. Бизнес-контекст и проблема
|
||||
|
||||
Задача — фундаментный кирпич **F1a** домена 0 «Фундамент» эпика автономного саморазвития
|
||||
(`docs/epics/self-evolution.md`). Архитектурная рамка наблюдаемости **зафиксирована заказчиком
|
||||
(Слава, 09.06)** и для аналитика — установленный факт, не предмет переизобретения:
|
||||
|
||||
- **C-1/C-1б:** наблюдатель ОТДЕЛЁН от наблюдаемого. Мониторинг живёт в **отдельном sidecar-контейнере**
|
||||
(`watchdog/`, рантайм — свой Dockerfile + сервис в compose), а НЕ внутри орка. Если орк
|
||||
упал/завис/съел память — sidecar жив и репортит это.
|
||||
- **C-2/C-3:** без внешнего плеча, тонкий стек (хост впритык: RAM 171Mi free, диск 92% — НЕ
|
||||
Grafana/Prometheus).
|
||||
- **Разделение ответственности:** орк отдаёт **только сырьё** (лёгкий read-only `/metrics` — свои
|
||||
внутренние данные, которые знает только он сам), БЕЗ логики мониторинга/порогов/алертов/хранения.
|
||||
Мозг (пороги, алерты, свой Telegram-канал, история) — это **F1b (sidecar)**, отдельная задача.
|
||||
|
||||
**Боль, которую закрывает задача.** Сегодня у орка нет машинного «сырья» о самом себе в одной
|
||||
точке. `/health` отдаёт лишь `{"status":"ok"}`, `/status` — список активных задач, `/queue` —
|
||||
богатый, но «человеческий» снимок очереди, перемешанный с конфигом демонов. Ни один из них не даёт
|
||||
sidecar'у структурированный, стабильный КОНТРАКТ для детекта: застрявшая стадия, зависший агент
|
||||
(liveness по pid/CPU), деградация очереди (breaker open, рост failed), всплеск стоимости токенов.
|
||||
Без этого источника весь домен наблюдаемости (F1b и далее) слеп и не может стартовать.
|
||||
|
||||
**Self-hosting контекст.** Орк дорабатывает сам себя; прод-контейнер общий для всех проектов.
|
||||
`/metrics` обязан быть **строго read-only** и **never-raise** — он не должен ни при каких входных
|
||||
данных уронить или притормозить прод, обслуживающий enduro-trails.
|
||||
|
||||
## 2. Объём (scope)
|
||||
|
||||
### В объёме
|
||||
- Новый **read-only** HTTP-эндпоинт (`GET /metrics`), отдающий JSON-снимок сырья о самом орке.
|
||||
- Четыре раздела сырья: **активные стадии задач**, **очередь jobs**, **agent-liveness**,
|
||||
**стоимость/токены** (`agent_runs`).
|
||||
- Новый leaf-модуль `src/metrics.py` — сборка снимка из БД (чистый, never-raise, без побочных
|
||||
эффектов), по образцу `snapshot()`-функций (`serial_gate`/`task_deps`/`cancel`).
|
||||
- Документирование формата `/metrics` как **контракта для sidecar (F1b)** в
|
||||
`docs/architecture/README.md` + запись в `CHANGELOG.md`.
|
||||
- Pytest-покрытие: структура ответа, never-raise, read-only-инвариант.
|
||||
|
||||
### Вне объёма
|
||||
- ❌ Любая логика мониторинга: пороги, алерты, Telegram, оценка «застрял/завис», хранение истории
|
||||
— это **F1b (sidecar)**.
|
||||
- ❌ Сам sidecar-контейнер (`watchdog/`, Dockerfile, compose-сервис) — отдельная задача F1b.
|
||||
- ❌ Хостовые/контейнерные/внешние метрики (диск/RAM/CPU хоста, docker.sock, пинг
|
||||
Plane/Gitea/Anthropic) — их собирает sidecar, не орк.
|
||||
- ❌ Изменение `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / схемы БД / любых machine-verdict
|
||||
ключей.
|
||||
- ❌ Дашборд/UI (упомянут в F1 эпика как отдельный последующий шаг).
|
||||
- ❌ Прометей-совместимый text-формат — отдаём JSON (контракт под конкретный sidecar; OpenMetrics
|
||||
не требование заказчика).
|
||||
|
||||
## 3. Заинтересованные стороны
|
||||
|
||||
- **Заказчик:** Слава (рамки наблюдаемости F1, эпик саморазвития).
|
||||
- **Прямой потребитель контракта:** будущий sidecar **F1b** (`watchdog/`) — читает `/metrics` по
|
||||
HTTP. Задача F1b **заблокирована** этой (ORCH-099 — источник контракта).
|
||||
- **Затрагивается:** прод-инстанс орка (общий с enduro-trails) — поэтому жёсткое требование
|
||||
read-only/never-raise.
|
||||
- **Принимает результат:** reviewer/tester конвейера + Слава как владелец рамок.
|
||||
|
||||
## 4. Бизнес-требования (BR)
|
||||
|
||||
- **BR-1 — Эндпоинт сырья.** Орк предоставляет HTTP `GET /metrics`, отдающий JSON с четырьмя
|
||||
разделами: (a) активные стадии задач, (b) очередь jobs, (c) agent-liveness, (d) стоимость/токены.
|
||||
Состав полей каждого раздела — см. TRZ §3 (FR-1…FR-4).
|
||||
- **BR-2 — Стадии задач.** По каждой незавершённой задаче отдаётся `work_item`, текущая `stage` и
|
||||
«как давно в стадии» (секунды) — сырьё для детекта застреваний sidecar'ом.
|
||||
- **BR-3 — Очередь jobs.** Отдаются счётчики по статусам (`queued`/`running`/`failed`/…), глубина
|
||||
очереди, информация о ретраях и состояние circuit-breaker'а — сырьё для детекта деградации.
|
||||
- **BR-4 — Agent-liveness.** По каждому running-job отдаётся `agent`, `run_id`, `pid`, `runtime_s`
|
||||
и сырьё для alive-детекта (CPU-тики pid либо данные, по которым sidecar посчитает CPU-дельту).
|
||||
sidecar — арбитр «жив/завис»; орк лишь поставляет факты.
|
||||
- **BR-5 — Стоимость/токены.** Отдаётся текущая (по running-job) и агрегированная стоимость/токены
|
||||
из `agent_runs` (`cost_usd`, `input/output/cache_*` токены) — сырьё для cost-наблюдаемости (D3).
|
||||
- **BR-6 — Аддитивность.** Существующие `/health`, `/status`, `/queue` остаются байт-в-байт прежними
|
||||
по контракту; `/metrics` добавляется рядом, ничего не ломая.
|
||||
- **BR-7 — Документированный контракт.** Формат `/metrics` зафиксирован в
|
||||
`docs/architecture/README.md` как стабильный контракт для sidecar (F1b) + `CHANGELOG.md`.
|
||||
|
||||
## 5. Нефункциональные требования (NFR)
|
||||
|
||||
- **NFR-1 — Read-only.** Эндпоинт НИЧЕГО не мутирует: не пишет в БД, не запускает/останавливает
|
||||
процессы, не рестартит, не дёргает внешние API. Только SELECT'ы + чтение in-memory-снимков
|
||||
демонов.
|
||||
- **NFR-2 — Never-raise (по полям).** Любая ошибка при сборе отдельного поля/раздела → это поле
|
||||
получает `null` (или раздел — безопасный дефолт), но эндпоинт **возвращает 200 и валидный JSON**,
|
||||
никогда не 500. Эталон — `serial_gate.snapshot()` с fallback в `except`.
|
||||
- **NFR-3 — Лёгкость.** Только быстрые запросы к локальной SQLite + чтение уже посчитанных
|
||||
in-memory снапшотов; без тяжёлых вычислений, без сетевых вызовов, без сканирования файлов/git.
|
||||
Цель — единичные мс на типовом объёме (десятки задач/jobs).
|
||||
- **NFR-4 — Self-hosting-безопасность.** Эндпоинт физически не способен повлиять на прод-конвейер
|
||||
(следствие NFR-1) — безопасен на общем инстансе с enduro-trails.
|
||||
- **NFR-5 — Совместимость БД/гейтов.** `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` /
|
||||
machine-verdict ключи / схема БД — НЕ трогаются. Задача читает существующие таблицы
|
||||
(`tasks`/`jobs`/`agent_runs`) и существующие in-memory снапшоты.
|
||||
- **NFR-6 — Стабильность контракта.** Формат — аддитивный и версионируемый (поле `schema_version`),
|
||||
чтобы будущие расширения не ломали уже написанный sidecar.
|
||||
|
||||
## 6. Допущения и ограничения
|
||||
|
||||
- **Данные уже есть в БД.** Все нужные поля присутствуют: `tasks(stage, work_item_id, updated_at,
|
||||
created_at)`, `jobs(status, attempts, max_attempts, transient_attempts, available_at, pid,
|
||||
run_id)`, `agent_runs(agent, started_at, finished_at, model, effort, cost_usd, input_tokens,
|
||||
output_tokens, cache_read_tokens, cache_creation_tokens)`. **Новые колонки/таблицы не нужны.**
|
||||
- **Breaker-состояние — in-memory** (`queue_worker.worker.status()` / `CircuitBreaker.snapshot()`);
|
||||
читается без БД.
|
||||
- **CPU-тики pid** читаются из `/proc/<pid>/stat` (Linux прод-контейнер). Допущение: контейнер
|
||||
Linux; при отсутствии/гонке (процесс уже умер) — поле `null` (NFR-2), НЕ ошибка. Это согласуется
|
||||
с рамкой C-1: «орк лёг → endpoint недоступен = сам сигнал тревоги» — детект делает sidecar.
|
||||
- **Арбитраж liveness — на стороне sidecar.** Орк не решает «завис/жив»; он лишь отдаёт `pid`,
|
||||
`runtime_s` и (по возможности) CPU-тики; sidecar считает дельту между опросами.
|
||||
- **Формат — JSON**, не OpenMetrics/Prometheus (рамка C-3: тонкий кастомный sidecar, не Prometheus).
|
||||
|
||||
## 7. Критерии успеха
|
||||
|
||||
`GET /metrics` отдаёт лёгкий, read-only, never-raise JSON с четырьмя разделами сырья;
|
||||
`/health`/`/status`/`/queue` не сломаны; формат задокументирован как контракт sidecar; pytest
|
||||
зелёный. Детальные PASS/FAIL — `03-acceptance-criteria.md`.
|
||||
|
||||
## 8. Риски
|
||||
|
||||
- Гонка чтения `/proc/<pid>/stat` (процесс умер между выборкой job и чтением proc) → закрывается
|
||||
NFR-2 (`null`, не ошибка).
|
||||
- Расхождение контракта `/metrics` и ожиданий sidecar (F1b) → закрывается BR-7 (контракт в одном
|
||||
репо, документирован) + `schema_version` (NFR-6).
|
||||
- Соблазн «протащить» в `/metrics` логику алертинга → закрывается scope-границей (вне объёма) и
|
||||
NFR-1.
|
||||
|
||||
Детальная оценка технических рисков — `10-tech-risks.md` (заполняет архитектор).
|
||||
@@ -1,173 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-099
|
||||
stage: analysis
|
||||
author_agent: analyst
|
||||
status: ready-for-review
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 02 — ТЗ (TRZ): ORCH-099 — FND/F1a: лёгкий `/metrics` в орке (отдать сырьё)
|
||||
|
||||
Work Item: **ORCH-099** · Repo: **orchestrator** · Стадия: analysis
|
||||
|
||||
> ТЗ описывает **конкретные изменения к реализации**, выведенные из BRD и фактического кода.
|
||||
> Архитектурное обоснование/решения (формат полей liveness, способ чтения CPU, версионирование
|
||||
> контракта) — задача архитектора (`06-adr/`).
|
||||
|
||||
## 1. Сводка изменения
|
||||
|
||||
Добавить read-only HTTP-эндпоинт `GET /metrics`, отдающий JSON-снимок «сырья» о самом орке для
|
||||
будущего sidecar (F1b): активные стадии задач, очередь jobs, agent-liveness, стоимость/токены.
|
||||
Логика сборки выносится в **новый leaf-модуль** `src/metrics.py` (чистая функция-сборщик, never-raise,
|
||||
без побочных эффектов — по образцу `serial_gate.snapshot()`/`task_deps.snapshot()`/`cancel.snapshot()`).
|
||||
Эндпоинт в `src/main.py` — тонкая обёртка над сборщиком, в том же стиле, что `GET /queue`
|
||||
(`src/main.py`, дикт с разделами). Никаких изменений `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/схемы
|
||||
БД/machine-verdict ключей. Только чтение существующих таблиц и существующих in-memory-снапшотов.
|
||||
|
||||
## 2. Задействованные модули / пути
|
||||
|
||||
| Путь | Действие |
|
||||
|------|----------|
|
||||
| `src/metrics.py` | **создать** — leaf-сборщик снимка из БД (`build_metrics() -> dict`, never-raise) |
|
||||
| `src/main.py` | изменить — добавить `@app.get("/metrics")` (тонкая обёртка над `metrics.build_metrics()`) |
|
||||
| `src/db.py` | изменить (при необходимости) — добавить read-only helper(ы) для агрегатов `agent_runs` (напр. `agent_cost_totals()`); существующие `job_status_counts`/`get_running_jobs`/`recent_jobs`/`get_active_tasks_for_reconcile` переиспользуются как есть |
|
||||
| `docs/architecture/README.md` | изменить — задокументировать контракт `/metrics` (формат для sidecar F1b) |
|
||||
| `CHANGELOG.md` | изменить — запись `## [Unreleased]` (ORCH-099) |
|
||||
| `tests/test_metrics.py` | **создать** — pytest на структуру/never-raise/read-only |
|
||||
|
||||
**Существующие источники данных (переиспользуются, НЕ дублируются):**
|
||||
- `db.get_active_tasks_for_reconcile()` — задачи с `stage != 'done'` + вычисленный `age_s`
|
||||
(секунды с `updated_at`). Базис для раздела стадий.
|
||||
- `db.job_status_counts()` — `{queued, running, done, failed}` из `jobs`.
|
||||
- `db.get_running_jobs()` — running-jobs с `running_age_s`, плюс джойн на `agent_runs` (`agent`,
|
||||
`run_id`, `pid`, `started_at`, `model`, `effort`). Базис для liveness.
|
||||
- `queue_worker.worker.status()` / `worker.breaker.snapshot()` — breaker-состояние in-memory
|
||||
(`state`/`consecutive_transient`/`pause_remaining_s`), `max_concurrency`, `poll_interval`.
|
||||
|
||||
## 3. Функциональные требования
|
||||
|
||||
### FR-1 — Раздел `stages` (активные стадии задач) — BR-2
|
||||
|
||||
Список активных (незавершённых) задач. По каждой:
|
||||
- `work_item` — `tasks.work_item_id`.
|
||||
- `stage` — `tasks.stage` (значение слоя A, машина стадий).
|
||||
- `age_in_stage_s` — целое; секунды с `tasks.updated_at` (= момент последней смены стадии).
|
||||
Источник вычисления — SQL `CAST(strftime('%s','now') - strftime('%s', updated_at) AS INTEGER)`,
|
||||
как в `get_active_tasks_for_reconcile`.
|
||||
- `repo` — `tasks.repo` (sidecar мультипроектный; нужно отличать orchestrator от enduro-trails).
|
||||
- (опционально) `task_id`, `created_age_s` (общий возраст задачи).
|
||||
|
||||
Инвариант: выборка только `stage NOT IN ('done', 'cancelled')` (терминальные исключены — см.
|
||||
ORCH-090: множество терминалов `{done, cancelled}`). Пустой список — валидный ответ.
|
||||
|
||||
### FR-2 — Раздел `queue` (очередь jobs) — BR-3
|
||||
|
||||
- `counts` — `db.job_status_counts()` (`queued`/`running`/`done`/`failed`); при наличии —
|
||||
добавить `cancelled` (ORCH-090 терминал).
|
||||
- `depth` — глубина очереди = число `queued`-jobs, готовых к выдаче (можно вернуть как
|
||||
`counts.queued`; при желании — отдельно «доступные сейчас» с учётом `available_at <= now`).
|
||||
- `retries` — сырьё по ретраям: сумма/список `attempts` vs `max_attempts` и `transient_attempts`
|
||||
по незавершённым jobs; как минимум агрегат «сколько jobs в backoff» (`available_at > now`).
|
||||
- `breaker` — `worker.breaker.snapshot()`: `state` (`closed`/`open`/`half-open`),
|
||||
`consecutive_transient`, `pause_remaining_s`.
|
||||
- `max_concurrency` — `worker.max_concurrency`.
|
||||
|
||||
Инвариант: ни одно поле не обязано существовать ценой падения — недоступный breaker
|
||||
(например, worker не инициализирован в тесте) → `breaker: null`, не 500 (NFR-2).
|
||||
|
||||
### FR-3 — Раздел `agents` (agent-liveness) — BR-4
|
||||
|
||||
Список running-jobs (из `db.get_running_jobs()`), по каждому:
|
||||
- `agent` — `agent_runs.agent` (через джойн; роль: analyst/architect/developer/…).
|
||||
- `run_id` — `jobs.run_id` (= `agent_runs.id`).
|
||||
- `job_id` — `jobs.id`.
|
||||
- `pid` — `jobs.pid` (может быть `null`, если процесс ещё не застамплен / уже завершён).
|
||||
- `runtime_s` — `running_age_s` из `get_running_jobs` (секунды с `jobs.started_at`); как
|
||||
альтернатива — секунды с `agent_runs.started_at`. Решение о базисе — за архитектором (ADR).
|
||||
- **Сырьё для alive-детекта** — одно из (выбор реализации — ADR архитектора, BR-4 допускает оба):
|
||||
- вариант A: `cpu_ticks` — суммарные utime+stime из `/proc/<pid>/stat` (поля 14–15), плюс
|
||||
`clk_tck` (`os.sysconf("SC_CLK_TCK")`), чтобы sidecar посчитал CPU-дельту между опросами;
|
||||
- вариант B: орк сам не считает дельту (он опрашивается стейтлесс sidecar'ом) — отдаёт только
|
||||
сырые тики + временную метку выборки.
|
||||
- `model`, `effort` — `agent_runs.model`/`effort` (контекст стоимости).
|
||||
|
||||
Инвариант (NFR-2): `pid is None` ИЛИ `/proc/<pid>` отсутствует/гонка (процесс умер) →
|
||||
`cpu_ticks: null` для этого агента, остальные поля и весь эндпоинт целы. НЕ бросать, НЕ ждать.
|
||||
|
||||
### FR-4 — Раздел `cost` (стоимость/токены) — BR-5
|
||||
|
||||
- `running` — по каждому running-job текущие накопленные значения из `agent_runs`, если уже
|
||||
застамплены (часто `null` до завершения — токены/cost парсятся из CLI-JSON в `_monitor_agent`
|
||||
по окончании). Допустимо отдавать `null` для незавершённых — это честное сырьё.
|
||||
- `aggregate` — агрегаты по `agent_runs`: суммарные `cost_usd`, `input_tokens`, `output_tokens`,
|
||||
`cache_read_tokens`, `cache_creation_tokens`. Желателен срез: всего + за последние N (или
|
||||
по `repo`). Реализуется новым read-only helper'ом `db.agent_cost_totals()` (чистый SELECT
|
||||
с `COALESCE(SUM(...),0)`).
|
||||
|
||||
Инвариант: пустая `agent_runs` → нули, не ошибка.
|
||||
|
||||
### FR-5 — Конверт ответа (envelope) — BR-1, BR-6, NFR-6
|
||||
|
||||
`GET /metrics` возвращает JSON:
|
||||
```json
|
||||
{
|
||||
"schema_version": 1,
|
||||
"generated_at": "<ISO-8601 / datetime('now')>",
|
||||
"stages": [ ... ],
|
||||
"queue": { ... },
|
||||
"agents": [ ... ],
|
||||
"cost": { "running": [...], "aggregate": {...} }
|
||||
}
|
||||
```
|
||||
- `schema_version` — целое; точка стабильности контракта для sidecar (NFR-6). Стартовое значение
|
||||
и политика инкремента — за архитектором.
|
||||
- `generated_at` — метка времени снимка (нужна sidecar'у для расчёта дельт).
|
||||
- Точные имена ключей разделов/полей фиксируются в `docs/architecture/README.md` (BR-7) и являются
|
||||
контрактом; reviewer/tester сверяют ответ с документом.
|
||||
|
||||
### FR-6 — Never-raise сборщик — NFR-2
|
||||
|
||||
`metrics.build_metrics()` строит ответ по-раздельно; каждый раздел — в своём `try/except`, в
|
||||
`except` пишет `logger.warning(...)` и подставляет безопасный дефолт (`null`/`[]`/`{}`). Функция
|
||||
**никогда** не пробрасывает исключение. Эндпоинт `main` дополнительно не нуждается в обработке, но
|
||||
обязан вернуть результат сборщика как есть. Эталон — `serial_gate.snapshot()`.
|
||||
|
||||
## 4. Изменения API
|
||||
|
||||
**Новый эндпоинт:**
|
||||
- `GET /metrics` → `200 application/json`, тело — конверт FR-5. Без параметров. Без аутентификации
|
||||
сверх существующей (тот же уровень, что `/queue`/`/status`). Read-only.
|
||||
|
||||
**Изменённые эндпоинты:** Нет. `/health`, `/status`, `/queue`, `/webhook/*` — без изменений
|
||||
(BR-6). Регресс-проверка: существующие тесты эндпоинтов остаются зелёными.
|
||||
|
||||
## 5. Изменения схемы БД
|
||||
|
||||
**Нет.** Новые таблицы/колонки/индексы/миграции не вводятся. Используются существующие
|
||||
`tasks`/`jobs`/`agent_runs` и их колонки (перечислены в §2). Допускается добавление **read-only**
|
||||
helper-функций в `src/db.py` (например `agent_cost_totals()`) — это код, не схема; `CREATE`/`ALTER`
|
||||
не выполняются. `STAGE_TRANSITIONS`/`QG_CHECKS`/схема — байт-в-байт прежние (NFR-5).
|
||||
|
||||
## 6. Требования к новым/изменённым QG checks
|
||||
|
||||
**Нет.** `/metrics` — наблюдаемость, не гейт конвейера. `QG_CHECKS` / `check_*` / `_parse_*` /
|
||||
machine-verdict ключи (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`/
|
||||
`coverage_status:`) — НЕ трогаются. Новых артефактов pipeline (`NN-*.md`) задача не создаёт.
|
||||
|
||||
## 7. Совместимость / регресс
|
||||
|
||||
- **Аддитивность:** новый модуль (`src/metrics.py`) + новый эндпоинт + read-only helper(ы).
|
||||
Существующий код путей конвейера не модифицируется.
|
||||
- **Read-only / never-raise:** по конструкции (NFR-1/NFR-2) эндпоинт не влияет на состояние и не
|
||||
падает → нулевой риск для прод-конвейера, общего с enduro-trails (NFR-4).
|
||||
- **Kill-switch:** жёсткий флаг не обязателен (эндпоинт инертен и не подключён к конвейеру). Если
|
||||
архитектор сочтёт нужным — допустим конфиг-флаг включения `/metrics` (по образцу snapshot-флагов),
|
||||
но это НЕ требование BRD; дефолт — эндпоинт доступен.
|
||||
- **Обратимость:** удаление эндпоинта/модуля полностью откатывает изменение без следов в БД/схеме.
|
||||
- **Контракт sidecar:** `schema_version` + документ в README обеспечивают, что F1b не сломается при
|
||||
будущих аддитивных расширениях (NFR-6).
|
||||
- **Артефакты pipeline, создаваемые/обновляемые задачей:** `01-brd.md`, `02-trz.md`,
|
||||
`03-acceptance-criteria.md`, `04-test-plan.yaml` (analysis); далее — `06-adr/` (architect),
|
||||
обновление `docs/architecture/README.md` и `CHANGELOG.md` (developer в том же PR — правило
|
||||
«доки = golden source»).
|
||||
@@ -1,127 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-099
|
||||
stage: analysis
|
||||
author_agent: analyst
|
||||
status: ready-for-review
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 03 — Критерии приёмки (Acceptance Criteria): ORCH-099 — FND/F1a: лёгкий `/metrics` в орке
|
||||
|
||||
Work Item: **ORCH-099** · Repo: **orchestrator** · Стадия: analysis
|
||||
|
||||
Формат: каждый критерий имеет **PASS** (что должно быть истинно для приёмки) и **FAIL**
|
||||
(что считается провалом). Reviewer/tester проверяет их буквально по файлам репозитория и по ответу
|
||||
эндпоинта.
|
||||
|
||||
---
|
||||
|
||||
## AC-1 — Эндпоинт `/metrics` отдаёт четыре раздела сырья
|
||||
|
||||
**Условие:** `GET /metrics` возвращает `200` и JSON с разделами `stages`, `queue`, `agents`, `cost`
|
||||
(плюс конверт `schema_version` / `generated_at`), с полями из TRZ §3.
|
||||
- **PASS:** ответ — валидный JSON-объект; присутствуют ключи `schema_version`, `generated_at`,
|
||||
`stages` (список; элемент содержит `work_item`, `stage`, `age_in_stage_s`, `repo`), `queue`
|
||||
(содержит `counts`, `breaker`, `max_concurrency`, сырьё ретраев), `agents` (список; элемент
|
||||
содержит `agent`, `run_id`, `pid`, `runtime_s` и поле сырья CPU-liveness), `cost` (содержит
|
||||
`aggregate` с суммами `cost_usd`/`input_tokens`/`output_tokens`/`cache_read_tokens`/
|
||||
`cache_creation_tokens`).
|
||||
- **FAIL:** отсутствует любой из четырёх разделов; в `agents` нет `pid`/`runtime_s`; в `stages` нет
|
||||
«как давно в стадии»; в `cost` нет агрегата токенов/стоимости; ответ не JSON или статус ≠ 200.
|
||||
|
||||
---
|
||||
|
||||
## AC-2 — Аддитивность: `/health`, `/status`, `/queue` не сломаны
|
||||
|
||||
**Условие:** существующие эндпоинты сохраняют прежний контракт.
|
||||
- **PASS:** `GET /health` → `{"status":"ok", ...}`; `GET /status` → `{"active_tasks":[...]}`;
|
||||
`GET /queue` отдаёт прежний набор ключей; существующие тесты эндпоинтов (`tests/test_queue_endpoint.py`
|
||||
и пр.) зелёные без модификации их ожиданий.
|
||||
- **FAIL:** изменён/удалён любой существующий ключ ответа `/health`/`/status`/`/queue`; пришлось
|
||||
править существующие тесты под новый контракт; регресс в этих эндпоинтах.
|
||||
|
||||
---
|
||||
|
||||
## AC-3 — Лёгкость и быстрая выборка
|
||||
|
||||
**Условие:** эндпоинт лёгкий — только быстрые локальные SQL + чтение in-memory снапшотов, без
|
||||
тяжёлых вычислений и сетевых вызовов.
|
||||
- **PASS:** в коде `src/metrics.py` нет сетевых вызовов (HTTP/Plane/Gitea/Anthropic), нет запуска
|
||||
подпроцессов кроме безопасного чтения `/proc/<pid>/stat`, нет сканирования git/файлового дерева;
|
||||
данные берутся из существующих helper'ов БД и `worker`-снапшота; на типовом объёме ответ
|
||||
формируется без заметной задержки.
|
||||
- **FAIL:** эндпоинт делает сетевой запрос, запускает агента/тяжёлый процесс, сканирует worktree/git
|
||||
или выполняет дорогие агрегаты, заметно тормозящие ответ.
|
||||
|
||||
---
|
||||
|
||||
## AC-4 — Never-raise (ошибка поля → `null`, эндпоинт не падает)
|
||||
|
||||
**Условие:** любая ошибка сбора отдельного поля/раздела не роняет эндпоинт.
|
||||
- **PASS:** при недоступном источнике (например, `worker` не инициализирован, `pid` уже мёртв,
|
||||
`/proc/<pid>` отсутствует, пустые таблицы) соответствующее поле получает `null`/безопасный дефолт,
|
||||
а `GET /metrics` всё равно возвращает `200` и валидный JSON; есть тест, симулирующий сбой раздела
|
||||
и проверяющий 200 + `null` в этом поле.
|
||||
- **FAIL:** при любом из перечисленных условий эндпоинт возвращает `500` / бросает исключение /
|
||||
возвращает невалидный JSON.
|
||||
|
||||
---
|
||||
|
||||
## AC-5 — Read-only (ничего не меняет; гейты/схема не тронуты)
|
||||
|
||||
**Условие:** эндпоинт и модуль строго read-only; конвейерные инварианты целы.
|
||||
- **PASS:** `src/metrics.py` и обработчик `/metrics` не выполняют `INSERT`/`UPDATE`/`DELETE`/`CREATE`/
|
||||
`ALTER`, не запускают/останавливают процессы, не рестартят, не мутируют состояние демонов;
|
||||
`STAGE_TRANSITIONS`, `QG_CHECKS`, `check_*`, machine-verdict ключи и схема БД (`tasks`/`jobs`/
|
||||
`agent_runs` и пр.) — без изменений в диффе; повторный вызов `/metrics` не меняет состояние БД
|
||||
(тест: снимок БД до/после идентичен).
|
||||
- **FAIL:** дифф трогает `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/схему/machine-verdict; модуль
|
||||
выполняет любую запись/мутацию; вызов эндпоинта меняет состояние.
|
||||
|
||||
---
|
||||
|
||||
## AC-6 — agent-liveness содержит сырьё для alive-детекта
|
||||
|
||||
**Условие:** по каждому running-job отдаётся идентификация процесса и сырьё для CPU-детекта
|
||||
sidecar'ом.
|
||||
- **PASS:** для running-job ответ содержит `agent`, `run_id`, `pid`, `runtime_s` и поле сырья
|
||||
CPU-liveness (например `cpu_ticks` из `/proc/<pid>/stat` + базис тиков `clk_tck`, либо
|
||||
эквивалент по решению ADR), позволяющее внешнему наблюдателю посчитать CPU-дельту между опросами;
|
||||
при `pid is None`/мёртвом процессе CPU-поле = `null` (см. AC-4), прочие поля целы.
|
||||
- **FAIL:** liveness-раздел не позволяет sidecar'у отличить «жив» от «завис» (нет ни CPU-сырья, ни
|
||||
pid+runtime); отсутствуют `run_id`/`pid`; обращение к мёртвому pid роняет эндпоинт.
|
||||
|
||||
---
|
||||
|
||||
## AC-7 — Контракт задокументирован (для sidecar F1b) + CHANGELOG
|
||||
|
||||
**Условие:** формат `/metrics` зафиксирован как контракт и отражён в журнале изменений.
|
||||
- **PASS:** в `docs/architecture/README.md` описан формат ответа `/metrics` (разделы, поля,
|
||||
`schema_version`) как стабильный контракт для sidecar (F1b); в `CHANGELOG.md` есть запись
|
||||
`## [Unreleased]` с пометкой `ORCH-099`.
|
||||
- **FAIL:** формат не задокументирован или описан только в коде; нет записи в `CHANGELOG.md`;
|
||||
документация противоречит фактическому ответу эндпоинта.
|
||||
|
||||
---
|
||||
|
||||
## AC-8 — pytest зелёный
|
||||
|
||||
**Условие:** новый тест-набор и полный регресс проходят.
|
||||
- **PASS:** `pytest tests/ -q` зелёный; присутствует `tests/test_metrics.py`, покрывающий структуру
|
||||
ответа (AC-1), never-raise (AC-4), read-only (AC-5), liveness-сырьё (AC-6) и аддитивность (AC-2).
|
||||
- **FAIL:** любой тест красный; новые тесты отсутствуют или не покрывают перечисленные критерии.
|
||||
|
||||
---
|
||||
|
||||
## Сводная матрица AC ↔ FR/BR
|
||||
| AC | Покрывает |
|
||||
|----|-----------|
|
||||
| AC-1 | BR-1/BR-2/BR-3/BR-5 / FR-1…FR-5 |
|
||||
| AC-2 | BR-6 / FR-4 |
|
||||
| AC-3 | NFR-3 / FR-6 |
|
||||
| AC-4 | NFR-2 / FR-6 |
|
||||
| AC-5 | NFR-1/NFR-4/NFR-5 / FR-5 |
|
||||
| AC-6 | BR-4 / FR-3 |
|
||||
| AC-7 | BR-7 / FR-5 |
|
||||
| AC-8 | NFR-3 (валидация) / все FR |
|
||||
@@ -1,86 +0,0 @@
|
||||
work_item: ORCH-099
|
||||
stage: analysis
|
||||
author_agent: analyst
|
||||
status: ready-for-review
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
title: "FND/F1a — лёгкий read-only /metrics: стадии/очередь/agent-liveness/cost"
|
||||
framework: pytest
|
||||
scope: >
|
||||
Покрывается: структура ответа GET /metrics (4 раздела + конверт), never-raise по полям,
|
||||
read-only инвариант, agent-liveness сырьё (pid/runtime/cpu-тики), агрегаты cost/токенов,
|
||||
аддитивность (не сломаны /health//status//queue). Вне покрытия: сам sidecar (F1b),
|
||||
хостовые/контейнерные метрики, пороги/алерты/Telegram. Полный регресс tests/ остаётся зелёным.
|
||||
notes: >
|
||||
Тесты идут в новый tests/test_metrics.py. Используется существующий паттерн conftest.py
|
||||
(autouse fresh_db на tmp_path + init_db, monkeypatch send_telegram). Эндпоинт зовётся как
|
||||
корутина через asyncio.run(main.metrics()) по образцу tests/test_queue_endpoint.py
|
||||
(asyncio.run(main.queue())). Read-only проверяется сравнением снимка БД до/после вызова.
|
||||
Never-raise — monkeypatch источника (worker / helper БД / чтения /proc) на бросающий стаб.
|
||||
|
||||
tests:
|
||||
- id: TC-01
|
||||
type: unit
|
||||
description: "build_metrics() возвращает dict с ключами schema_version, generated_at, stages, queue, agents, cost (конверт FR-5)."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-02
|
||||
type: unit
|
||||
description: "Раздел stages: для задачи со stage!=done/cancelled элемент содержит work_item, stage, age_in_stage_s (int), repo; терминальные задачи (done/cancelled) исключены."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-03
|
||||
type: unit
|
||||
description: "Раздел queue: counts (queued/running/failed), max_concurrency, сырьё ретраев и breaker-снимок (state/consecutive_transient/pause_remaining_s) присутствуют."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-04
|
||||
type: unit
|
||||
description: "Раздел agents: по running-job отдаются agent, run_id, job_id, pid, runtime_s и поле CPU-liveness сырья (cpu_ticks или эквивалент)."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-05
|
||||
type: unit
|
||||
description: "agent-liveness never-raise: при pid=None или отсутствующем /proc/<pid> CPU-поле = null, остальные поля агента и весь ответ целы (без исключения)."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-06
|
||||
type: unit
|
||||
description: "Раздел cost.aggregate: суммы cost_usd/input_tokens/output_tokens/cache_read_tokens/cache_creation_tokens из agent_runs; пустая таблица -> нули, не ошибка."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-07
|
||||
type: unit
|
||||
description: "Never-raise по разделу: если источник раздела (напр. job_status_counts/worker.status) бросает, раздел получает null/дефолт, build_metrics() не пробрасывает исключение."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-08
|
||||
type: integration
|
||||
description: "GET /metrics через ASGI/обработчик возвращает 200 и валидный JSON со всеми разделами на засеянной БД (задача + running-job + agent_run)."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-09
|
||||
type: integration
|
||||
description: "Read-only: снимок всех таблиц БД (tasks/jobs/agent_runs) до и после вызова /metrics идентичен; повторный вызов не меняет состояние."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-10
|
||||
type: integration
|
||||
description: "Аддитивность: GET /health, /status, /queue сохраняют прежний контракт (ключи на месте) при наличии /metrics; существующие тесты эндпоинтов зелёные."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
|
||||
- id: TC-11
|
||||
type: unit
|
||||
description: "Пустое состояние: при отсутствии активных задач/running-jobs/agent_runs ответ валиден — stages=[], agents=[], cost.aggregate=нули, queue.counts с нулями; 200/без исключений."
|
||||
module: tests/test_metrics.py
|
||||
expected: PASS
|
||||
@@ -1,249 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-099
|
||||
stage: architecture
|
||||
author_agent: architect
|
||||
status: proposed
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# ADR-001: Лёгкий read-only `/metrics` — сырьё о самом орке для sidecar (F1b)
|
||||
|
||||
Work Item: **ORCH-099** — FND/F1a: лёгкий `/metrics` в орке (отдать сырьё)
|
||||
Стадия: **architecture**
|
||||
Сквозная регистрация: **`docs/architecture/adr/adr-0030-metrics-endpoint.md`** (решение
|
||||
кросс-каттинговое — новый компонент наблюдаемости + новый публичный HTTP-контракт для будущего
|
||||
sidecar F1b).
|
||||
|
||||
## Статус
|
||||
Proposed
|
||||
|
||||
## Контекст
|
||||
|
||||
F1a — фундаментный кирпич домена 0 «Фундамент» эпика автономного саморазвития. Рамка наблюдаемости
|
||||
зафиксирована заказчиком (BRD §1): **наблюдатель отделён от наблюдаемого** — мониторинг (пороги,
|
||||
алерты, история, свой Telegram) живёт в отдельном sidecar-контейнере **F1b** (`watchdog/`), а орк
|
||||
отдаёт **только сырьё**, которое знает лишь он сам. F1a поставляет источник этого сырья и **ничего
|
||||
больше**.
|
||||
|
||||
Факты, сверенные с кодом:
|
||||
- `GET /health` (`src/main.py:147`) → `{"status":"ok", ...}`; `GET /status` (`:152`) → список
|
||||
активных задач; `GET /queue` (`:163`) — богатый, но «человеческий» снимок, перемешанный с
|
||||
конфигом демонов (reconciler/reaper/post_deploy/disk_monitor/…). Ни один не даёт **стабильного
|
||||
машинного контракта** для детекта: застрявшая стадия, зависший агент, деградация очереди, всплеск
|
||||
стоимости.
|
||||
- Все нужные данные уже в БД и in-memory: `db.get_active_tasks_for_reconcile()` (`src/db.py:388` —
|
||||
`stage != 'done'` + `age_s` в SQL), `db.get_running_jobs()` (`:1103` — `SELECT j.*` + `running_age_s`,
|
||||
LEFT JOIN `agent_runs` на `run_id`), `db.job_status_counts()` (`:1187`),
|
||||
`queue_worker.worker.status()`/`CircuitBreaker.snapshot()` (`src/queue_worker.py:242`/`:113` — breaker
|
||||
in-memory). `pid`/`run_id`/`job_id` — колонки `jobs` (ORCH-065, `:83`); `model`/`effort`/`cost_usd`/
|
||||
`*_tokens` — колонки `agent_runs` (`:97`–`:106`). Терминальное множество — `{done, cancelled}`
|
||||
(ORCH-090, adr-0026).
|
||||
- Self-hosting: прод-контейнер общий с enduro-trails. Эндпоинт обязан быть строго **read-only** и
|
||||
**never-raise** — не ронять и не тормозить прод ни при каких входных данных.
|
||||
|
||||
«Как есть» не годится: добавлять поля в `/queue` сломало бы его контракт (BR-6) и смешало бы сырьё с
|
||||
человеческим снимком; в коде sidecar'а нет ни одной стабильной точки опроса. Нужен отдельный,
|
||||
версионируемый, машинный контракт.
|
||||
|
||||
## Решение
|
||||
|
||||
### Сводка
|
||||
|
||||
Новый **leaf-модуль** `src/metrics.py` с чистой never-raise функцией-сборщиком
|
||||
`build_metrics() -> dict` (по образцу `serial_gate.snapshot()`/`task_deps.snapshot()`/
|
||||
`cancel.snapshot()`) + тонкий эндпоинт `@app.get("/metrics")` в `src/main.py` (обёртка над
|
||||
сборщиком, в стиле `GET /queue`). Сборщик собирает четыре раздела (`stages`/`queue`/`agents`/`cost`)
|
||||
в версионируемом конверте, **каждый раздел — в своём `try/except`** с безопасным дефолтом. Только
|
||||
чтение существующих таблиц (`tasks`/`jobs`/`agent_runs`) и существующих in-memory-снапшотов + два
|
||||
read-only helper'а в `src/db.py`. `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict-ключи/
|
||||
схема БД — **не трогаются**.
|
||||
|
||||
### D1 — Новый leaf-модуль + тонкий эндпоинт (изоляция, never-raise по разделам)
|
||||
|
||||
Логика сборки — в `src/metrics.py`, не в `main.py` (тестируемость без ASGI, паттерн `*.snapshot()`).
|
||||
`build_metrics()` строит конверт по-раздельно; каждый раздел обёрнут в `try/except Exception`, в
|
||||
`except` → `logger.warning(...)` + безопасный дефолт (`null` для скаляра/объекта, `[]` для списка).
|
||||
Функция **никогда** не пробрасывает исключение (FR-6, NFR-2, AC-4). Эндпоинт `/metrics` —
|
||||
тонкая обёртка: возвращает `build_metrics()` как есть; собственной обработки ошибок не требует
|
||||
(сборщик уже never-raise). Уровень доступа — тот же, что `/queue`/`/status` (без доп. аутентификации,
|
||||
FR-4).
|
||||
|
||||
Привязка: FR-6, NFR-1, NFR-2, AC-4, AC-5.
|
||||
|
||||
### D2 — Конверт ответа + контракт `schema_version` (BR-1, BR-6, NFR-6)
|
||||
|
||||
```json
|
||||
{
|
||||
"schema_version": 1,
|
||||
"generated_at": "2026-06-10T12:34:56Z",
|
||||
"clk_tck": 100,
|
||||
"stages": [ ... ],
|
||||
"queue": { ... },
|
||||
"agents": [ ... ],
|
||||
"cost": { "running": [ ... ], "aggregate": { ... } }
|
||||
}
|
||||
```
|
||||
|
||||
- **`schema_version` стартует с `1`.** Политика инкремента (контракт для F1b, документируется в
|
||||
README, BR-7): **аддитивные** изменения (новое поле/раздел) **НЕ бампят версию** — sidecar
|
||||
**обязан игнорировать незнакомые ключи и толерировать отсутствие опциональных**. Версия бампится
|
||||
**только при ломающем** изменении (переименование/удаление/смена типа существующего поля). Это
|
||||
делает контракт forward-compatible: будущие расширения F1a не ломают уже написанный F1b (NFR-6,
|
||||
TR-4). Формат-чек версии — по духу `is_valid_model` (ORCH-74): структурный, не статичный allowlist.
|
||||
- **`generated_at`** — `datetime('now')` UTC, ISO-8601 (тот же часовой домен, что timestamp'ы БД и
|
||||
выборка CPU-тиков). Это момент снимка: sidecar считает дельты между двумя опросами по
|
||||
`(cpu_ticks, generated_at)` из ответов — **всё в часах самого орка**, поэтому расчёт иммунен к
|
||||
расхождению часов орк↔sidecar (TR-3).
|
||||
- **`clk_tck`** — `os.sysconf("SC_CLK_TCK")` на уровне конверта (а не на каждом агенте — значение
|
||||
процесс-глобальное): базис для перевода CPU-тиков в секунды на стороне sidecar.
|
||||
|
||||
Привязка: BR-1, BR-6, NFR-6, FR-5, AC-1, AC-7.
|
||||
|
||||
### D3 — Раздел `stages` (BR-2, FR-1)
|
||||
|
||||
Список активных задач из `db.get_active_tasks_for_reconcile()`, **с дополнительной фильтрацией
|
||||
`stage NOT IN ('done','cancelled')`** на слое metrics. Обоснование: helper намеренно возвращает
|
||||
`cancelled`-задачи (для skip-счётчика реконсилятора ORCH-086, см. `src/db.py:396`) — но для сырья
|
||||
наблюдаемости терминальные задачи не нужны (терминальное множество `{done, cancelled}`, ORCH-090).
|
||||
Не меняем helper (его инвариант принадлежит ORCH-053/086) — фильтруем на потребителе. По каждой
|
||||
задаче: `work_item` (`work_item_id`), `stage`, `age_in_stage_s` (= `age_s`, целое, SQL
|
||||
`strftime` против UTC-now — момент последней смены стадии), `repo` (sidecar мультипроектный),
|
||||
опц. `task_id`/`created_age_s`. Пустой список — валидный ответ (AC, TC-11).
|
||||
|
||||
Привязка: BR-2, FR-1, AC-1, TC-02, TC-11.
|
||||
|
||||
### D4 — Раздел `queue` (BR-3, FR-2)
|
||||
|
||||
- `counts` — `db.job_status_counts()` (`queued`/`running`/`done`/`failed`); добавить `cancelled`
|
||||
(ORCH-090 терминал) — helper уже агрегирует `GROUP BY status`, нужно лишь не терять ключ.
|
||||
- `depth` — глубина очереди = число `queued`-jobs (можно `counts.queued`); опц. «доступные сейчас»
|
||||
с учётом `available_at <= now`.
|
||||
- `retries` — агрегат по незавершённым jobs: `attempts` vs `max_attempts`, `transient_attempts`, и
|
||||
как минимум «сколько jobs в backoff» (`available_at > now`). Источник — read-only SELECT-агрегат
|
||||
(новый helper или агрегация по `recent_jobs`/прямой SELECT; решение реализации за developer'ом в
|
||||
рамках read-only).
|
||||
- `breaker` — `worker.breaker.snapshot()` (`state`/`consecutive_transient`/`pause_remaining_s`).
|
||||
- `max_concurrency` — `worker.max_concurrency`; опц. `poll_interval`.
|
||||
|
||||
Инвариант (NFR-2): недоступный `worker` (не инициализирован в тесте) → `breaker: null` и/или
|
||||
`max_concurrency: null`, **не 500** (own `try/except` вокруг in-memory доступа).
|
||||
|
||||
Привязка: BR-3, FR-2, AC-1, TC-03, TC-07.
|
||||
|
||||
### D5 — Раздел `agents` (agent-liveness) — источник данных и CPU-сырьё (BR-4, FR-3)
|
||||
|
||||
**Источник данных — новый dedicated read-only helper `db.get_running_agents()`, НЕ расширение
|
||||
`get_running_jobs()`.** Причина: `get_running_jobs()` — hot-path запрос job-reaper'а (ORCH-065,
|
||||
`src/db.py:1103`); расширять его SELECT под нужды наблюдаемости — перенос инварианта чужого
|
||||
компонента. Новый helper — изолированный `SELECT j.id, j.run_id, j.pid, j.agent, j.started_at,
|
||||
running_age_s, r.model, r.effort FROM jobs j LEFT JOIN agent_runs r ON r.id = j.run_id WHERE
|
||||
j.status='running'` (LEFT JOIN сохраняет job без `agent_runs`-строки). По каждому running-job:
|
||||
`agent`, `run_id`, `job_id`, `pid` (может быть `null`), `runtime_s`, `model`, `effort`, `cpu_ticks`.
|
||||
|
||||
**CPU-сырьё — вариант A (орк читает `/proc`, остаётся stateless).** Орк эмитит сырые тики, дельту
|
||||
**не считает** — арбитр liveness это sidecar (BRD-допущение C-1). Чистый never-raise helper в
|
||||
`src/metrics.py`:
|
||||
|
||||
```
|
||||
_read_cpu_ticks(pid) -> int | None
|
||||
# читает /proc/<pid>/stat, поля 14 (utime) + 15 (stime), возвращает их сумму (в тиках);
|
||||
# pid is None / нет /proc/<pid> / гонка (процесс умер) / не-Linux -> None (НЕ raise)
|
||||
```
|
||||
|
||||
`clk_tck` (D2) — на уровне конверта. sidecar между двумя опросами считает
|
||||
`cpu_busy = (ticks₂ − ticks₁) / clk_tck`, делит на `(generated_at₂ − generated_at₁)` → доля CPU;
|
||||
малая доля при растущем `runtime_s` ⇒ кандидат на «завис». Парсинг `/proc/<pid>/stat` устойчив к
|
||||
пробелам в `comm`: брать поля **после** `') '` (закрывающая скобка имени) — канон чтения proc-stat.
|
||||
|
||||
Инвариант (NFR-2, AC-6, TC-05): `pid is None` ИЛИ мёртвый/отсутствующий `/proc/<pid>` → `cpu_ticks:
|
||||
null` у этого агента; прочие поля и весь эндпоинт целы.
|
||||
|
||||
Привязка: BR-4, FR-3, AC-6, TC-04, TC-05.
|
||||
|
||||
### D6 — `runtime_s` — базис `jobs.started_at` (FR-3)
|
||||
|
||||
`runtime_s = running_age_s` (секунды с `jobs.started_at`, считается в SQL в `get_running_agents`),
|
||||
**не** `agent_runs.started_at`. Обоснование: `jobs.started_at` — якорь жизненного цикла процесса,
|
||||
рядом с которым застамплен `pid` (ORCH-065); это тот же базис, что использует reaper для
|
||||
backstop-liveness. Значения почти совпадают, но `jobs` — авторитетный процесс-якорь, а
|
||||
`agent_runs`-строки может не быть (LEFT JOIN). Консистентность с reaper > микроточность.
|
||||
|
||||
Привязка: FR-3, AC-6.
|
||||
|
||||
### D7 — Раздел `cost` (BR-5, FR-4)
|
||||
|
||||
- `running` — по каждому running-job текущие значения из `agent_runs`, если уже застамплены. Часто
|
||||
`null` до завершения: токены/`cost_usd` парсятся из CLI-JSON в `launcher._monitor_agent` по
|
||||
окончании. **`null` для незавершённых — честное сырьё** (документируется: `null` ≠ ноль, TR-5).
|
||||
- `aggregate` — новый read-only helper `db.agent_cost_totals()`: чистый
|
||||
`SELECT COALESCE(SUM(cost_usd),0), COALESCE(SUM(input_tokens),0), … FROM agent_runs` по
|
||||
`cost_usd`/`input_tokens`/`output_tokens`/`cache_read_tokens`/`cache_creation_tokens`. Пустая
|
||||
таблица → нули, не ошибка (TC-06, TC-11). Опц. срез (всего + по `repo` через джойн `tasks`) —
|
||||
расширяемо без бампа версии (D2).
|
||||
|
||||
Привязка: BR-5, FR-4, AC-1, TC-06, TC-11.
|
||||
|
||||
### D8 — Kill-switch `metrics_endpoint_enabled` (default `True`)
|
||||
|
||||
TRZ §7 оставляет флаг на усмотрение архитектора. **Решение: добавить** конфиг-флаг
|
||||
`metrics_endpoint_enabled` (env `ORCH_METRICS_ENABLED`, дефолт `True`) — по образцу snapshot-флагов
|
||||
кодовой базы и из self-hosting-осторожности (операторский off-switch на общем прод-инстансе). При
|
||||
`False` эндпоинт возвращает **`200` с минимальным телом** `{"schema_version": 1, "enabled": false}`
|
||||
(не 404 — контракт остаётся парсимым, sidecar видит `enabled:false` и трактует это явно). Дефолт
|
||||
`True` ⇒ нулевая регрессия требований BRD (эндпоинт доступен из коробки). Флаг — дешёвая страховка,
|
||||
не предмет BRD; реализация инертна.
|
||||
|
||||
Привязка: NFR-1, NFR-4, TRZ §7.
|
||||
|
||||
## Альтернативы
|
||||
|
||||
- **Расширить `/queue` вместо нового эндпоинта** — отвергнуто: сломало бы байт-в-байт контракт
|
||||
`/queue` (BR-6, AC-2) и смешало бы машинное сырьё с человеческим снимком + конфигом демонов;
|
||||
sidecar'у нужна узкая стабильная точка.
|
||||
- **Prometheus/OpenMetrics text-формат** — отвергнуто: заказчик задал тонкий кастомный sidecar (не
|
||||
Prometheus, C-3); требование — JSON-контракт под конкретный F1b.
|
||||
- **Орк сам считает CPU-дельту** — отвергнуто: требует состояния между опросами; орк — пассивный
|
||||
источник, stateful-арбитр это sidecar (C-1). Stateless-эмиссия сырых тиков проще и надёжнее.
|
||||
- **Расширить SELECT `get_running_jobs()`** под model/effort — отвергнуто: перенос инварианта
|
||||
hot-path reaper'а (ORCH-065); изолируем dedicated helper `get_running_agents()`.
|
||||
- **Push метрик в sidecar** — отвергнуто: нарушает разделение C-1 (орк остаётся пассивным
|
||||
источником); при зависшем орке pull-опрос падает — это **сам сигнал тревоги** для sidecar.
|
||||
- **Без kill-switch** — рассматривалось (эндпоинт инертен); выбран флаг ради конвенции кодовой базы
|
||||
и операторского off-switch (D8).
|
||||
|
||||
## Последствия
|
||||
|
||||
- **+** Появляется стабильный машинный контракт сырья — F1b (заблокированная этой задачей)
|
||||
разблокирована; домен наблюдаемости может стартовать.
|
||||
- **+** Строго read-only + never-raise по разделам ⇒ near-zero остаточный риск для общего
|
||||
прод-конвейера (enduro-trails); физически не способен повлиять на конвейер (NFR-4).
|
||||
- **+** Аддитивно и обратимо: `/health`/`/status`/`/queue` байт-в-байт; `STAGE_TRANSITIONS`/
|
||||
`QG_CHECKS`/`check_*`/schema/machine-verdict-ключи не тронуты (NFR-5).
|
||||
- **+** `schema_version` + аддитивно-толерантная политика ⇒ будущие расширения не ломают F1b.
|
||||
- **−** Новый публичный контракт = новая поверхность совместимости: дрейф `/metrics`↔F1b митигируется
|
||||
единым репозиторием контракта (README, BR-7) + `schema_version` (D2). Издержка принимается.
|
||||
- **−** CPU-liveness Linux-специфичен (`/proc`); на не-Linux `cpu_ticks: null` (деградация, не
|
||||
ошибка). Прод-контейнер — Linux, допущение выполняется (BRD §6).
|
||||
- **Топология/схема:** не меняются (07/08 — N/A). Sidecar-контейнер и его сетевая достижимость
|
||||
`/metrics` — объём **F1b**, не этой задачи (см. README-заметку о предусловии достижимости).
|
||||
- **Эскалация:** формально вводится новый компонент наблюдаемости + публичный контракт → лейбл
|
||||
**`arch:major-change`** (консервативно, хотя изменение полностью аддитивно/read-only/обратимо).
|
||||
Прод-деплой — строго через staging-гейт (8501), без рестарта прод-контейнера.
|
||||
- **Откат:** `metrics_endpoint_enabled=False` (мгновенный) либо удаление `src/metrics.py` + эндпоинта
|
||||
+ helper'ов — полностью откатывает изменение без следов в БД/схеме (TRZ §7).
|
||||
|
||||
## Ссылки
|
||||
- BRD: `docs/work-items/ORCH-099/01-brd.md`
|
||||
- TRZ: `docs/work-items/ORCH-099/02-trz.md`
|
||||
- Acceptance: `docs/work-items/ORCH-099/03-acceptance-criteria.md`
|
||||
- Тех-риски: `docs/work-items/ORCH-099/10-tech-risks.md`
|
||||
- Сквозной ADR: `docs/architecture/adr/adr-0030-metrics-endpoint.md`
|
||||
- Сверено по коду: `src/main.py` (`/health`/`/status`/`/queue`), `src/db.py`
|
||||
(`get_active_tasks_for_reconcile`/`get_running_jobs`/`job_status_counts`, схема `agent_runs`/`jobs`),
|
||||
`src/queue_worker.py` (`worker.status`/`CircuitBreaker.snapshot`), `src/serial_gate.py`
|
||||
(`snapshot()` — эталон never-raise).
|
||||
- Связанные ADR: adr-0002 (job-queue/breaker — источник `queue`-сырья), adr-0011 (job-reaper —
|
||||
`get_running_jobs`/pid/liveness-семантика), adr-0026 (терминал `{done,cancelled}` — фильтр стадий),
|
||||
adr-0017 (serial_gate — паттерн leaf `snapshot()`/never-raise), adr-0020 (frontmatter-контракт —
|
||||
стиль версионируемого контракта).
|
||||
@@ -1,43 +0,0 @@
|
||||
---
|
||||
work_item: ORCH-099
|
||||
stage: architecture
|
||||
author_agent: architect
|
||||
status: proposed
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
---
|
||||
|
||||
# 10 — Технические риски: ORCH-099 — FND/F1a: лёгкий `/metrics` (сырьё для sidecar)
|
||||
|
||||
Work Item: **ORCH-099** · Repo: **orchestrator** · Стадия: architecture
|
||||
|
||||
> Информационный (гейтом не парсится). Перечисляет риски реализации и их митигейшн.
|
||||
|
||||
## Реестр рисков
|
||||
|
||||
| ID | Риск | Вер. | Влия. | Митигейшн |
|
||||
|----|------|------|-------|-----------|
|
||||
| TR-1 | Гонка чтения `/proc/<pid>/stat`: процесс умер между выборкой running-job и чтением proc → `FileNotFoundError`/частичная строка | Сред. | Низ. | `_read_cpu_ticks` never-raise → `cpu_ticks: null` (NFR-2, FR-3, AC-6); прочие поля и эндпоинт целы. Парс proc-stat читает поля **после** `') '` (устойчивость к пробелам в `comm`). |
|
||||
| TR-2 | PID-namespace mismatch: `jobs.pid` относится не к тому PID-namespace, где орк читает `/proc` | Низ. | Сред. | Агент — дочерний процесс орка (launcher `subprocess` в том же контейнере/ns), `pid` стамплется орком (ORCH-065) → `/proc/<pid>` валиден в том же ns. Несовпадение → `null` (деградация, не падение). |
|
||||
| TR-3 | Расхождение часов орк↔sidecar искажает расчёт CPU-доли | Низ. | Низ. | Контракт by-design: sidecar считает дельту по `(cpu_ticks, generated_at)` из **двух ответов орка** → всё в домене часов орка, skew-иммунно (ADR D2). |
|
||||
| TR-4 | Дрейф контракта `/metrics`↔ожидания F1b при будущих расширениях | Сред. | Сред. | `schema_version` (старт 1) + аддитивно-толерантная политика (sidecar игнорирует незнакомые ключи, толерирует отсутствие опциональных); контракт документирован в README в одном репо (BR-7, NFR-6). |
|
||||
| TR-5 | `cost.running = null` (токены ещё не застамплены) ошибочно прочитан sidecar'ом как «ноль стоимости» | Сред. | Низ. | Документировать: `null` ≠ ноль (= «не завершён, не застамплен»); авторитет по спенду — `cost.aggregate` (ADR D7). |
|
||||
| TR-6 | Контеншн на `CircuitBreaker._lock` при опросе breaker-снимка | Низ. | Низ. | `snapshot()` держит lock кратко (только чтение полей, `src/queue_worker.py:113`); раздел обёрнут own `try/except` → `breaker: null` при любой проблеме. Частота опроса sidecar — секунды, не микросекунды. |
|
||||
| TR-7 | Рост стоимости `SUM`-агрегата по `agent_runs` при разрастании таблицы | Низ. | Низ. | `agent_cost_totals()` — один индексируемый full-scan `SUM`, n мал (десятки–сотни строк на текущем горизонте); точка расширения — временное окно/`repo`-срез без бампа версии (ADR D2/D7). |
|
||||
| TR-8 | Соблазн «протащить» в `/metrics` логику алертинга/порогов | Низ. | Сред. | Scope-граница BRD (вне объёма) + NFR-1 (read-only) + reviewer-контроль; мозг (пороги/алерты) — строго F1b. |
|
||||
| TR-9 | Незаметная мутация состояния (случайный не-read-only вызов в сборщике) роняет инвариант read-only | Низ. | Выс. | Сборщик использует только SELECT-helper'ы; AC-5/TC-09 — тест «снимок БД до/после идентичен»; reviewer сверяет дифф на отсутствие `INSERT/UPDATE/DELETE/CREATE/ALTER` и запуска процессов. |
|
||||
|
||||
## Сводный вывод
|
||||
|
||||
Доминирующий класс — **гонки/деградация чтения runtime-данных** (`/proc`, in-memory breaker), все
|
||||
закрыты конструктивным never-raise по разделам (эталон `serial_gate.snapshot()`) → деградация в
|
||||
`null`, не отказ. Контрактные риски (TR-4/TR-5) закрыты `schema_version` + документированием.
|
||||
Наивысшее потенциальное влияние (TR-9, нарушение read-only) митигируется тестом «БД до/после
|
||||
идентична» (TC-09) и reviewer-сверкой диффа.
|
||||
|
||||
Изменение полностью аддитивно, read-only, never-raise, обратимо (kill-switch + удаление модуля).
|
||||
**Остаточный риск для прод-конвейера (self-hosting, общий с enduro-trails) — near-zero:** эндпоинт
|
||||
физически не способен мутировать состояние или уронить процесс (NFR-1/NFR-2/NFR-4). Эскалация в
|
||||
анализ не требуется. Формальный лейбл **`arch:major-change`** проставляется консервативно (новый
|
||||
компонент наблюдаемости + публичный контракт), хотя по существу изменение низкорисковое; прод-деплой
|
||||
— строго через staging-гейт (8501), без рестарта прод-контейнера.
|
||||
@@ -1,86 +0,0 @@
|
||||
---
|
||||
verdict: APPROVED
|
||||
work_item: ORCH-099
|
||||
stage: review
|
||||
author_agent: reviewer
|
||||
status: approved
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
type: review
|
||||
work_item_id: ORCH-099
|
||||
version: 1
|
||||
---
|
||||
|
||||
# Review ORCH-099 — FND/F1a: лёгкий read-only `GET /metrics` (сырьё для sidecar F1b)
|
||||
|
||||
## Summary
|
||||
|
||||
Реализация полностью соответствует ТЗ (`02-trz.md`), критериям приёмки (`03-acceptance-criteria.md`)
|
||||
и архитектурному решению (`06-adr/ADR-001` + сквозной `adr-0030`). Добавлен аддитивный, строго
|
||||
read-only, never-raise эндпоинт `GET /metrics` через leaf-модуль `src/metrics.py` (`build_metrics()`,
|
||||
паттерн `serial_gate.snapshot()`) + тонкая обёртка в `src/main.py` + три read-only helper'а в
|
||||
`src/db.py`. Конвейерные инварианты целы: `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` /
|
||||
machine-verdict ключи / схема БД — не тронуты (в диффе нет `src/stages.py`/`src/qg/`; упоминания этих
|
||||
имён — только в документации/комментариях). Полный регресс `pytest tests/ -q` — **1482 passed**.
|
||||
Документация обновлена в том же PR. Блокирующих findings нет.
|
||||
|
||||
**Оси проверки:**
|
||||
|
||||
1. **Соответствие ТЗ** — ✅. FR-1 (`stages`, фильтр терминалов `{done,cancelled}`), FR-2 (`queue`:
|
||||
counts+`cancelled`, depth, retries, breaker, max_concurrency), FR-3 (`agents`-liveness:
|
||||
agent/run_id/job_id/pid/runtime_s/model/effort + `cpu_ticks`), FR-4 (`cost`: running+aggregate),
|
||||
FR-5 (конверт `schema_version`/`generated_at`/`clk_tck`), FR-6 (never-raise по разделам) —
|
||||
реализованы. AC-1…AC-8 проверены по коду и тестам (TC-01…TC-11), все зелёные.
|
||||
2. **Соответствие ADR** — ✅. D1–D8 реализованы как описано: D3 фильтр терминалов на потребителе
|
||||
(helper-инвариант ORCH-053/086 не тронут); D5 dedicated `get_running_agents()` вместо расширения
|
||||
hot-path `get_running_jobs()` (ORCH-065); D6 `runtime_s` от `jobs.started_at`; D8 kill-switch
|
||||
`metrics_endpoint_enabled` (дефолт `True`, `200` с минимальным телом при `False`). Глобальный
|
||||
инвариант терминального множества `{done,cancelled}` (adr-0026) соблюдён. `validation_alias`
|
||||
`ORCH_METRICS_ENABLED` — обоснованное усиление D8 (документированное имя контракта реально
|
||||
управляет флагом), покрыто `tests/test_config.py`. Нарушений глобальных ADR нет.
|
||||
3. **Качество кода** — ✅. Все колонки БД (`agent_runs.{cost_usd,*_tokens}`, `jobs.{pid,run_id,
|
||||
started_at,repo,attempts,transient_attempts,available_at}`) сверены — существуют. Парсинг
|
||||
`/proc/<pid>/stat` устойчив к пробелам/скобкам в `comm` (`rfind(") ")`, индексы 11/12 = поля
|
||||
14/15); `_read_cpu_ticks` never-raise per-pid. Docstrings на всех публичных функциях, тесты
|
||||
содержательные (живой pid → реальный int, мёртвый/`None` → `null`, бросающий источник → дефолт).
|
||||
4. **Документация** — ✅ (см. секцию ниже).
|
||||
|
||||
## Findings
|
||||
|
||||
### P0 — Blocker
|
||||
- Нет.
|
||||
|
||||
### P1 — Must fix
|
||||
- Нет.
|
||||
|
||||
### P2 — Should fix
|
||||
- Нет.
|
||||
|
||||
### P3 — Nice-to-have (не блокирует)
|
||||
- [ ] `db.get_running_agents()` вызывается дважды на один запрос `/metrics` — в `_build_agents` и в
|
||||
`_build_cost` (`src/metrics.py:176` и `:206`) — два идентичных SELECT'а. На типовом объёме
|
||||
(running-jobs ≤ `max_concurrency`) — пренебрежимо, AC-3 не нарушен; при желании можно выбрать строки
|
||||
один раз и переиспользовать. Косметика, исправление не требуется для приёмки.
|
||||
|
||||
## Документация
|
||||
|
||||
Обновлена в том же PR (правило «доки = golden source», AC-7) — проверено явно:
|
||||
- **`docs/architecture/README.md`** — новый компонент «Metrics endpoint» в списке, полный раздел-
|
||||
контракт «Сырьё-эндпоинт `/metrics` для sidecar» (конверт, разделы, политика `schema_version`,
|
||||
гарантии read-only/never-raise, kill-switch) и строка в таблице API. Соответствует фактическому
|
||||
ответу эндпоинта.
|
||||
- **`CHANGELOG.md`** — запись `## [Unreleased]` с пометкой `ORCH-099` (D1–D8 + тесты + откат).
|
||||
- **`docs/work-items/ORCH-099/06-adr/ADR-001-metrics-endpoint.md`** — детальное решение (D1–D8).
|
||||
- **`docs/architecture/adr/adr-0030-metrics-endpoint.md`** — сквозной ADR (новый компонент
|
||||
наблюдаемости + публичный контракт), зарегистрирован в `docs/architecture/adr/README.md` (индекс +
|
||||
«текущий максимум — `0030`»).
|
||||
- **`.env.example`** — задокументирован `ORCH_METRICS_ENABLED=true`.
|
||||
|
||||
`src/` изменён → документация обновлена (golden source соблюдён). Эпик-обзорные доки `README.md`
|
||||
«Известные ограничения» этой задачей не затрагиваются (новый компонент, не закрытие ограничения).
|
||||
|
||||
## Регресс / проверки
|
||||
- `pytest tests/ -q` → **1482 passed** (новые `tests/test_metrics.py` TC-01…TC-11 + `test_config.py`
|
||||
×2; регресс `/health`//status//queue зелёный, TC-10).
|
||||
- Дифф `src/stages.py` / `src/qg/` — пуст; machine-verdict ключи и схема БД — байт-в-байт прежние.
|
||||
- Read-only подтверждён тестом снимка БД до/после (TC-09); never-raise — TC-05/TC-07.
|
||||
@@ -1,87 +0,0 @@
|
||||
---
|
||||
result: PASS
|
||||
work_item: ORCH-099
|
||||
stage: testing
|
||||
author_agent: tester
|
||||
status: pass
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
type: test-report
|
||||
work_item_id: ORCH-099
|
||||
---
|
||||
|
||||
# Test Report — ORCH-099 — FND/F1a: лёгкий read-only `GET /metrics` (сырьё для sidecar F1b)
|
||||
|
||||
> Машинный вердикт читается ТОЛЬКО из frontmatter. Канонический ключ — `result:` (UPPERCASE).
|
||||
> Любой негативный токен (`FAIL`/`BLOCKED`) авторитетен.
|
||||
|
||||
## Окружение
|
||||
- Python: 3.12.13
|
||||
- pytest: 8.3.3 (pytest-cov 5.0.0, pytest-asyncio 0.23.8)
|
||||
- Дата: 2026-06-10
|
||||
- Worktree: `/repos/_wt/orchestrator/feature_ORCH-099-fnd-f1a-metrics-agent-liveness`
|
||||
(ветка `feature/ORCH-099-fnd-f1a-metrics-agent-liveness`)
|
||||
- Review verdict (`12-review.md`): **APPROVED** — гейт пройден до тестирования.
|
||||
|
||||
## Результаты
|
||||
|
||||
### Полный регресс
|
||||
`cd <worktree> && pytest tests/ -v --tb=short` → **1482 passed, 1 warning** за 49.98s.
|
||||
Прод-контейнер (8500) не трогался; прогон — в рабочем дереве ветки задачи.
|
||||
Единственный warning — известный PydanticDeprecatedSince20 (`src/config.py:8`), не связан с задачей.
|
||||
|
||||
### Профильная сюита
|
||||
`pytest tests/test_metrics.py -v` → **14 passed** за 0.96s (TC-01…TC-11; часть TC покрыта
|
||||
несколькими тест-функциями). Новый код присутствует в worktree: `src/metrics.py` (10 538 байт),
|
||||
`@app.get("/metrics")` в `src/main.py:216` — тонкая обёртка над `metrics.build_metrics()`.
|
||||
|
||||
### Smoke API (read-only, прод 8500)
|
||||
- `GET /health` → `{"status":"ok","service":"orchestrator"}` — OK.
|
||||
- `GET /status` → `{"active_tasks":[...]}` — контракт цел.
|
||||
- `GET /queue` → ключи на месте; блок **`serial_gate` присутствует** (ORCH-088), **`auto_labels`
|
||||
присутствует** (ORCH-089) — регресса смока нет.
|
||||
- `GET /metrics` на проде → `404 Not Found` — **ожидаемо**: новый эндпоинт ещё не задеплоен (стадия
|
||||
testing, до `deploy`); функционал верифицирован тестами в worktree (TC-08). Не является FAIL.
|
||||
|
||||
### Сопоставление с тест-планом (`04-test-plan.yaml`)
|
||||
| TC ID | Описание | Тест-функция | Результат |
|
||||
|-------|----------|--------------|-----------|
|
||||
| TC-01 | Конверт FR-5: dict с schema_version/generated_at/stages/queue/agents/cost | `test_tc01_envelope_has_all_sections` | PASS |
|
||||
| TC-02 | stages: активные только; work_item/stage/age_in_stage_s(int)/repo; терминалы исключены | `test_tc02_stages_active_only_with_fields` | PASS |
|
||||
| TC-03 | queue: counts/max_concurrency/retries/breaker-снимок | `test_tc03_queue_section_fields` | PASS |
|
||||
| TC-04 | agents: agent/run_id/job_id/pid/runtime_s + CPU-liveness сырьё | `test_tc04_agents_liveness_fields` | PASS |
|
||||
| TC-05 | liveness never-raise: pid=None / нет /proc → cpu_ticks=null, ответ цел | `test_tc05_dead_or_none_pid_cpu_ticks_null`, `test_tc05_read_cpu_ticks_helper_none_paths` | PASS |
|
||||
| TC-06 | cost.aggregate: суммы cost_usd/токены; пустая таблица → нули | `test_tc06_cost_aggregate_sums_and_empty_zeros` | PASS |
|
||||
| TC-07 | never-raise по разделу: бросающий источник/breaker → null/дефолт | `test_tc07_section_source_throws_degrades_not_500`, `test_tc07_breaker_unavailable_is_null` | PASS |
|
||||
| TC-08 | GET /metrics → 200 + валидный JSON со всеми разделами на засеянной БД | `test_tc08_endpoint_returns_full_payload`, `test_tc08_kill_switch_minimal_body` | PASS |
|
||||
| TC-09 | read-only: снимок БД до/после идентичен; повтор не меняет состояние | `test_tc09_metrics_is_read_only` | PASS |
|
||||
| TC-10 | аддитивность: /health//status//queue сохраняют контракт | `test_tc10_existing_endpoints_intact` | PASS |
|
||||
| TC-11 | пустое состояние: stages=[]/agents=[]/cost нули/queue нули → 200 без исключений | `test_tc11_empty_state_valid` | PASS |
|
||||
|
||||
Все 11 TC из тест-плана выполнены и сопоставлены. Расхождений с `expected: PASS` нет.
|
||||
|
||||
### Сопоставление с критериями приёмки (`03-acceptance-criteria.md`)
|
||||
| AC | Условие | Покрытие | Результат |
|
||||
|----|---------|----------|-----------|
|
||||
| AC-1 | 4 раздела + конверт с полями TRZ §3 | TC-01/02/03/04/06 | PASS |
|
||||
| AC-2 | /health//status//queue не сломаны | TC-10 + smoke | PASS |
|
||||
| AC-3 | лёгкость: только локальный SQL + in-memory, без сети/тяжёлых процессов | код `src/metrics.py` (нет сетевых вызовов; только read /proc), профильный прогон 0.96s | PASS |
|
||||
| AC-4 | never-raise: ошибка поля → null, не 500 | TC-05/TC-07/TC-11 | PASS |
|
||||
| AC-5 | read-only; STAGE_TRANSITIONS/QG_CHECKS/check_*/схема не тронуты | TC-09 + review (дифф `src/stages.py`/`src/qg/` пуст) | PASS |
|
||||
| AC-6 | agent-liveness: pid/runtime_s + CPU-сырьё для alive-детекта | TC-04/TC-05 | PASS |
|
||||
| AC-7 | контракт в README + CHANGELOG | подтверждено review (`12-review.md`, §Документация) | PASS |
|
||||
| AC-8 | pytest зелёный; есть test_metrics.py | 1482 passed; 14 в test_metrics.py | PASS |
|
||||
|
||||
## Вывод pytest
|
||||
```
|
||||
======================= 1482 passed, 1 warning in 49.98s =======================
|
||||
```
|
||||
```
|
||||
tests/test_metrics.py ........... (14 items)
|
||||
======================== 14 passed, 1 warning in 0.96s =========================
|
||||
```
|
||||
|
||||
## Итог
|
||||
PASS — полный регресс (1482) и профильная сюита (14) зелёные; smoke read-only OK
|
||||
(`serial_gate` + `auto_labels` присутствуют в `/queue`); каждый TC тест-плана выполнен и
|
||||
сопоставлен с критериями приёмки. Задача готова к переходу на `deploy-staging`.
|
||||
@@ -1,12 +0,0 @@
|
||||
---
|
||||
deploy_status: SUCCESS
|
||||
work_item: ORCH-099
|
||||
hook_exit_code: 0
|
||||
deployed_by: deploy-finalizer
|
||||
---
|
||||
|
||||
# Deploy log — ORCH-036 executable self-deploy
|
||||
|
||||
Прод-деплой завершён хост-хуком с exit-code `0` -> `deploy_status: SUCCESS`.
|
||||
|
||||
Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.
|
||||
@@ -1,34 +0,0 @@
|
||||
---
|
||||
staging_status: SUCCESS
|
||||
work_item: ORCH-099
|
||||
stage: deploy-staging
|
||||
author_agent: deployer
|
||||
status: success
|
||||
created_at: 2026-06-10
|
||||
model_used: claude-opus-4-8
|
||||
timestamp: 2026-06-09T23:05:57Z
|
||||
base_url: http://localhost:8501
|
||||
---
|
||||
|
||||
# Staging Gate Log
|
||||
|
||||
Staging test suite completed against the live `orchestrator-staging` instance (port 8501),
|
||||
run canonically inside the `orchestrator-staging` container (`scripts/staging_check.py
|
||||
--base-url http://localhost:8501 --mode stub`). Exit code **0 → SUCCESS**. All REAL pipeline
|
||||
checks passed; the two sandbox-infra checks (C9a/C9b) are tolerated per ORCH-061.
|
||||
|
||||
INFRA-WAIVED: C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue (known sandbox-infra; real checks green)
|
||||
VERDICT: SUCCESS (exit 0) — SUCCESS (infra-waived): ['C9a Branch appears in orchestrator-sandbox', 'C9b Analyst job enqueued in staging queue'] are known sandbox-infra checks; all real checks green
|
||||
|
||||
## Results
|
||||
- **Block A (SMOKE)**: ✓ A1 `/health` → 200 ok · ✓ A2 `/queue` → 200 (counts/max_concurrency/resilience) · ✓ A3 `ORCH_STAGING=true`
|
||||
- **Block B (ACCESS)**: ✓ B4 Plane sandbox accessible (sandbox=YES) · ✓ B5 Gitea `orchestrator-sandbox` accessible, push=true · ✓ B6 Registry isolation (sandbox present, prod ET/ORCH absent)
|
||||
- **Block C (E2E, mode=stub)**: ✓ C7 Create issue in Plane SANDBOX · ✓ C8 Trigger pipeline via `/webhook/plane` · ✗ C9a Branch in orchestrator-sandbox (INFRA-WAIVED) · ✗ C9b Analyst job enqueued (INFRA-WAIVED)
|
||||
- **Cleanup**: ✓ deleted Plane issue (HTTP 204)
|
||||
|
||||
RESULT: 8/10 checks PASS.
|
||||
REAL failed: none.
|
||||
SANDBOX_INFRA failed (waived): C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue.
|
||||
|
||||
Tolerance: `staging_infra_tolerance_enabled=True` (ORCH-061). The exit-code → `staging_status`
|
||||
mapping is unchanged: exit 0 → `SUCCESS`. Advancing to the `deploy` gate.
|
||||
@@ -1,7 +1,7 @@
|
||||
import logging
|
||||
import re
|
||||
|
||||
from pydantic import Field, field_validator
|
||||
from pydantic import field_validator
|
||||
from pydantic_settings import BaseSettings
|
||||
|
||||
|
||||
@@ -291,33 +291,6 @@ class Settings(BaseSettings):
|
||||
coverage_tool_fail_closed: bool = False
|
||||
coverage_run_timeout_s: int = 900
|
||||
|
||||
# ORCH-057: legacy root-owned file ownership detect + actionable worktree error
|
||||
# (follow-up ORCH-040). Three additive, kill-switch-reversible layers: (1) an
|
||||
# actionable RuntimeError in git_worktree.ensure_worktree when a worktree fails
|
||||
# to be created because of legacy root-owned files (Permission denied), (2) a
|
||||
# cheap, TTL-cached, never-raise detect leaf src/fs_normalize.py that finds files
|
||||
# with uid != target_uid across the infra roots (/repos/_wt, <repo>/.git, data/runs)
|
||||
# and surfaces a startup WARNING/Telegram + GET /queue fs_ownership block, (3) an
|
||||
# opt-in chown (normalize) ONLY when the process has CAP_CHOWN/root (under uid 1000
|
||||
# a no-op + honest log; the real fix is the operator procedure in INFRA.md). No
|
||||
# STAGE_TRANSITIONS / QG_CHECKS / check_* / machine-verdict / schema change. See
|
||||
# ADR-001-legacy-ownership-normalization.md / adr-0031.
|
||||
# fs_normalize_enabled -> SINGLE kill-switch; False -> all code inert, behaviour
|
||||
# 1:1 as before ORCH-057 (the actionable error too).
|
||||
# Env ORCH_FS_NORMALIZE_ENABLED.
|
||||
# fs_normalize_repos -> CSV of repos the layer is REAL for; empty -> only the
|
||||
# self-hosting repo (orchestrator). Mirrors coverage_gate_repos.
|
||||
# fs_target_uid -> target uid fallback when os.getuid() is unavailable.
|
||||
# fs_normalize_auto -> detect-only (False) | attempt chown when privileged (True).
|
||||
# fs_scan_roots -> CSV override of the scan roots (empty -> default roots).
|
||||
# fs_scan_cache_ttl_s -> TTL of the detect cache (mirrors preflight_cache_ttl).
|
||||
fs_normalize_enabled: bool = True
|
||||
fs_normalize_repos: str = ""
|
||||
fs_target_uid: int = 1000
|
||||
fs_normalize_auto: bool = False
|
||||
fs_scan_roots: str = ""
|
||||
fs_scan_cache_ttl_s: int = 300
|
||||
|
||||
# ORCH-061: tolerate KNOWN sandbox-infra FAILs (C9a/C9b) in the staging suite.
|
||||
# The self-hosting deploy-staging stage looped because scripts/staging_check.py
|
||||
# exited non-zero on ANY failed check, so two infra-only failures (sandbox bot
|
||||
@@ -846,17 +819,6 @@ class Settings(BaseSettings):
|
||||
# 200 (was hardcoded 80). Invalid/empty value -> default (graceful, no crash).
|
||||
qg0_title_max: int = 200
|
||||
|
||||
# ORCH-099 (D8): operator off-switch for the read-only GET /metrics endpoint.
|
||||
# The env var is ORCH_METRICS_ENABLED (explicit validation_alias — the documented
|
||||
# contract name, ADR-001 D8 / README — overriding the default ORCH_ + field-name
|
||||
# mapping so the documented switch actually controls the flag). Default True ->
|
||||
# the endpoint is available out of the box (zero regression vs BRD). False ->
|
||||
# /metrics returns a minimal parsable body {"schema_version": 1, "enabled": false}
|
||||
# (200, NOT 404) so the F1b sidecar sees the off-switch explicitly. The endpoint
|
||||
# is inert / read-only anyway; the flag is a cheap self-hosting insurance on the
|
||||
# shared prod instance.
|
||||
metrics_endpoint_enabled: bool = Field(True, validation_alias="ORCH_METRICS_ENABLED")
|
||||
|
||||
@field_validator("qg0_title_max", mode="before")
|
||||
@classmethod
|
||||
def _qg0_title_max_default(cls, v):
|
||||
|
||||
105
src/db.py
105
src/db.py
@@ -1133,100 +1133,6 @@ def get_running_jobs() -> list[dict]:
|
||||
return [dict(r) for r in rows]
|
||||
|
||||
|
||||
def get_running_agents() -> list[dict]:
|
||||
"""ORCH-099 (D5): read-only liveness snapshot of every 'running' job for /metrics.
|
||||
|
||||
A dedicated read-only SELECT — deliberately NOT an extension of
|
||||
``get_running_jobs()`` (the job-reaper hot path, ORCH-065): widening that
|
||||
query under observability needs would migrate a foreign component's invariant.
|
||||
Each row carries the process identity + cost context the F1b sidecar needs:
|
||||
* ``job_id`` / ``run_id`` / ``pid`` — process identity (pid may be NULL until
|
||||
the launcher stamps it / after the process exits);
|
||||
* ``agent`` / ``repo`` — role and project (the sidecar is multi-project);
|
||||
* ``running_age_s`` — seconds since ``jobs.started_at`` (the same process
|
||||
anchor the reaper uses for backstop-liveness, D6);
|
||||
* ``model`` / ``effort`` — cost context (LEFT JOIN ``agent_runs``);
|
||||
* the token / ``cost_usd`` columns — current per-run accruals, usually NULL
|
||||
until the launcher parses the CLI result JSON on finish (honest raw, TR-5).
|
||||
|
||||
A LEFT JOIN on ``run_id`` keeps a job with no ``agent_runs`` row. Read-only;
|
||||
never mutates.
|
||||
"""
|
||||
conn = get_db()
|
||||
try:
|
||||
rows = conn.execute(
|
||||
"SELECT j.id AS job_id, j.run_id AS run_id, j.pid AS pid, "
|
||||
"j.agent AS agent, j.repo AS repo, j.started_at AS started_at, "
|
||||
"CAST(strftime('%s','now') - strftime('%s', j.started_at) AS INTEGER) "
|
||||
" AS running_age_s, "
|
||||
"r.model AS model, r.effort AS effort, r.cost_usd AS cost_usd, "
|
||||
"r.input_tokens AS input_tokens, r.output_tokens AS output_tokens, "
|
||||
"r.cache_read_tokens AS cache_read_tokens, "
|
||||
"r.cache_creation_tokens AS cache_creation_tokens "
|
||||
"FROM jobs j LEFT JOIN agent_runs r ON r.id = j.run_id "
|
||||
"WHERE j.status='running'"
|
||||
).fetchall()
|
||||
finally:
|
||||
conn.close()
|
||||
return [dict(r) for r in rows]
|
||||
|
||||
|
||||
def agent_cost_totals() -> dict:
|
||||
"""ORCH-099 (D7): read-only aggregate of cost / tokens over all agent_runs.
|
||||
|
||||
Pure ``SELECT COALESCE(SUM(...),0)`` — an empty ``agent_runs`` table yields
|
||||
zeros, never an error (TC-06 / TC-11). Read-only; never mutates.
|
||||
"""
|
||||
conn = get_db()
|
||||
try:
|
||||
row = conn.execute(
|
||||
"SELECT "
|
||||
"COALESCE(SUM(cost_usd),0) AS cost_usd, "
|
||||
"COALESCE(SUM(input_tokens),0) AS input_tokens, "
|
||||
"COALESCE(SUM(output_tokens),0) AS output_tokens, "
|
||||
"COALESCE(SUM(cache_read_tokens),0) AS cache_read_tokens, "
|
||||
"COALESCE(SUM(cache_creation_tokens),0) AS cache_creation_tokens "
|
||||
"FROM agent_runs"
|
||||
).fetchone()
|
||||
finally:
|
||||
conn.close()
|
||||
return dict(row) if row else {
|
||||
"cost_usd": 0,
|
||||
"input_tokens": 0,
|
||||
"output_tokens": 0,
|
||||
"cache_read_tokens": 0,
|
||||
"cache_creation_tokens": 0,
|
||||
}
|
||||
|
||||
|
||||
def queue_retry_stats() -> dict:
|
||||
"""ORCH-099 (D4): read-only retry raw over UNFINISHED jobs for /metrics.queue.
|
||||
|
||||
Aggregates ``attempts`` / ``transient_attempts`` and counts jobs currently in
|
||||
backoff (``available_at > now``) across non-terminal jobs (status NOT IN
|
||||
done/failed/cancelled). Read-only; never mutates.
|
||||
"""
|
||||
conn = get_db()
|
||||
try:
|
||||
row = conn.execute(
|
||||
"SELECT "
|
||||
"COALESCE(SUM(attempts),0) AS total_attempts, "
|
||||
"COALESCE(SUM(transient_attempts),0) AS total_transient_attempts, "
|
||||
"COALESCE(MAX(attempts),0) AS max_attempts_seen, "
|
||||
"COALESCE(SUM(CASE WHEN available_at IS NOT NULL "
|
||||
" AND available_at > datetime('now') THEN 1 ELSE 0 END),0) AS in_backoff "
|
||||
"FROM jobs WHERE status NOT IN ('done','failed','cancelled')"
|
||||
).fetchone()
|
||||
finally:
|
||||
conn.close()
|
||||
return dict(row) if row else {
|
||||
"total_attempts": 0,
|
||||
"total_transient_attempts": 0,
|
||||
"max_attempts_seen": 0,
|
||||
"in_backoff": 0,
|
||||
}
|
||||
|
||||
|
||||
def reap_running_job(
|
||||
job_id: int,
|
||||
status: str,
|
||||
@@ -1279,20 +1185,13 @@ def get_job(job_id: int) -> dict | None:
|
||||
|
||||
|
||||
def job_status_counts() -> dict:
|
||||
"""Return counts grouped by status (for /queue and /metrics observability).
|
||||
|
||||
ORCH-099 (D4): the default dict carries the ``cancelled`` terminal key
|
||||
(ORCH-090, terminal set ``{done, cancelled}``) so the key is always present
|
||||
with a 0 default instead of materialising only when a cancelled job exists.
|
||||
Purely additive — the GROUP BY query is unchanged and pre-existing keys keep
|
||||
their meaning (no /queue contract break).
|
||||
"""
|
||||
"""Return counts grouped by status (for /queue observability)."""
|
||||
conn = get_db()
|
||||
rows = conn.execute(
|
||||
"SELECT status, COUNT(*) AS n FROM jobs GROUP BY status"
|
||||
).fetchall()
|
||||
conn.close()
|
||||
counts = {"queued": 0, "running": 0, "done": 0, "failed": 0, "cancelled": 0}
|
||||
counts = {"queued": 0, "running": 0, "done": 0, "failed": 0}
|
||||
for r in rows:
|
||||
counts[r["status"]] = r["n"]
|
||||
return counts
|
||||
|
||||
@@ -1,539 +0,0 @@
|
||||
"""Legacy root-owned ownership detect + actionable worktree error (ORCH-057).
|
||||
|
||||
Background
|
||||
----------
|
||||
ORCH-040 moved both containers to ``user: "1000:1000"`` by editing ONLY
|
||||
``docker-compose.yml``. Changing ``user:`` does NOT change the owner of files that
|
||||
the previous root container already created. The bind-mount ``/home/slin/repos ->
|
||||
/repos`` therefore still held ``root:root`` directories (``_wt/``, old worktrees,
|
||||
``.git/objects``, ``data/runs``). Under uid 1000 (no root) ``git_worktree.
|
||||
ensure_worktree`` could not create a worktree next to a ``root:root`` ``/repos/_wt``
|
||||
and failed with a RAW ``fatal: could not create leading directories … Permission
|
||||
denied`` — the agent never started and the operator had no diagnosis.
|
||||
|
||||
The container runs as numeric uid 1000 WITHOUT root, so it physically cannot
|
||||
``chown`` foreign (root-owned) files — only DETECT + DIAGNOSE. The real fix is the
|
||||
documented operator procedure (INFRA.md «Миграция uid»), run once on the host.
|
||||
|
||||
This leaf (ADR-001) provides three additive, kill-switch-reversible primitives:
|
||||
|
||||
* ``classify_worktree_error`` / ``build_worktree_help`` — the pure classifier +
|
||||
actionable message used by ``git_worktree.ensure_worktree`` (D1 / FR-1).
|
||||
* ``scan_ownership`` — a cheap, TTL-cached, never-raise walk of the infra roots
|
||||
that reports whether any file has ``uid != target_uid`` (D2 / FR-2), used by the
|
||||
startup hook (D3 / FR-3) and the ``GET /queue`` ``fs_ownership`` block.
|
||||
* ``normalize`` — an opt-in ``chown`` that runs ONLY when the process is
|
||||
privileged (root / CAP_CHOWN); under uid 1000 it is a no-op + honest log, NOT
|
||||
an error (D4 / FR-4).
|
||||
|
||||
Invariants (never broken):
|
||||
* **never-raise** (NFR-3): every public function degrades to a conservative,
|
||||
non-blocking default and NEVER propagates into the worker / lifespan / worktree
|
||||
path. A detect error -> WARNING + ``mismatch=False`` (do not block / panic).
|
||||
* **applies() first** (NFR-2): the expensive walk runs only when the layer is REAL
|
||||
for the repo (``fs_normalize_enabled`` + scope; empty CSV -> self-hosting only),
|
||||
so enduro-trails is never scanned at the default config.
|
||||
* **kill-switch reversible** (D6): ``fs_normalize_enabled=False`` -> all code inert,
|
||||
behaviour 1:1 as before ORCH-057 (the actionable error contract too).
|
||||
* **no chown without privilege** (NFR-1): the code only reads / detects / diagnoses;
|
||||
a real ``chown`` happens only when privileged and ``fs_normalize_auto=True``.
|
||||
|
||||
Leaf: imports only ``config`` / ``logging`` / ``os`` / ``time`` (+ lazily
|
||||
``qg.checks.is_self_hosting_repo`` / ``notifications`` for scope / observability). It
|
||||
never imports ``git_worktree`` / ``stage_engine`` / ``launcher`` (``git_worktree``
|
||||
imports THIS module, so the dependency is one-way).
|
||||
"""
|
||||
from __future__ import annotations
|
||||
|
||||
import errno
|
||||
import logging
|
||||
import os
|
||||
import time
|
||||
from dataclasses import dataclass, field
|
||||
|
||||
from .config import settings
|
||||
|
||||
logger = logging.getLogger("orchestrator.fs_normalize")
|
||||
|
||||
# Permission-class markers in a git stderr / OSError string (D1 / TR-1). Narrow on
|
||||
# purpose — a non-permission error (real branch conflict, missing origin/main,
|
||||
# timeout) must NOT be reclassified (AC-2 FAIL-condition), so we match only the
|
||||
# unambiguous "no permission to create the file/object" phrases.
|
||||
_PERM_MARKERS = (
|
||||
"permission denied",
|
||||
"could not create leading directories",
|
||||
"insufficient permission for adding an object",
|
||||
"operation not permitted",
|
||||
)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# Resolution helpers (target uid, scope, roots)
|
||||
# ---------------------------------------------------------------------------
|
||||
def _resolve_target_uid(target_uid: int | None = None) -> int:
|
||||
"""The uid the scan compares against (the subject that "cannot create files").
|
||||
|
||||
Resolution order (D2 / TR-7): explicit ``target_uid`` arg > ``os.getuid()`` (the
|
||||
uid the process really runs as) > ``settings.fs_target_uid`` fallback (default
|
||||
1000) when ``os.getuid()`` is unavailable. Never raises.
|
||||
"""
|
||||
if target_uid is not None:
|
||||
return int(target_uid)
|
||||
try:
|
||||
return os.getuid()
|
||||
except (AttributeError, OSError): # pragma: no cover - non-POSIX fallback
|
||||
try:
|
||||
return int(settings.fs_target_uid)
|
||||
except (TypeError, ValueError):
|
||||
return 1000
|
||||
|
||||
|
||||
def _scope_repos() -> list[str]:
|
||||
"""Repos the layer is REAL for (used to build the default ``.git`` roots).
|
||||
|
||||
Non-empty ``fs_normalize_repos`` CSV -> those repos; empty -> self-hosting only
|
||||
(``orchestrator``), mirroring ``coverage_gate``. Never raises -> [] on error.
|
||||
"""
|
||||
try:
|
||||
raw = (settings.fs_normalize_repos or "").strip()
|
||||
except Exception: # noqa: BLE001 - never-raise
|
||||
return []
|
||||
if raw:
|
||||
return [r.strip() for r in raw.split(",") if r.strip()]
|
||||
try:
|
||||
from .qg.checks import SELF_HOSTING_REPO
|
||||
return [SELF_HOSTING_REPO]
|
||||
except Exception: # noqa: BLE001
|
||||
return ["orchestrator"]
|
||||
|
||||
|
||||
def _runs_root() -> str:
|
||||
"""``data/runs`` root (per ADR: ``os.path.dirname(db_path)/runs``)."""
|
||||
try:
|
||||
rd = getattr(settings, "runs_dir", None)
|
||||
if rd:
|
||||
return rd
|
||||
except Exception: # noqa: BLE001
|
||||
pass
|
||||
try:
|
||||
return os.path.join(os.path.dirname(settings.db_path), "runs")
|
||||
except Exception: # noqa: BLE001
|
||||
return "/app/data/runs"
|
||||
|
||||
|
||||
def _default_roots() -> list[str]:
|
||||
"""The default scan roots (D2): ``/repos/_wt``, ``data/runs`` and each in-scope
|
||||
repo's ``.git/objects`` + ``.git/worktrees``. Never raises -> [] on error.
|
||||
"""
|
||||
roots: list[str] = []
|
||||
try:
|
||||
wt = getattr(settings, "worktrees_dir", None)
|
||||
if wt:
|
||||
roots.append(wt)
|
||||
roots.append(_runs_root())
|
||||
repos_dir = getattr(settings, "repos_dir", "/repos")
|
||||
for repo in _scope_repos():
|
||||
base = os.path.join(repos_dir, repo, ".git")
|
||||
roots.append(os.path.join(base, "objects"))
|
||||
roots.append(os.path.join(base, "worktrees"))
|
||||
except Exception as e: # noqa: BLE001 - never-raise
|
||||
logger.warning("fs_normalize._default_roots error: %s", e)
|
||||
return roots
|
||||
|
||||
|
||||
def _resolve_roots(roots: list[str] | None = None) -> list[str]:
|
||||
"""Resolve scan roots: explicit arg > ``fs_scan_roots`` CSV > the default set."""
|
||||
if roots is not None:
|
||||
return list(roots)
|
||||
try:
|
||||
raw = (settings.fs_scan_roots or "").strip()
|
||||
except Exception: # noqa: BLE001
|
||||
raw = ""
|
||||
if raw:
|
||||
return [r.strip() for r in raw.split(",") if r.strip()]
|
||||
return _default_roots()
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# Conditionality (mirrors coverage_gate_applies)
|
||||
# ---------------------------------------------------------------------------
|
||||
def applies(repo: str) -> bool:
|
||||
"""Whether the ORCH-057 layer is REAL for this repo (D6 / NFR-2).
|
||||
|
||||
* ``fs_normalize_enabled=False`` -> always False (kill-switch).
|
||||
* ``fs_normalize_repos`` (CSV) non-empty -> real only for the listed repos.
|
||||
* empty CSV -> real ONLY for the self-hosting repo (``orchestrator``).
|
||||
Never raises -> False (the safe no-op default).
|
||||
"""
|
||||
try:
|
||||
if not settings.fs_normalize_enabled:
|
||||
return False
|
||||
raw = (settings.fs_normalize_repos or "").strip()
|
||||
if raw:
|
||||
allowed = {r.strip().lower() for r in raw.split(",") if r.strip()}
|
||||
return (repo or "").strip().lower() in allowed
|
||||
from .qg.checks import is_self_hosting_repo
|
||||
return is_self_hosting_repo(repo)
|
||||
except Exception as e: # noqa: BLE001 - never-raise contract
|
||||
logger.warning("fs_normalize.applies error for %s: %s", repo, e)
|
||||
return False
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# D1: actionable worktree error (pure classifier + message)
|
||||
# ---------------------------------------------------------------------------
|
||||
def classify_worktree_error(text: str | None) -> bool:
|
||||
"""Pure: True iff ``text`` looks like a "no permission to create" failure.
|
||||
|
||||
Matches only the narrow ``_PERM_MARKERS`` so a non-permission git error keeps
|
||||
its original contract (AC-2). Never raises -> False on bad input.
|
||||
"""
|
||||
try:
|
||||
t = (text or "").lower()
|
||||
return any(m in t for m in _PERM_MARKERS)
|
||||
except Exception: # noqa: BLE001
|
||||
return False
|
||||
|
||||
|
||||
def is_permission_failure(*, stderr: str | None = None, exc: BaseException | None = None) -> bool:
|
||||
"""True iff a worktree failure is the legacy-ownership permission class.
|
||||
|
||||
Considers both a git ``stderr`` string (marker match) and an ``OSError``
|
||||
(``PermissionError`` or ``errno`` in ``EACCES``/``EPERM``). Never raises.
|
||||
"""
|
||||
try:
|
||||
if isinstance(exc, PermissionError):
|
||||
return True
|
||||
if isinstance(exc, OSError) and exc.errno in (errno.EACCES, errno.EPERM):
|
||||
return True
|
||||
if classify_worktree_error(stderr):
|
||||
return True
|
||||
if exc is not None and classify_worktree_error(str(exc)):
|
||||
return True
|
||||
except Exception: # noqa: BLE001
|
||||
return False
|
||||
return False
|
||||
|
||||
|
||||
def build_worktree_help(repo: str, branch: str, target_uid: int | None = None, raw: str = "") -> str:
|
||||
"""Build the actionable RuntimeError message for a permission-class worktree
|
||||
failure (D1): names the root cause + the healing command + the INFRA.md
|
||||
procedure, instead of a raw git stderr (AC-2). Never raises.
|
||||
"""
|
||||
try:
|
||||
tuid = _resolve_target_uid(target_uid)
|
||||
wt_dir = getattr(settings, "worktrees_dir", "/repos/_wt")
|
||||
git_dir = os.path.join(getattr(settings, "repos_dir", "/repos"), repo, ".git")
|
||||
msg = (
|
||||
f"Cannot create git worktree for {repo}:{branch} — permission denied. "
|
||||
f"Likely cause: legacy root-owned files in {wt_dir} or {git_dir} left over "
|
||||
f"from before the uid migration (ORCH-040). This container runs as uid "
|
||||
f"{tuid} without root and cannot chown foreign files itself. Fix (run once "
|
||||
f"on the host as root): `sudo chown -R {tuid}:{tuid} {wt_dir}` and "
|
||||
f"`sudo chown -R {tuid}:{tuid} {git_dir}`. See docs/operations/INFRA.md "
|
||||
f"section «Миграция uid: обязательная нормализация legacy root-файлов»."
|
||||
)
|
||||
if raw:
|
||||
msg += f" (underlying error: {raw.strip()})"
|
||||
return msg
|
||||
except Exception: # noqa: BLE001 - never-raise; degrade to a minimal hint
|
||||
return (
|
||||
f"Cannot create git worktree for {repo}:{branch} — permission denied "
|
||||
f"(legacy root-owned files; see docs/operations/INFRA.md «Миграция uid»)."
|
||||
)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# D2: ownership scan (TTL-cached, never-raise, early-exit per root)
|
||||
# ---------------------------------------------------------------------------
|
||||
@dataclass
|
||||
class OwnershipScan:
|
||||
"""Result of an ownership scan (D2). ``mismatch`` is the boolean verdict."""
|
||||
|
||||
mismatch: bool
|
||||
target_uid: int
|
||||
roots_checked: list[str] = field(default_factory=list)
|
||||
roots_mismatch: list[str] = field(default_factory=list)
|
||||
sample_path: str | None = None
|
||||
count: int | None = None
|
||||
checked_at: float = 0.0
|
||||
enabled: bool = True
|
||||
|
||||
def to_dict(self) -> dict:
|
||||
return {
|
||||
"enabled": self.enabled,
|
||||
"mismatch": self.mismatch,
|
||||
"target_uid": self.target_uid,
|
||||
"roots_checked": self.roots_checked,
|
||||
"roots_mismatch": self.roots_mismatch,
|
||||
"sample_path": self.sample_path,
|
||||
"count": self.count,
|
||||
"checked_at": self.checked_at,
|
||||
}
|
||||
|
||||
|
||||
class _ScanCache:
|
||||
def __init__(self):
|
||||
self.ts: float = 0.0
|
||||
self.key: tuple | None = None
|
||||
self.result: OwnershipScan | None = None
|
||||
|
||||
|
||||
_cache = _ScanCache()
|
||||
|
||||
|
||||
def reset_cache() -> None:
|
||||
"""Invalidate the TTL detect cache (tests / forced recheck)."""
|
||||
_cache.ts = 0.0
|
||||
_cache.key = None
|
||||
_cache.result = None
|
||||
|
||||
|
||||
def _first_mismatch(root: str, target_uid: int) -> str | None:
|
||||
"""Return the first path under ``root`` whose ``st_uid != target_uid`` (early
|
||||
exit), else None. ``os.lstat`` (not ``stat``) so a symlink's own ownership is
|
||||
judged, never its target. Never raises -> None on any walk error.
|
||||
"""
|
||||
try:
|
||||
if not os.path.exists(root):
|
||||
return None
|
||||
try:
|
||||
if os.lstat(root).st_uid != target_uid:
|
||||
return root
|
||||
except OSError:
|
||||
return None
|
||||
for dirpath, dirnames, filenames in os.walk(root, onerror=None):
|
||||
for name in dirnames:
|
||||
p = os.path.join(dirpath, name)
|
||||
try:
|
||||
if os.lstat(p).st_uid != target_uid:
|
||||
return p
|
||||
except OSError:
|
||||
continue
|
||||
for name in filenames:
|
||||
p = os.path.join(dirpath, name)
|
||||
try:
|
||||
if os.lstat(p).st_uid != target_uid:
|
||||
return p
|
||||
except OSError:
|
||||
continue
|
||||
except Exception as e: # noqa: BLE001 - never-raise
|
||||
logger.warning("fs_normalize._first_mismatch error for %s: %s", root, e)
|
||||
return None
|
||||
return None
|
||||
|
||||
|
||||
def _scan(roots: list[str], target_uid: int) -> OwnershipScan:
|
||||
"""Walk each root, early-exiting per root at its first mismatch. The clean case
|
||||
(no mismatch) walks fully; the dirty case stops fast per root (TR-2 cost). Lists
|
||||
every affected root (informative verdict). Never raises -> conservative
|
||||
``mismatch=False`` on a wholesale error.
|
||||
"""
|
||||
roots_checked: list[str] = []
|
||||
roots_mismatch: list[str] = []
|
||||
sample_path: str | None = None
|
||||
try:
|
||||
for root in roots:
|
||||
if not os.path.exists(root):
|
||||
continue
|
||||
roots_checked.append(root)
|
||||
hit = _first_mismatch(root, target_uid)
|
||||
if hit is not None:
|
||||
roots_mismatch.append(root)
|
||||
if sample_path is None:
|
||||
sample_path = hit
|
||||
except Exception as e: # noqa: BLE001 - never-raise -> conservative verdict
|
||||
logger.warning("fs_normalize._scan error -> mismatch=False: %s", e)
|
||||
return OwnershipScan(
|
||||
mismatch=False, target_uid=target_uid,
|
||||
roots_checked=roots_checked, roots_mismatch=[], checked_at=time.time(),
|
||||
)
|
||||
return OwnershipScan(
|
||||
mismatch=bool(roots_mismatch),
|
||||
target_uid=target_uid,
|
||||
roots_checked=roots_checked,
|
||||
roots_mismatch=roots_mismatch,
|
||||
sample_path=sample_path,
|
||||
checked_at=time.time(),
|
||||
)
|
||||
|
||||
|
||||
def scan_ownership(
|
||||
roots: list[str] | None = None,
|
||||
target_uid: int | None = None,
|
||||
force: bool = False,
|
||||
) -> OwnershipScan:
|
||||
"""Detect files with ``uid != target_uid`` across the infra roots (D2 / FR-2).
|
||||
|
||||
TTL-cached (``fs_scan_cache_ttl_s``, mirrors ``preflight._cache``): a repeat call
|
||||
inside the window with the SAME (roots, target_uid) returns the cached result
|
||||
without re-walking; ``force=True`` (or ``reset_cache()``) re-scans. Kill-switch
|
||||
off -> an inert ``mismatch=False`` result (``enabled=False``). Never raises.
|
||||
"""
|
||||
try:
|
||||
if not settings.fs_normalize_enabled:
|
||||
return OwnershipScan(
|
||||
mismatch=False, target_uid=_resolve_target_uid(target_uid),
|
||||
checked_at=time.time(), enabled=False,
|
||||
)
|
||||
resolved_roots = _resolve_roots(roots)
|
||||
tuid = _resolve_target_uid(target_uid)
|
||||
key = (tuple(resolved_roots), tuid)
|
||||
now = time.time()
|
||||
try:
|
||||
ttl = float(settings.fs_scan_cache_ttl_s)
|
||||
except (TypeError, ValueError):
|
||||
ttl = 300.0
|
||||
if (
|
||||
not force
|
||||
and _cache.result is not None
|
||||
and _cache.key == key
|
||||
and (now - _cache.ts) < ttl
|
||||
):
|
||||
return _cache.result
|
||||
result = _scan(resolved_roots, tuid)
|
||||
_cache.ts = now
|
||||
_cache.key = key
|
||||
_cache.result = result
|
||||
return result
|
||||
except Exception as e: # noqa: BLE001 - never-raise -> conservative verdict
|
||||
logger.warning("fs_normalize.scan_ownership error -> mismatch=False: %s", e)
|
||||
return OwnershipScan(
|
||||
mismatch=False, target_uid=_resolve_target_uid(target_uid),
|
||||
checked_at=time.time(),
|
||||
)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# D4: opt-in normalize (chown ONLY when privileged) — never init-container
|
||||
# ---------------------------------------------------------------------------
|
||||
def _is_privileged() -> bool:
|
||||
"""True iff the process can chown foreign files (root). Under uid 1000 -> False.
|
||||
|
||||
A practical check: ``os.geteuid() == 0``. A CAP_CHOWN-without-root environment
|
||||
still degrades to the honest no-op (a chown attempt would simply fail and be
|
||||
swallowed). Never raises -> False (the safe "not privileged" default).
|
||||
"""
|
||||
try:
|
||||
return os.geteuid() == 0
|
||||
except (AttributeError, OSError): # pragma: no cover - non-POSIX
|
||||
return False
|
||||
|
||||
|
||||
def normalize(roots: list[str] | None = None, target_uid: int | None = None) -> dict:
|
||||
"""Opt-in ``chown -R target_uid:target_uid`` over the roots, ONLY when the
|
||||
process is privileged (D4 / FR-4). Under uid 1000 (the prod-self case) it is a
|
||||
no-op + honest log "operator procedure required" — NOT an error. Gated by
|
||||
``fs_normalize_auto`` at the call site; this function additionally self-guards on
|
||||
``_is_privileged()``. Never raises.
|
||||
|
||||
Returns a result dict ``{attempted, privileged, changed, errors, note}``.
|
||||
"""
|
||||
result = {"attempted": False, "privileged": False, "changed": 0, "errors": [], "note": ""}
|
||||
try:
|
||||
if not settings.fs_normalize_enabled:
|
||||
result["note"] = "disabled (fs_normalize_enabled=False)"
|
||||
return result
|
||||
tuid = _resolve_target_uid(target_uid)
|
||||
privileged = _is_privileged()
|
||||
result["privileged"] = privileged
|
||||
if not privileged:
|
||||
result["note"] = (
|
||||
"not privileged (process runs as non-root) — chown of legacy "
|
||||
"root-owned files needs the operator procedure (docs/operations/"
|
||||
"INFRA.md «Миграция uid»)."
|
||||
)
|
||||
logger.warning("fs_normalize.normalize: %s", result["note"])
|
||||
return result
|
||||
|
||||
result["attempted"] = True
|
||||
resolved_roots = _resolve_roots(roots)
|
||||
changed = 0
|
||||
for root in resolved_roots:
|
||||
if not os.path.exists(root):
|
||||
continue
|
||||
for path in _iter_paths(root):
|
||||
try:
|
||||
if os.lstat(path).st_uid != tuid:
|
||||
os.chown(path, tuid, tuid, follow_symlinks=False)
|
||||
changed += 1
|
||||
except OSError as e:
|
||||
result["errors"].append(f"{path}: {e}")
|
||||
result["changed"] = changed
|
||||
result["note"] = f"chown applied to {changed} path(s) over {len(resolved_roots)} root(s)"
|
||||
logger.info("fs_normalize.normalize: %s", result["note"])
|
||||
return result
|
||||
except Exception as e: # noqa: BLE001 - never-raise
|
||||
logger.error("fs_normalize.normalize error: %s", e)
|
||||
result["note"] = f"error: {e}"
|
||||
return result
|
||||
|
||||
|
||||
def _iter_paths(root: str):
|
||||
"""Yield ``root`` and every path beneath it (never raises per item)."""
|
||||
try:
|
||||
yield root
|
||||
for dirpath, dirnames, filenames in os.walk(root, onerror=None):
|
||||
for name in dirnames + filenames:
|
||||
yield os.path.join(dirpath, name)
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("fs_normalize._iter_paths error for %s: %s", root, e)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# Observability snapshot for GET /queue (D6 / AC-4)
|
||||
# ---------------------------------------------------------------------------
|
||||
def snapshot() -> dict:
|
||||
"""Read-only ownership summary for GET /queue (``fs_ownership`` block, AC-4).
|
||||
|
||||
Additive; uses the TTL-cached scan (no expensive walk on every /queue hit).
|
||||
never-raise: any error -> a minimal dict carrying the flags.
|
||||
"""
|
||||
try:
|
||||
enabled = bool(settings.fs_normalize_enabled)
|
||||
except Exception: # noqa: BLE001
|
||||
enabled = False
|
||||
try:
|
||||
auto = bool(getattr(settings, "fs_normalize_auto", False))
|
||||
except Exception: # noqa: BLE001
|
||||
auto = False
|
||||
try:
|
||||
repos_cfg = getattr(settings, "fs_normalize_repos", "") or ""
|
||||
except Exception: # noqa: BLE001
|
||||
repos_cfg = ""
|
||||
out = {
|
||||
"enabled": enabled,
|
||||
"auto": auto,
|
||||
"repos": repos_cfg,
|
||||
"target_uid": _resolve_target_uid(),
|
||||
"mismatch": False,
|
||||
"roots_checked": [],
|
||||
"roots_mismatch": [],
|
||||
"sample_path": None,
|
||||
"checked_at": None,
|
||||
}
|
||||
try:
|
||||
if enabled:
|
||||
scan = scan_ownership()
|
||||
out["mismatch"] = scan.mismatch
|
||||
out["target_uid"] = scan.target_uid
|
||||
out["roots_checked"] = scan.roots_checked
|
||||
out["roots_mismatch"] = scan.roots_mismatch
|
||||
out["sample_path"] = scan.sample_path
|
||||
out["checked_at"] = scan.checked_at or None
|
||||
except Exception as e: # noqa: BLE001 - never-raise -> minimal dict
|
||||
logger.warning("fs_normalize.snapshot error: %s", e)
|
||||
return out
|
||||
|
||||
|
||||
def healing_command(target_uid: int | None = None) -> str:
|
||||
"""The one-line operator healing hint (startup WARNING / Telegram). Never raises."""
|
||||
try:
|
||||
tuid = _resolve_target_uid(target_uid)
|
||||
wt_dir = getattr(settings, "worktrees_dir", "/repos/_wt")
|
||||
return (
|
||||
f"sudo chown -R {tuid}:{tuid} {wt_dir} <repo>/.git data/runs "
|
||||
f"(см. docs/operations/INFRA.md «Миграция uid»)"
|
||||
)
|
||||
except Exception: # noqa: BLE001
|
||||
return "sudo chown -R 1000:1000 /repos/_wt (см. docs/operations/INFRA.md «Миграция uid»)"
|
||||
@@ -39,31 +39,6 @@ def _main_repo(repo: str) -> str:
|
||||
return os.path.join(settings.repos_dir, repo)
|
||||
|
||||
|
||||
def _raise_if_permission(repo: str, branch: str, *, stderr: str | None = None,
|
||||
exc: BaseException | None = None) -> None:
|
||||
"""ORCH-057 D1: if a worktree failure is the legacy-ownership permission class,
|
||||
raise an actionable ``RuntimeError`` (cause + healing command + INFRA.md ref)
|
||||
instead of a raw git stderr (FR-1 / AC-2).
|
||||
|
||||
Gated by ``fs_normalize_enabled`` — when the kill-switch is off the error
|
||||
contract is byte-for-byte as before ORCH-057 (this helper is a no-op, the caller
|
||||
re-raises the original). A non-permission error is also a no-op here, so the
|
||||
caller's existing message/semantics are preserved (no meaning substitution).
|
||||
Never raises anything other than the deliberate actionable RuntimeError.
|
||||
"""
|
||||
try:
|
||||
if not settings.fs_normalize_enabled:
|
||||
return
|
||||
from . import fs_normalize
|
||||
if fs_normalize.is_permission_failure(stderr=stderr, exc=exc):
|
||||
raw = stderr if stderr is not None else (str(exc) if exc else "")
|
||||
raise RuntimeError(fs_normalize.build_worktree_help(repo, branch, raw=raw))
|
||||
except RuntimeError:
|
||||
raise
|
||||
except Exception as e: # noqa: BLE001 - classification must never mask the real error
|
||||
logger.warning("worktree permission-classification skipped: %s", e)
|
||||
|
||||
|
||||
def ensure_worktree(repo: str, branch: str) -> str:
|
||||
"""Create (or reuse) an isolated worktree for ``branch``. Returns its path.
|
||||
|
||||
@@ -100,14 +75,7 @@ def ensure_worktree(repo: str, branch: str) -> str:
|
||||
logger.info(f"Worktree reused: {wt} (branch {branch})")
|
||||
return wt
|
||||
|
||||
# ORCH-057 D1: creating the leading worktree directory next to a legacy
|
||||
# root-owned /repos/_wt fails with Permission denied under uid 1000 — turn that
|
||||
# into an actionable error (the kill-switch / non-permission path is unchanged).
|
||||
try:
|
||||
os.makedirs(os.path.dirname(wt), exist_ok=True)
|
||||
except OSError as e:
|
||||
_raise_if_permission(repo, branch, exc=e)
|
||||
raise
|
||||
os.makedirs(os.path.dirname(wt), exist_ok=True)
|
||||
|
||||
# Try to attach an existing branch (local or remote-tracking) to the new worktree.
|
||||
r = subprocess.run(["git", "-C", main_repo, "worktree", "add", wt, branch],
|
||||
@@ -119,12 +87,9 @@ def ensure_worktree(repo: str, branch: str) -> str:
|
||||
capture_output=True, text=True, timeout=60,
|
||||
)
|
||||
if r2.returncode != 0:
|
||||
combined = f"{r.stderr.strip()} | {r2.stderr.strip()}"
|
||||
# ORCH-057 D1: a permission-class git fatal -> actionable RuntimeError;
|
||||
# any other failure keeps the prior raw-stderr contract (AC-2).
|
||||
_raise_if_permission(repo, branch, stderr=combined)
|
||||
raise RuntimeError(
|
||||
f"git worktree add failed for {repo}:{branch}: {combined}"
|
||||
f"git worktree add failed for {repo}:{branch}: "
|
||||
f"{r.stderr.strip()} | {r2.stderr.strip()}"
|
||||
)
|
||||
logger.info(f"Worktree ready: {wt} (branch {branch})")
|
||||
return wt
|
||||
|
||||
83
src/main.py
83
src/main.py
@@ -89,44 +89,6 @@ async def lifespan(app: FastAPI):
|
||||
except Exception as e:
|
||||
log.warning(f"Log rotation skipped: {e}")
|
||||
|
||||
# ORCH-057 (D3 / FR-3): best-effort legacy-ownership detect. Surfaces a
|
||||
# PROACTIVE operator signal (WARNING + Telegram) when /repos still holds
|
||||
# root-owned files after the uid migration, BEFORE a task fails on launch.
|
||||
# never-fatal (mirrors lease-reclaim / log-rotation above): a detect error must
|
||||
# not crash the start of the shared instance. The actual "clear, early" failure
|
||||
# is delivered by the actionable error in ensure_worktree (D1) — claim is NOT
|
||||
# blocked (ADR-001 D3). Honours ORCH_FS_NORMALIZE_ENABLED inside scan_ownership.
|
||||
try:
|
||||
from .fs_normalize import scan_ownership, healing_command, normalize
|
||||
from .config import settings as _fs_settings
|
||||
scan = scan_ownership()
|
||||
if scan.mismatch:
|
||||
log.warning(
|
||||
"FS-ownership mismatch: %d root(s) with files not owned by uid %s "
|
||||
"(%s; sample: %s). Heal: %s",
|
||||
len(scan.roots_mismatch), scan.target_uid,
|
||||
", ".join(scan.roots_mismatch), scan.sample_path, healing_command(),
|
||||
)
|
||||
try:
|
||||
from .notifications import send_telegram
|
||||
send_telegram(
|
||||
"⚠️ Orchestrator: обнаружены legacy root-owned файлы в "
|
||||
f"{', '.join(scan.roots_mismatch)} (uid != {scan.target_uid}). "
|
||||
f"Первый запуск задачи может упасть на создании worktree. "
|
||||
f"Лечение: {healing_command()}"
|
||||
)
|
||||
except Exception:
|
||||
pass
|
||||
# D4 / FR-4: opt-in auto-chown ONLY when privileged (no-op under uid 1000).
|
||||
if getattr(_fs_settings, "fs_normalize_auto", False):
|
||||
try:
|
||||
res = normalize()
|
||||
log.warning("FS-ownership auto-normalize: %s", res.get("note"))
|
||||
except Exception as e: # noqa: BLE001
|
||||
log.warning("FS-ownership auto-normalize skipped: %s", e)
|
||||
except Exception as e:
|
||||
log.warning(f"FS-ownership detect skipped: {e}")
|
||||
|
||||
# Start the background job-queue worker (ORCH-1).
|
||||
from .queue_worker import worker
|
||||
worker.start()
|
||||
@@ -209,7 +171,6 @@ async def queue():
|
||||
from . import task_deps
|
||||
from . import serial_gate
|
||||
from . import coverage_gate
|
||||
from . import fs_normalize
|
||||
from . import labels
|
||||
from . import cancel
|
||||
from .disk_watchdog import disk_watchdog
|
||||
@@ -232,10 +193,6 @@ async def queue():
|
||||
# ORCH-027 (FR-7 / AC-9): coverage-gate observability (read-only) —
|
||||
# kill-switch, scope, policy/floor/epsilon, per-repo baselines. Additive block.
|
||||
"coverage": coverage_gate.snapshot(),
|
||||
# ORCH-057 (D6 / AC-4): legacy-ownership detect observability (read-only) —
|
||||
# kill-switch, scope, target_uid, mismatch + affected roots (TTL-cached scan).
|
||||
# Additive block; never-raise.
|
||||
"fs_ownership": fs_normalize.snapshot(),
|
||||
# ORCH-089 (D7): auto-mode-by-label observability (read-only) — kill-switch,
|
||||
# label names, scope. Additive block.
|
||||
"auto_labels": labels.snapshot(),
|
||||
@@ -256,26 +213,6 @@ async def queue():
|
||||
}
|
||||
|
||||
|
||||
@app.get("/metrics")
|
||||
async def metrics():
|
||||
"""ORCH-099 (FND/F1a): lightweight read-only raw-signal snapshot for the F1b sidecar.
|
||||
|
||||
A versioned JSON envelope (``schema_version`` / ``generated_at`` / ``clk_tck``)
|
||||
with four raw-signal sections — ``stages`` (active task stages + age),
|
||||
``queue`` (counts / retries / breaker / concurrency), ``agents`` (agent-liveness:
|
||||
pid / runtime / cpu_ticks), ``cost`` (per-run + aggregate tokens/cost). The
|
||||
orchestrator emits ONLY raw signal it alone knows; the stateful arbiter
|
||||
(thresholds / deltas / alerts) is the separate sidecar (BRD §1).
|
||||
|
||||
Thin wrapper over ``metrics.build_metrics()`` (in the style of GET /queue): the
|
||||
collector is already strictly read-only and never-raise, so no extra error
|
||||
handling is needed here. Same access level as /queue//status. The format is the
|
||||
documented contract for the sidecar (docs/architecture/README.md).
|
||||
"""
|
||||
from . import metrics as metrics_mod
|
||||
return metrics_mod.build_metrics()
|
||||
|
||||
|
||||
@app.post("/serial-gate/unfreeze")
|
||||
async def serial_gate_unfreeze(repo: str = ""):
|
||||
"""ORCH-088 (FR-5, ADR-001 D4): manually clear a per-repo rollback-freeze.
|
||||
@@ -305,26 +242,6 @@ async def serial_gate_unfreeze(repo: str = ""):
|
||||
return {"ok": True, "repo": repo, "cleared": cleared, "frozen": frozen}
|
||||
|
||||
|
||||
@app.post("/fs-normalize/check")
|
||||
async def fs_normalize_check(normalize: bool = False):
|
||||
"""ORCH-057 (D6 / AC-4): force a fresh legacy-ownership detect (bypass the TTL
|
||||
cache) and return the snapshot. By образцу ``POST /serial-gate/unfreeze``.
|
||||
|
||||
``normalize=true`` additionally attempts an opt-in ``chown`` — a no-op under uid
|
||||
1000 (the prod-self case), effective only when the process is privileged (D4).
|
||||
The real fix remains the operator procedure (docs/operations/INFRA.md «Миграция
|
||||
uid»). Read-only/never-raise otherwise.
|
||||
"""
|
||||
from . import fs_normalize as _fs
|
||||
scan = _fs.scan_ownership(force=True)
|
||||
out = {"ok": True, "scan": scan.to_dict(), "healing": _fs.healing_command()}
|
||||
if normalize:
|
||||
out["normalize"] = _fs.normalize()
|
||||
# Re-scan so the returned snapshot reflects any change a privileged run made.
|
||||
out["scan"] = _fs.scan_ownership(force=True).to_dict()
|
||||
return out
|
||||
|
||||
|
||||
@app.post("/coverage/baseline")
|
||||
async def coverage_set_baseline(repo: str = "", value: float | None = None):
|
||||
"""ORCH-027 (D8): manually set/override the per-repo coverage baseline.
|
||||
|
||||
276
src/metrics.py
276
src/metrics.py
@@ -1,276 +0,0 @@
|
||||
"""ORCH-099 (FND/F1a): lightweight read-only ``/metrics`` raw-signal collector.
|
||||
|
||||
A leaf module that builds a versioned JSON snapshot of the orchestrator's own
|
||||
raw state for the future observability sidecar (F1b, ``watchdog/``): active task
|
||||
stages, the job queue, agent-liveness, and cost/tokens. The orchestrator emits
|
||||
ONLY raw signal it alone knows — the sidecar is the stateful arbiter that
|
||||
computes thresholds / deltas / alerts (BRD §1, observer separated from observed).
|
||||
|
||||
Design (ADR-001, by образцу ``serial_gate.snapshot()`` / ``cancel.snapshot()``):
|
||||
* pure, never-raise, no side effects — only reads existing tables
|
||||
(``tasks`` / ``jobs`` / ``agent_runs``) and the in-memory worker snapshot;
|
||||
* ``build_metrics()`` assembles the envelope section-by-section, each section in
|
||||
its own ``try/except`` with a safe default (``None`` / ``[]`` / ``{}``) so a
|
||||
failing source degrades one field, never the whole endpoint (FR-6, NFR-2);
|
||||
* strictly read-only — no INSERT/UPDATE/DELETE/CREATE/ALTER, no process control,
|
||||
no network. Self-hosting-safe on the shared prod instance.
|
||||
|
||||
The endpoint ``GET /metrics`` (``src/main.py``) is a thin wrapper that returns
|
||||
``build_metrics()`` as-is.
|
||||
"""
|
||||
from __future__ import annotations
|
||||
|
||||
import logging
|
||||
import os
|
||||
from datetime import datetime, timezone
|
||||
|
||||
logger = logging.getLogger("orchestrator.metrics")
|
||||
|
||||
# Contract version for the sidecar (D2). Additive changes (new field/section) do
|
||||
# NOT bump it — the sidecar MUST ignore unknown keys and tolerate missing
|
||||
# optional ones. Bumped ONLY on a breaking change (rename/remove/retype an
|
||||
# existing field).
|
||||
SCHEMA_VERSION = 1
|
||||
|
||||
|
||||
def _now_iso() -> str:
|
||||
"""UTC ISO-8601 snapshot timestamp (``...Z``), the orchestrator's own clock.
|
||||
|
||||
Same clock domain as the SQLite ``datetime('now')`` timestamps and the CPU
|
||||
tick reads, so the sidecar's ``(cpu_ticks, generated_at)`` deltas are immune
|
||||
to orchestrator↔sidecar clock skew (TR-3). Never raises.
|
||||
"""
|
||||
try:
|
||||
return datetime.now(timezone.utc).strftime("%Y-%m-%dT%H:%M:%SZ")
|
||||
except Exception as e: # noqa: BLE001 - never-raise
|
||||
logger.warning("metrics._now_iso error: %s", e)
|
||||
return ""
|
||||
|
||||
|
||||
def _clk_tck() -> int | None:
|
||||
"""Process-global SC_CLK_TCK (ticks/second) — the basis for converting raw CPU
|
||||
ticks to seconds on the sidecar side. ``None`` on non-Linux / failure.
|
||||
"""
|
||||
try:
|
||||
return int(os.sysconf("SC_CLK_TCK"))
|
||||
except Exception as e: # noqa: BLE001 - never-raise (non-Linux / unsupported)
|
||||
logger.warning("metrics._clk_tck error: %s", e)
|
||||
return None
|
||||
|
||||
|
||||
def _read_cpu_ticks(pid: int | None) -> int | None:
|
||||
"""Sum of utime+stime (CPU ticks) from ``/proc/<pid>/stat`` — raw liveness signal.
|
||||
|
||||
The orchestrator emits raw ticks and does NOT compute the delta — the sidecar
|
||||
is the stateless arbiter (it divides ``(ticks₂−ticks₁)/clk_tck`` by the
|
||||
``generated_at`` delta to get a CPU fraction; a tiny fraction at a growing
|
||||
``runtime_s`` ⇒ a "stuck" candidate). Parsing is robust to spaces in ``comm``:
|
||||
fields are read AFTER the closing ``") "`` of the process name (canonical
|
||||
proc-stat read). utime = field 14, stime = field 15 → indices 11 and 12 of the
|
||||
post-``)`` token list (fields 3.. shift by 3).
|
||||
|
||||
never-raise (NFR-2, AC-6): ``pid is None`` / missing ``/proc/<pid>`` (process
|
||||
died or non-Linux) / any parse error → ``None`` (NOT an exception). The caller
|
||||
keeps every other field and the whole endpoint intact.
|
||||
"""
|
||||
if pid is None:
|
||||
return None
|
||||
try:
|
||||
with open(f"/proc/{int(pid)}/stat", "r") as f:
|
||||
data = f.read()
|
||||
rparen = data.rfind(") ")
|
||||
if rparen == -1:
|
||||
return None
|
||||
rest = data[rparen + 2:].split()
|
||||
# rest[0] = state (field 3); utime = field 14 -> rest[11], stime -> rest[12]
|
||||
return int(rest[11]) + int(rest[12])
|
||||
except Exception: # noqa: BLE001 - dead pid / no /proc / non-Linux -> null
|
||||
return None
|
||||
|
||||
|
||||
def _build_stages() -> list:
|
||||
"""Active (non-terminal) task stages (D3, FR-1).
|
||||
|
||||
Source: ``db.get_active_tasks_for_reconcile()`` (``stage != 'done'`` + SQL
|
||||
``age_s``), with an extra ``stage NOT IN ('done','cancelled')`` filter on the
|
||||
metrics side: that helper deliberately still returns ``cancelled`` tasks for
|
||||
the reconciler's skip-counter (ORCH-086), but terminal tasks are not raw
|
||||
observability signal (terminal set ``{done, cancelled}``, ORCH-090). The helper
|
||||
invariant belongs to ORCH-053/086 — we filter at the consumer, not the source.
|
||||
"""
|
||||
from . import db
|
||||
|
||||
rows = db.get_active_tasks_for_reconcile()
|
||||
out = []
|
||||
for t in rows:
|
||||
if t.get("stage") in ("done", "cancelled"):
|
||||
continue
|
||||
out.append({
|
||||
"work_item": t.get("work_item_id"),
|
||||
"stage": t.get("stage"),
|
||||
"age_in_stage_s": t.get("age_s"),
|
||||
"repo": t.get("repo"),
|
||||
"task_id": t.get("id"),
|
||||
})
|
||||
return out
|
||||
|
||||
|
||||
def _build_queue() -> dict:
|
||||
"""Job-queue raw signal (D4, FR-2): counts, depth, retries, breaker, concurrency.
|
||||
|
||||
Each sub-source is independently guarded: an uninitialised ``worker`` (e.g. in
|
||||
a test) degrades to ``breaker: null`` / ``max_concurrency: null`` — never a 500
|
||||
(NFR-2).
|
||||
"""
|
||||
from . import db
|
||||
|
||||
counts = None
|
||||
try:
|
||||
counts = db.job_status_counts()
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics queue counts error: %s", e)
|
||||
|
||||
retries = None
|
||||
try:
|
||||
retries = db.queue_retry_stats()
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics queue retries error: %s", e)
|
||||
|
||||
breaker = None
|
||||
max_concurrency = None
|
||||
poll_interval = None
|
||||
try:
|
||||
from .queue_worker import worker
|
||||
try:
|
||||
breaker = worker.breaker.snapshot()
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics breaker snapshot error: %s", e)
|
||||
max_concurrency = getattr(worker, "max_concurrency", None)
|
||||
poll_interval = getattr(worker, "poll_interval", None)
|
||||
except Exception as e: # noqa: BLE001 - worker not initialised
|
||||
logger.warning("metrics worker access error: %s", e)
|
||||
|
||||
depth = counts.get("queued") if isinstance(counts, dict) else None
|
||||
return {
|
||||
"counts": counts,
|
||||
"depth": depth,
|
||||
"retries": retries,
|
||||
"breaker": breaker,
|
||||
"max_concurrency": max_concurrency,
|
||||
"poll_interval": poll_interval,
|
||||
}
|
||||
|
||||
|
||||
def _build_agents() -> list:
|
||||
"""Agent-liveness raw signal (D5/D6, FR-3).
|
||||
|
||||
One entry per running job from ``db.get_running_agents()`` with process
|
||||
identity (``agent`` / ``run_id`` / ``job_id`` / ``pid``), ``runtime_s``
|
||||
(= ``running_age_s``, anchored on ``jobs.started_at``, D6), ``model`` /
|
||||
``effort``, and the raw ``cpu_ticks`` from ``/proc/<pid>/stat``. ``pid is
|
||||
None`` / dead process → ``cpu_ticks: null`` for THAT agent; the rest stays
|
||||
intact (AC-6, TC-05).
|
||||
"""
|
||||
from . import db
|
||||
|
||||
rows = db.get_running_agents()
|
||||
out = []
|
||||
for j in rows:
|
||||
pid = j.get("pid")
|
||||
out.append({
|
||||
"agent": j.get("agent"),
|
||||
"run_id": j.get("run_id"),
|
||||
"job_id": j.get("job_id"),
|
||||
"repo": j.get("repo"),
|
||||
"pid": pid,
|
||||
"runtime_s": j.get("running_age_s"),
|
||||
"model": j.get("model"),
|
||||
"effort": j.get("effort"),
|
||||
"cpu_ticks": _read_cpu_ticks(pid),
|
||||
})
|
||||
return out
|
||||
|
||||
|
||||
def _build_cost() -> dict:
|
||||
"""Cost / token raw signal (D7, FR-4).
|
||||
|
||||
``running`` — current per-running-job accruals from ``agent_runs`` (often
|
||||
``null`` until the job finishes and the launcher parses the CLI JSON — ``null``
|
||||
is honest raw, NOT zero, TR-5). ``aggregate`` — summed totals over all
|
||||
``agent_runs`` (empty table → zeros, TC-06/TC-11).
|
||||
"""
|
||||
from . import db
|
||||
|
||||
running = []
|
||||
try:
|
||||
for j in db.get_running_agents():
|
||||
running.append({
|
||||
"run_id": j.get("run_id"),
|
||||
"job_id": j.get("job_id"),
|
||||
"agent": j.get("agent"),
|
||||
"cost_usd": j.get("cost_usd"),
|
||||
"input_tokens": j.get("input_tokens"),
|
||||
"output_tokens": j.get("output_tokens"),
|
||||
"cache_read_tokens": j.get("cache_read_tokens"),
|
||||
"cache_creation_tokens": j.get("cache_creation_tokens"),
|
||||
})
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics cost.running error: %s", e)
|
||||
running = []
|
||||
|
||||
aggregate = None
|
||||
try:
|
||||
aggregate = db.agent_cost_totals()
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics cost.aggregate error: %s", e)
|
||||
|
||||
return {"running": running, "aggregate": aggregate}
|
||||
|
||||
|
||||
def build_metrics() -> dict:
|
||||
"""Assemble the ``/metrics`` envelope (FR-5). never-raise (FR-6, NFR-2, AC-4).
|
||||
|
||||
Each section is collected in its own ``try/except`` with a safe default so a
|
||||
failing source degrades one section, not the whole response. Honours the
|
||||
``metrics_endpoint_enabled`` kill-switch (D8): when off, returns a minimal
|
||||
parsable body ``{"schema_version", "enabled": false}`` (200, NOT 404) so the
|
||||
sidecar sees the off-switch explicitly.
|
||||
"""
|
||||
try:
|
||||
from .config import settings
|
||||
if not bool(getattr(settings, "metrics_endpoint_enabled", True)):
|
||||
return {"schema_version": SCHEMA_VERSION, "enabled": False}
|
||||
except Exception as e: # noqa: BLE001 - kill-switch read must never break /metrics
|
||||
logger.warning("metrics kill-switch read error: %s", e)
|
||||
|
||||
out: dict = {
|
||||
"schema_version": SCHEMA_VERSION,
|
||||
"generated_at": _now_iso(),
|
||||
"clk_tck": _clk_tck(),
|
||||
}
|
||||
|
||||
try:
|
||||
out["stages"] = _build_stages()
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics stages section error: %s", e)
|
||||
out["stages"] = []
|
||||
|
||||
try:
|
||||
out["queue"] = _build_queue()
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics queue section error: %s", e)
|
||||
out["queue"] = None
|
||||
|
||||
try:
|
||||
out["agents"] = _build_agents()
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics agents section error: %s", e)
|
||||
out["agents"] = []
|
||||
|
||||
try:
|
||||
out["cost"] = _build_cost()
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.warning("metrics cost section error: %s", e)
|
||||
out["cost"] = None
|
||||
|
||||
return out
|
||||
@@ -1,68 +0,0 @@
|
||||
"""ORCH-057 TC-12: GET /queue exposes the read-only fs_ownership block.
|
||||
|
||||
The block carries {enabled, target_uid, mismatch, roots_checked, roots_mismatch,
|
||||
sample_path, checked_at, ...} and /queue must not 5xx whether the layer is on or off.
|
||||
"""
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orchestrator_apiq.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ["ORCH_GITEA_TOKEN"] = "test-token"
|
||||
os.environ["ORCH_PLANE_API_TOKEN"] = "test-token"
|
||||
os.environ["ORCH_PLANE_WEBHOOK_SECRET"] = ""
|
||||
os.environ["ORCH_GITEA_WEBHOOK_SECRET"] = ""
|
||||
|
||||
from fastapi.testclient import TestClient
|
||||
|
||||
from src import fs_normalize
|
||||
from src.main import app
|
||||
from src.db import init_db
|
||||
|
||||
client = TestClient(app)
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def _db():
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
fs_normalize.reset_cache()
|
||||
yield
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
|
||||
|
||||
def test_tc12_queue_exposes_fs_ownership_block(monkeypatch):
|
||||
"""TC-12: GET /queue returns the fs_ownership block with the documented shape."""
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_enabled", True)
|
||||
r = client.get("/queue")
|
||||
assert r.status_code == 200
|
||||
body = r.json()
|
||||
assert "fs_ownership" in body
|
||||
block = body["fs_ownership"]
|
||||
for k in ("enabled", "target_uid", "mismatch", "roots_checked",
|
||||
"roots_mismatch", "sample_path", "checked_at"):
|
||||
assert k in block
|
||||
|
||||
|
||||
def test_tc12_queue_no_5xx_when_disabled(monkeypatch):
|
||||
"""TC-12: with the kill-switch off /queue still returns 200 (no 5xx)."""
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_enabled", False)
|
||||
fs_normalize.reset_cache()
|
||||
r = client.get("/queue")
|
||||
assert r.status_code == 200
|
||||
assert r.json()["fs_ownership"]["enabled"] is False
|
||||
|
||||
|
||||
def test_fs_normalize_check_endpoint():
|
||||
"""The optional POST /fs-normalize/check force-rescans and returns the snapshot."""
|
||||
r = client.post("/fs-normalize/check")
|
||||
assert r.status_code == 200
|
||||
body = r.json()
|
||||
assert body["ok"] is True
|
||||
assert "scan" in body and "mismatch" in body["scan"]
|
||||
assert "healing" in body
|
||||
@@ -320,20 +320,3 @@ def test_deploy_status_guard_settings_env_override(monkeypatch):
|
||||
s = Settings()
|
||||
assert s.deploy_status_guard_enabled is False
|
||||
assert s.deploy_status_guard_repos == "orchestrator,enduro-trails"
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# ORCH-099 (D8): metrics_endpoint_enabled default + env alias ORCH_METRICS_ENABLED.
|
||||
# The field carries an explicit validation_alias so the DOCUMENTED env var
|
||||
# (README / ADR-001 D8) actually controls the flag, overriding the default
|
||||
# ORCH_ + field-name mapping (which would otherwise be ORCH_METRICS_ENDPOINT_*).
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_metrics_endpoint_enabled_default_true(monkeypatch):
|
||||
monkeypatch.delenv("ORCH_METRICS_ENABLED", raising=False)
|
||||
monkeypatch.delenv("ORCH_METRICS_ENDPOINT_ENABLED", raising=False)
|
||||
assert Settings().metrics_endpoint_enabled is True
|
||||
|
||||
|
||||
def test_metrics_endpoint_enabled_reads_documented_env_alias(monkeypatch):
|
||||
monkeypatch.setenv("ORCH_METRICS_ENABLED", "false")
|
||||
assert Settings().metrics_endpoint_enabled is False
|
||||
|
||||
@@ -1,214 +0,0 @@
|
||||
"""ORCH-057 D2/D4/D6: ownership-detect leaf (src/fs_normalize.py) unit tests.
|
||||
|
||||
TC-03..TC-09 (04-test-plan.yaml). All FS-dependent tests use ``tmp_path`` and vary
|
||||
``target_uid`` (a uid no tmp file actually has -> mismatch; the runner's own uid ->
|
||||
clean) so NO real chown / privilege is needed. ``os.geteuid`` is monkeypatched for
|
||||
the privilege-gated normalize test (TC-08). Never touches /repos.
|
||||
"""
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orchestrator_fsn.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ["ORCH_GITEA_TOKEN"] = "test-token"
|
||||
os.environ["ORCH_PLANE_API_TOKEN"] = "test-token"
|
||||
|
||||
from src import fs_normalize
|
||||
|
||||
|
||||
_NONEXISTENT_UID = 999999 # no tmp file is owned by this uid -> deterministic mismatch
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def _reset(monkeypatch):
|
||||
fs_normalize.reset_cache()
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_enabled", True)
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_repos", "")
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_auto", False)
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_scan_cache_ttl_s", 300)
|
||||
yield
|
||||
fs_normalize.reset_cache()
|
||||
|
||||
|
||||
@pytest.fixture
|
||||
def tree(tmp_path):
|
||||
"""A small dir tree with a file, owned by the test runner's own uid."""
|
||||
d = tmp_path / "root"
|
||||
(d / "sub").mkdir(parents=True)
|
||||
(d / "a.txt").write_text("a")
|
||||
(d / "sub" / "b.txt").write_text("b")
|
||||
return d
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-03 / TC-04 — scan verdict
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc03_scan_detects_mismatch(tree):
|
||||
"""TC-03: a tree whose files are not owned by target_uid -> mismatch=True with the
|
||||
affected root listed and a sample path set."""
|
||||
scan = fs_normalize.scan_ownership(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
assert scan.mismatch is True
|
||||
assert str(tree) in scan.roots_mismatch
|
||||
assert scan.sample_path is not None
|
||||
assert scan.target_uid == _NONEXISTENT_UID
|
||||
|
||||
|
||||
def test_tc04_clean_tree_no_mismatch(tree):
|
||||
"""TC-04: a clean tree (all files owned by target_uid == the runner) -> idempotent
|
||||
mismatch=False no-op."""
|
||||
scan = fs_normalize.scan_ownership(roots=[str(tree)], target_uid=os.getuid())
|
||||
assert scan.mismatch is False
|
||||
assert scan.roots_mismatch == []
|
||||
assert scan.sample_path is None
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-05 — never-raise on bad/missing root
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc05_never_raise_on_missing_root(tmp_path):
|
||||
"""TC-05: a non-existent root degrades to mismatch=False, never raises."""
|
||||
missing = str(tmp_path / "does-not-exist")
|
||||
scan = fs_normalize.scan_ownership(roots=[missing], target_uid=_NONEXISTENT_UID)
|
||||
assert scan.mismatch is False
|
||||
assert scan.roots_checked == [] # the missing root is skipped
|
||||
|
||||
|
||||
def test_tc05_never_raise_on_walk_error(tree, monkeypatch):
|
||||
"""TC-05: an os.walk explosion mid-scan degrades to a conservative verdict."""
|
||||
def boom(*a, **k):
|
||||
raise OSError("simulated walk failure")
|
||||
|
||||
monkeypatch.setattr(fs_normalize.os, "walk", boom)
|
||||
scan = fs_normalize.scan_ownership(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
# The root dir itself is owned by the runner (not _NONEXISTENT_UID was checked via
|
||||
# lstat which still works) -> walk error swallowed, no exception escapes.
|
||||
assert isinstance(scan, fs_normalize.OwnershipScan)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-06 — applies() scope
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc06_applies_empty_csv_self_hosting_only(monkeypatch):
|
||||
"""TC-06: empty ORCH_FS_NORMALIZE_REPOS -> True only for the self-hosting repo
|
||||
(orchestrator), False for enduro-trails."""
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_repos", "")
|
||||
assert fs_normalize.applies("orchestrator") is True
|
||||
assert fs_normalize.applies("enduro-trails") is False
|
||||
|
||||
|
||||
def test_tc06_applies_explicit_csv(monkeypatch):
|
||||
"""TC-06: a non-empty CSV scopes by list (case-insensitive)."""
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_repos", "enduro-trails")
|
||||
assert fs_normalize.applies("enduro-trails") is True
|
||||
assert fs_normalize.applies("orchestrator") is False
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-07 — kill-switch
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc07_killswitch_off_scan_inert(tree, monkeypatch):
|
||||
"""TC-07: fs_normalize_enabled=False -> scan is inert (mismatch=False, enabled
|
||||
flag exposes the off state); applies() False for everyone."""
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_enabled", False)
|
||||
scan = fs_normalize.scan_ownership(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
assert scan.mismatch is False
|
||||
assert scan.enabled is False
|
||||
assert fs_normalize.applies("orchestrator") is False
|
||||
|
||||
|
||||
def test_tc07_killswitch_off_normalize_inert(tree, monkeypatch):
|
||||
"""TC-07: normalize is a documented no-op when the kill-switch is off."""
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_enabled", False)
|
||||
res = fs_normalize.normalize(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
assert res["attempted"] is False
|
||||
assert res["changed"] == 0
|
||||
assert "disabled" in res["note"]
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-08 — normalize without privilege
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc08_normalize_without_rights_is_noop_not_error(tree, monkeypatch):
|
||||
"""TC-08: under a non-root euid with auto=True and foreign files, normalize is a
|
||||
no-op + honest log ('operator procedure required'), NOT an exception."""
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_auto", True)
|
||||
monkeypatch.setattr(fs_normalize.os, "geteuid", lambda: 1000) # non-root
|
||||
res = fs_normalize.normalize(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
assert res["privileged"] is False
|
||||
assert res["attempted"] is False
|
||||
assert res["changed"] == 0
|
||||
assert "INFRA.md" in res["note"]
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-09 — TTL cache
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc09_ttl_cache_avoids_rescan(tree, monkeypatch):
|
||||
"""TC-09: a repeat call inside the TTL window does NOT re-walk; force/reset
|
||||
invalidates (mirrors preflight._cache)."""
|
||||
calls = {"n": 0}
|
||||
real_scan = fs_normalize._scan
|
||||
|
||||
def counting_scan(roots, target_uid):
|
||||
calls["n"] += 1
|
||||
return real_scan(roots, target_uid)
|
||||
|
||||
monkeypatch.setattr(fs_normalize, "_scan", counting_scan)
|
||||
|
||||
fs_normalize.scan_ownership(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
fs_normalize.scan_ownership(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
assert calls["n"] == 1 # second call served from cache
|
||||
|
||||
fs_normalize.scan_ownership(roots=[str(tree)], target_uid=_NONEXISTENT_UID, force=True)
|
||||
assert calls["n"] == 2 # force bypasses the cache
|
||||
|
||||
fs_normalize.reset_cache()
|
||||
fs_normalize.scan_ownership(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
assert calls["n"] == 3 # reset invalidates
|
||||
|
||||
|
||||
def test_tc09_cache_keyed_by_roots_and_uid(tree, monkeypatch):
|
||||
"""A different (roots, target_uid) key is not served from another key's cache."""
|
||||
calls = {"n": 0}
|
||||
real_scan = fs_normalize._scan
|
||||
|
||||
def counting_scan(roots, target_uid):
|
||||
calls["n"] += 1
|
||||
return real_scan(roots, target_uid)
|
||||
|
||||
monkeypatch.setattr(fs_normalize, "_scan", counting_scan)
|
||||
fs_normalize.scan_ownership(roots=[str(tree)], target_uid=_NONEXISTENT_UID)
|
||||
fs_normalize.scan_ownership(roots=[str(tree)], target_uid=os.getuid()) # different uid
|
||||
assert calls["n"] == 2
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# classifier (pure) + snapshot
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_classify_worktree_error_markers():
|
||||
assert fs_normalize.classify_worktree_error("fatal: ...: Permission denied") is True
|
||||
assert fs_normalize.classify_worktree_error("could not create leading directories") is True
|
||||
assert fs_normalize.classify_worktree_error("insufficient permission for adding an object") is True
|
||||
assert fs_normalize.classify_worktree_error("fatal: branch already checked out") is False
|
||||
assert fs_normalize.classify_worktree_error("") is False
|
||||
assert fs_normalize.classify_worktree_error(None) is False
|
||||
|
||||
|
||||
def test_is_permission_failure_from_exc():
|
||||
assert fs_normalize.is_permission_failure(exc=PermissionError(13, "denied")) is True
|
||||
import errno as _errno
|
||||
assert fs_normalize.is_permission_failure(exc=OSError(_errno.EACCES, "x")) is True
|
||||
assert fs_normalize.is_permission_failure(exc=OSError(_errno.ENOENT, "x")) is False
|
||||
|
||||
|
||||
def test_snapshot_shape(tree, monkeypatch):
|
||||
"""snapshot() returns the additive fs_ownership block and never raises."""
|
||||
monkeypatch.setattr(fs_normalize.settings, "fs_scan_roots", str(tree))
|
||||
snap = fs_normalize.snapshot()
|
||||
for k in ("enabled", "auto", "repos", "target_uid", "mismatch",
|
||||
"roots_checked", "roots_mismatch", "sample_path", "checked_at"):
|
||||
assert k in snap
|
||||
assert snap["enabled"] is True
|
||||
@@ -1,136 +0,0 @@
|
||||
"""ORCH-057 D3: startup-hook observability + the clear pre-launch outcome.
|
||||
|
||||
TC-10 / TC-11 (04-test-plan.yaml):
|
||||
* TC-10 — the lifespan startup hook, on a detected mismatch, emits a WARNING and a
|
||||
Telegram message; a detect error never crashes the start (never-fatal).
|
||||
* TC-11 — the "clear, early" outcome on a permission failure is delivered by the
|
||||
actionable ensure_worktree error (ADR-001 D3: claim is NOT blocked), i.e. the
|
||||
launch surfaces an actionable diagnosis, never a raw git-fatal.
|
||||
|
||||
Background daemons are disabled via env so the lifespan is cheap and deterministic.
|
||||
"""
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orchestrator_fsn_startup.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ["ORCH_GITEA_TOKEN"] = "test-token"
|
||||
os.environ["ORCH_PLANE_API_TOKEN"] = "test-token"
|
||||
os.environ["ORCH_PLANE_WEBHOOK_SECRET"] = ""
|
||||
os.environ["ORCH_GITEA_WEBHOOK_SECRET"] = ""
|
||||
# Keep the lifespan light: no background daemons during the test.
|
||||
os.environ["ORCH_RECONCILE_ENABLED"] = "false"
|
||||
os.environ["ORCH_REAPER_ENABLED"] = "false"
|
||||
os.environ["ORCH_DISK_MONITOR_ENABLED"] = "false"
|
||||
os.environ["ORCH_BUILD_CACHE_PRUNE_ENABLED"] = "false"
|
||||
os.environ["ORCH_FS_NORMALIZE_ENABLED"] = "true"
|
||||
|
||||
from fastapi.testclient import TestClient
|
||||
|
||||
from src import fs_normalize, git_worktree
|
||||
from src.main import app
|
||||
from src.db import init_db
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def _db():
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
init_db()
|
||||
fs_normalize.reset_cache()
|
||||
yield
|
||||
if os.path.exists(_test_db):
|
||||
os.unlink(_test_db)
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-10 — startup observability
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc10_startup_mismatch_warns_and_telegrams(monkeypatch, caplog):
|
||||
"""TC-10: on a detected mismatch the startup hook logs a WARNING and sends a
|
||||
Telegram message (mocked)."""
|
||||
sent = []
|
||||
monkeypatch.setattr(
|
||||
"src.notifications.send_telegram", lambda *a, **k: sent.append(a[0] if a else "")
|
||||
)
|
||||
scan = fs_normalize.OwnershipScan(
|
||||
mismatch=True, target_uid=1000, roots_checked=["/repos/_wt"],
|
||||
roots_mismatch=["/repos/_wt"], sample_path="/repos/_wt/x", checked_at=1.0,
|
||||
)
|
||||
monkeypatch.setattr("src.fs_normalize.scan_ownership", lambda *a, **k: scan)
|
||||
|
||||
with caplog.at_level("WARNING"):
|
||||
with TestClient(app):
|
||||
pass
|
||||
|
||||
assert any("FS-ownership mismatch" in r.message for r in caplog.records)
|
||||
# Filter for the fs-ownership message (the shared startup may emit other,
|
||||
# unrelated Telegram traffic — e.g. a leftover task's tracker card).
|
||||
fs_msgs = [m for m in sent if "legacy root-owned" in m.lower() or "chown" in m.lower()]
|
||||
assert fs_msgs, "expected a Telegram message on mismatch"
|
||||
|
||||
|
||||
def test_tc10_startup_detect_error_never_fatal(monkeypatch):
|
||||
"""TC-10: a detect error must NOT crash the start (never-fatal)."""
|
||||
def boom(*a, **k):
|
||||
raise RuntimeError("simulated detect failure")
|
||||
|
||||
monkeypatch.setattr("src.fs_normalize.scan_ownership", boom)
|
||||
# Entering/exiting the lifespan must not raise.
|
||||
with TestClient(app):
|
||||
pass
|
||||
|
||||
|
||||
def test_tc10_startup_clean_no_telegram(monkeypatch):
|
||||
"""A clean environment (no mismatch) sends no Telegram and does not warn."""
|
||||
sent = []
|
||||
monkeypatch.setattr(
|
||||
"src.notifications.send_telegram", lambda *a, **k: sent.append(a[0] if a else "")
|
||||
)
|
||||
clean = fs_normalize.OwnershipScan(mismatch=False, target_uid=1000, checked_at=1.0)
|
||||
monkeypatch.setattr("src.fs_normalize.scan_ownership", lambda *a, **k: clean)
|
||||
with TestClient(app):
|
||||
pass
|
||||
# No fs-ownership message on a clean environment (unrelated startup Telegram
|
||||
# traffic from a shared-DB leftover task is ignored).
|
||||
fs_msgs = [m for m in sent if "legacy root-owned" in m.lower() or "обнаружены legacy" in m.lower()]
|
||||
assert fs_msgs == []
|
||||
|
||||
|
||||
# ---------------------------------------------------------------------------
|
||||
# TC-11 — clear pre-launch outcome (D1, not a claim gate)
|
||||
# ---------------------------------------------------------------------------
|
||||
def test_tc11_launch_permission_failure_is_actionable_not_raw(tmp_path, monkeypatch):
|
||||
"""TC-11: the launch-time worktree creation surfaces an actionable error (clear,
|
||||
before the agent spends a token), not a raw git-fatal — the ADR-001 D3 "внятно и
|
||||
заранее" outcome that replaces a blocking claim gate."""
|
||||
repo = "orchestrator"
|
||||
repos_dir = tmp_path / "repos"
|
||||
(repos_dir / repo).mkdir(parents=True)
|
||||
monkeypatch.setattr(git_worktree.settings, "repos_dir", str(repos_dir))
|
||||
monkeypatch.setattr(git_worktree.settings, "worktrees_dir", str(repos_dir / "_wt"))
|
||||
monkeypatch.setattr(git_worktree.settings, "fs_normalize_enabled", True)
|
||||
|
||||
class _R:
|
||||
def __init__(self, rc, err=""):
|
||||
self.returncode = rc
|
||||
self.stderr = err
|
||||
self.stdout = ""
|
||||
|
||||
def fake_run(cmd, *a, **k):
|
||||
if "fetch" in cmd:
|
||||
return _R(0)
|
||||
if "worktree" in cmd and "add" in cmd:
|
||||
return _R(128, "fatal: ...: Permission denied")
|
||||
return _R(0)
|
||||
|
||||
monkeypatch.setattr(git_worktree.subprocess, "run", fake_run)
|
||||
|
||||
with pytest.raises(RuntimeError) as ei:
|
||||
git_worktree.ensure_worktree(repo, "feature/x")
|
||||
msg = str(ei.value)
|
||||
assert "INFRA.md" in msg and "chown" in msg.lower()
|
||||
assert "git worktree add failed" not in msg # not the raw passthrough
|
||||
@@ -1,139 +0,0 @@
|
||||
"""ORCH-057 D1: actionable worktree error on a legacy-ownership permission failure.
|
||||
|
||||
TC-01 / TC-02 (04-test-plan.yaml): a permission-class ``git worktree add`` /
|
||||
``os.makedirs`` failure must surface an actionable RuntimeError (cause + healing
|
||||
command + INFRA.md ref), while a NON-permission failure keeps the prior raw-stderr
|
||||
contract (no meaning substitution). No real chown / no writes to /repos — failures
|
||||
are simulated via monkeypatched ``subprocess.run`` / ``os.makedirs``.
|
||||
"""
|
||||
import os
|
||||
import tempfile
|
||||
|
||||
import pytest
|
||||
|
||||
_test_db = os.path.join(tempfile.gettempdir(), "test_orchestrator_wt_perm.db")
|
||||
os.environ["ORCH_DB_PATH"] = _test_db
|
||||
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
|
||||
os.environ["ORCH_GITEA_TOKEN"] = "test-token"
|
||||
os.environ["ORCH_PLANE_API_TOKEN"] = "test-token"
|
||||
|
||||
from src import git_worktree
|
||||
from src.git_worktree import ensure_worktree
|
||||
|
||||
|
||||
class _R:
|
||||
"""Minimal CompletedProcess stand-in."""
|
||||
|
||||
def __init__(self, returncode, stderr=""):
|
||||
self.returncode = returncode
|
||||
self.stderr = stderr
|
||||
self.stdout = ""
|
||||
|
||||
|
||||
@pytest.fixture
|
||||
def main_repo(tmp_path, monkeypatch):
|
||||
"""A bare-minimum main clone dir so ensure_worktree gets past the existence check.
|
||||
|
||||
repos_dir/<repo> must be a directory; worktrees_dir points at a fresh tmp path.
|
||||
The actual git calls are monkeypatched per-test.
|
||||
"""
|
||||
repo = "orchestrator"
|
||||
repos_dir = tmp_path / "repos"
|
||||
(repos_dir / repo).mkdir(parents=True)
|
||||
monkeypatch.setattr(git_worktree.settings, "repos_dir", str(repos_dir))
|
||||
monkeypatch.setattr(git_worktree.settings, "worktrees_dir", str(tmp_path / "repos" / "_wt"))
|
||||
monkeypatch.setattr(git_worktree.settings, "fs_normalize_enabled", True)
|
||||
return repo
|
||||
|
||||
|
||||
def test_tc01_permission_git_fatal_becomes_actionable(main_repo, monkeypatch):
|
||||
"""TC-01: a git-fatal 'could not create leading directories / Permission denied'
|
||||
raises an actionable RuntimeError (diagnosis + chown), not the raw git stderr."""
|
||||
perm_stderr = (
|
||||
"fatal: could not create leading directories of "
|
||||
"'/repos/_wt/orchestrator/x': Permission denied"
|
||||
)
|
||||
|
||||
def fake_run(cmd, *a, **k):
|
||||
# fetch -> ok; worktree add (both forms) -> permission fatal.
|
||||
if "fetch" in cmd:
|
||||
return _R(0)
|
||||
if "worktree" in cmd and "add" in cmd:
|
||||
return _R(128, perm_stderr)
|
||||
return _R(0)
|
||||
|
||||
monkeypatch.setattr(git_worktree.subprocess, "run", fake_run)
|
||||
|
||||
with pytest.raises(RuntimeError) as ei:
|
||||
ensure_worktree(main_repo, "feature/x")
|
||||
msg = str(ei.value)
|
||||
# Actionable: names the cause + the healing command + the INFRA procedure...
|
||||
assert "legacy root-owned" in msg.lower()
|
||||
assert "chown" in msg.lower()
|
||||
assert "INFRA.md" in msg
|
||||
# ...and is NOT merely the raw "git worktree add failed" passthrough.
|
||||
assert "git worktree add failed" not in msg
|
||||
|
||||
|
||||
def test_tc01_makedirs_permission_error_becomes_actionable(main_repo, monkeypatch):
|
||||
"""TC-01 (sibling path): a PermissionError from os.makedirs (creating the leading
|
||||
worktree dir) is also turned into the actionable RuntimeError."""
|
||||
def fake_run(cmd, *a, **k):
|
||||
return _R(0)
|
||||
|
||||
monkeypatch.setattr(git_worktree.subprocess, "run", fake_run)
|
||||
|
||||
def boom(*a, **k):
|
||||
raise PermissionError(13, "Permission denied")
|
||||
|
||||
monkeypatch.setattr(git_worktree.os, "makedirs", boom)
|
||||
|
||||
with pytest.raises(RuntimeError) as ei:
|
||||
ensure_worktree(main_repo, "feature/x")
|
||||
assert "chown" in str(ei.value).lower()
|
||||
assert "legacy root-owned" in str(ei.value).lower()
|
||||
|
||||
|
||||
def test_tc02_non_permission_error_keeps_prior_contract(main_repo, monkeypatch):
|
||||
"""TC-02: a NON-permission failure (e.g. a real branch conflict) keeps the prior
|
||||
raw-stderr 'git worktree add failed' message — no meaning substitution."""
|
||||
conflict = "fatal: 'feature/x' is already checked out at '/repos/_wt/other'"
|
||||
|
||||
def fake_run(cmd, *a, **k):
|
||||
if "fetch" in cmd:
|
||||
return _R(0)
|
||||
if "worktree" in cmd and "add" in cmd:
|
||||
return _R(128, conflict)
|
||||
return _R(0)
|
||||
|
||||
monkeypatch.setattr(git_worktree.subprocess, "run", fake_run)
|
||||
|
||||
with pytest.raises(RuntimeError) as ei:
|
||||
ensure_worktree(main_repo, "feature/x")
|
||||
msg = str(ei.value)
|
||||
assert "git worktree add failed" in msg
|
||||
assert "already checked out" in msg
|
||||
# The actionable diagnosis must NOT be injected for a non-permission error.
|
||||
assert "legacy root-owned" not in msg.lower()
|
||||
|
||||
|
||||
def test_tc02_killswitch_off_keeps_raw_contract_even_for_permission(main_repo, monkeypatch):
|
||||
"""Kill-switch off (fs_normalize_enabled=False) -> the error contract is byte-for-
|
||||
byte as before ORCH-057 even for a permission failure (raw stderr passthrough)."""
|
||||
monkeypatch.setattr(git_worktree.settings, "fs_normalize_enabled", False)
|
||||
perm_stderr = "fatal: ...: Permission denied"
|
||||
|
||||
def fake_run(cmd, *a, **k):
|
||||
if "fetch" in cmd:
|
||||
return _R(0)
|
||||
if "worktree" in cmd and "add" in cmd:
|
||||
return _R(128, perm_stderr)
|
||||
return _R(0)
|
||||
|
||||
monkeypatch.setattr(git_worktree.subprocess, "run", fake_run)
|
||||
|
||||
with pytest.raises(RuntimeError) as ei:
|
||||
ensure_worktree(main_repo, "feature/x")
|
||||
msg = str(ei.value)
|
||||
assert "git worktree add failed" in msg
|
||||
assert "legacy root-owned" not in msg.lower()
|
||||
@@ -1,295 +0,0 @@
|
||||
"""ORCH-099 (FND/F1a) — read-only GET /metrics raw-signal endpoint.
|
||||
|
||||
Covers the four-section envelope (TC-01..TC-04/TC-08/TC-11), never-raise by
|
||||
section/field (TC-05/TC-07), the cost aggregate (TC-06), read-only invariant
|
||||
(TC-09), and additivity vs /health//status//queue (TC-10).
|
||||
|
||||
Pattern mirrors tests/test_queue_endpoint.py: the async handler is driven via
|
||||
asyncio.run(main.metrics()); the autouse conftest mutes Telegram; a per-test
|
||||
fresh_db points settings.db_path at a tmp file + init_db.
|
||||
"""
|
||||
import asyncio
|
||||
import os
|
||||
|
||||
import pytest
|
||||
|
||||
import src.db as db # noqa: E402
|
||||
from src.db import get_db, init_db # noqa: E402
|
||||
from src import config as cfg # noqa: E402
|
||||
from src import metrics as metrics_mod # noqa: E402
|
||||
|
||||
|
||||
@pytest.fixture(autouse=True)
|
||||
def fresh_db(tmp_path, monkeypatch):
|
||||
dbfile = tmp_path / "metrics.db"
|
||||
monkeypatch.setattr(db.settings, "db_path", str(dbfile))
|
||||
monkeypatch.setattr(cfg.settings, "metrics_endpoint_enabled", True, raising=False)
|
||||
init_db()
|
||||
yield
|
||||
|
||||
|
||||
# --- helpers ---------------------------------------------------------------
|
||||
def _make_task(work_item_id="ORCH-1", repo="orchestrator",
|
||||
branch="feature/x", stage="development"):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage) "
|
||||
"VALUES (?, ?, ?, ?, ?)",
|
||||
(work_item_id, work_item_id, repo, branch, stage),
|
||||
)
|
||||
tid = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return tid
|
||||
|
||||
|
||||
def _make_agent_run(agent="developer", task_id=None, model="claude-opus-4-8",
|
||||
effort="xhigh", cost_usd=None, input_tokens=None,
|
||||
output_tokens=None, cache_read_tokens=None,
|
||||
cache_creation_tokens=None, finished=False):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO agent_runs (task_id, agent, model, effort, cost_usd, "
|
||||
"input_tokens, output_tokens, cache_read_tokens, cache_creation_tokens, "
|
||||
"finished_at) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, "
|
||||
+ ("datetime('now')" if finished else "NULL") + ")",
|
||||
(task_id, agent, model, effort, cost_usd, input_tokens, output_tokens,
|
||||
cache_read_tokens, cache_creation_tokens),
|
||||
)
|
||||
rid = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return rid
|
||||
|
||||
|
||||
def _make_running_job(agent="developer", repo="orchestrator", task_id=None,
|
||||
pid=None, run_id=None, age_s=0, attempts=0, max_attempts=2):
|
||||
conn = get_db()
|
||||
cur = conn.execute(
|
||||
"INSERT INTO jobs (agent, repo, task_id, status, attempts, max_attempts, "
|
||||
"run_id, pid, started_at) "
|
||||
"VALUES (?, ?, ?, 'running', ?, ?, ?, ?, datetime('now', ?))",
|
||||
(agent, repo, task_id, attempts, max_attempts, run_id, pid,
|
||||
f"-{int(age_s)} seconds"),
|
||||
)
|
||||
job_id = cur.lastrowid
|
||||
conn.commit()
|
||||
conn.close()
|
||||
return job_id
|
||||
|
||||
|
||||
def _db_snapshot():
|
||||
"""Full row snapshot of the mutable tables for the read-only assertion."""
|
||||
conn = get_db()
|
||||
snap = {}
|
||||
for table in ("tasks", "jobs", "agent_runs"):
|
||||
rows = conn.execute(f"SELECT * FROM {table} ORDER BY id").fetchall()
|
||||
snap[table] = [dict(r) for r in rows]
|
||||
conn.close()
|
||||
return snap
|
||||
|
||||
|
||||
# --- TC-01: envelope keys --------------------------------------------------
|
||||
def test_tc01_envelope_has_all_sections():
|
||||
m = metrics_mod.build_metrics()
|
||||
assert isinstance(m, dict)
|
||||
for key in ("schema_version", "generated_at", "stages", "queue", "agents", "cost"):
|
||||
assert key in m, f"missing envelope key {key!r}"
|
||||
assert m["schema_version"] == 1
|
||||
assert isinstance(m["stages"], list)
|
||||
assert isinstance(m["agents"], list)
|
||||
assert isinstance(m["queue"], dict)
|
||||
assert isinstance(m["cost"], dict)
|
||||
|
||||
|
||||
# --- TC-02: stages section + terminal exclusion ----------------------------
|
||||
def test_tc02_stages_active_only_with_fields():
|
||||
_make_task(work_item_id="ORCH-10", stage="development", repo="orchestrator")
|
||||
_make_task(work_item_id="ORCH-11", stage="done") # terminal -> excluded
|
||||
_make_task(work_item_id="ORCH-12", stage="cancelled") # terminal -> excluded
|
||||
|
||||
stages = metrics_mod.build_metrics()["stages"]
|
||||
wis = {s["work_item"] for s in stages}
|
||||
assert "ORCH-10" in wis
|
||||
assert "ORCH-11" not in wis
|
||||
assert "ORCH-12" not in wis
|
||||
|
||||
item = next(s for s in stages if s["work_item"] == "ORCH-10")
|
||||
assert item["stage"] == "development"
|
||||
assert item["repo"] == "orchestrator"
|
||||
assert isinstance(item["age_in_stage_s"], int)
|
||||
|
||||
|
||||
# --- TC-03: queue section --------------------------------------------------
|
||||
def test_tc03_queue_section_fields():
|
||||
q = metrics_mod.build_metrics()["queue"]
|
||||
assert "counts" in q
|
||||
counts = q["counts"]
|
||||
for k in ("queued", "running", "failed", "cancelled"):
|
||||
assert k in counts
|
||||
assert q["max_concurrency"] is not None
|
||||
assert "retries" in q and isinstance(q["retries"], dict)
|
||||
assert "in_backoff" in q["retries"]
|
||||
# breaker snapshot present (worker is the module singleton, initialised)
|
||||
assert q["breaker"] is not None
|
||||
for k in ("state", "consecutive_transient", "pause_remaining_s"):
|
||||
assert k in q["breaker"]
|
||||
|
||||
|
||||
# --- TC-04: agents liveness section ----------------------------------------
|
||||
def test_tc04_agents_liveness_fields():
|
||||
tid = _make_task(work_item_id="ORCH-20")
|
||||
rid = _make_agent_run(task_id=tid, model="claude-opus-4-8", effort="xhigh")
|
||||
# use our own (alive) pid so cpu_ticks is a real integer
|
||||
_make_running_job(task_id=tid, pid=os.getpid(), run_id=rid, age_s=5)
|
||||
|
||||
agents = metrics_mod.build_metrics()["agents"]
|
||||
assert len(agents) == 1
|
||||
a = agents[0]
|
||||
for k in ("agent", "run_id", "job_id", "pid", "runtime_s", "model", "effort", "cpu_ticks"):
|
||||
assert k in a, f"agent entry missing {k!r}"
|
||||
assert a["agent"] == "developer"
|
||||
assert a["run_id"] == rid
|
||||
assert a["pid"] == os.getpid()
|
||||
assert isinstance(a["runtime_s"], int)
|
||||
# alive pid -> real cpu ticks (int), basis present at envelope level
|
||||
assert isinstance(a["cpu_ticks"], int)
|
||||
assert metrics_mod.build_metrics()["clk_tck"] is not None
|
||||
|
||||
|
||||
# --- TC-05: agent-liveness never-raise on dead/None pid --------------------
|
||||
def test_tc05_dead_or_none_pid_cpu_ticks_null():
|
||||
tid = _make_task(work_item_id="ORCH-21")
|
||||
rid = _make_agent_run(task_id=tid)
|
||||
# pid=None -> cpu_ticks null; a very-unlikely-live pid -> /proc absent -> null
|
||||
_make_running_job(task_id=tid, pid=None, run_id=rid)
|
||||
_make_running_job(task_id=tid, pid=999999, run_id=rid)
|
||||
|
||||
m = metrics_mod.build_metrics()
|
||||
agents = m["agents"]
|
||||
assert len(agents) == 2
|
||||
for a in agents:
|
||||
assert a["cpu_ticks"] is None # field degraded, not an exception
|
||||
assert a["agent"] == "developer" # other fields intact
|
||||
# whole envelope still valid
|
||||
assert m["schema_version"] == 1
|
||||
|
||||
|
||||
def test_tc05_read_cpu_ticks_helper_none_paths():
|
||||
assert metrics_mod._read_cpu_ticks(None) is None
|
||||
assert metrics_mod._read_cpu_ticks(999999) is None
|
||||
# alive pid (this process) -> int
|
||||
assert isinstance(metrics_mod._read_cpu_ticks(os.getpid()), int)
|
||||
|
||||
|
||||
# --- TC-06: cost aggregate -------------------------------------------------
|
||||
def test_tc06_cost_aggregate_sums_and_empty_zeros():
|
||||
# empty agent_runs -> zeros, not error
|
||||
agg0 = metrics_mod.build_metrics()["cost"]["aggregate"]
|
||||
for k in ("cost_usd", "input_tokens", "output_tokens",
|
||||
"cache_read_tokens", "cache_creation_tokens"):
|
||||
assert agg0[k] == 0
|
||||
|
||||
tid = _make_task(work_item_id="ORCH-30")
|
||||
_make_agent_run(task_id=tid, cost_usd=1.5, input_tokens=100, output_tokens=20,
|
||||
cache_read_tokens=5, cache_creation_tokens=7, finished=True)
|
||||
_make_agent_run(task_id=tid, cost_usd=2.5, input_tokens=200, output_tokens=30,
|
||||
cache_read_tokens=10, cache_creation_tokens=3, finished=True)
|
||||
|
||||
agg = metrics_mod.build_metrics()["cost"]["aggregate"]
|
||||
assert agg["cost_usd"] == 4.0
|
||||
assert agg["input_tokens"] == 300
|
||||
assert agg["output_tokens"] == 50
|
||||
assert agg["cache_read_tokens"] == 15
|
||||
assert agg["cache_creation_tokens"] == 10
|
||||
|
||||
|
||||
# --- TC-07: never-raise when a section source throws -----------------------
|
||||
def test_tc07_section_source_throws_degrades_not_500(monkeypatch):
|
||||
def _boom(*a, **k):
|
||||
raise RuntimeError("simulated source failure")
|
||||
|
||||
# queue counts source throws -> queue.counts null, build_metrics still returns
|
||||
monkeypatch.setattr(db, "job_status_counts", _boom)
|
||||
# cost aggregate source throws -> cost.aggregate null
|
||||
monkeypatch.setattr(db, "agent_cost_totals", _boom)
|
||||
# stages source throws -> stages []
|
||||
monkeypatch.setattr(db, "get_active_tasks_for_reconcile", _boom)
|
||||
|
||||
m = metrics_mod.build_metrics()
|
||||
assert m["schema_version"] == 1 # never raised
|
||||
assert m["stages"] == []
|
||||
assert m["queue"]["counts"] is None
|
||||
assert m["cost"]["aggregate"] is None
|
||||
|
||||
|
||||
def test_tc07_breaker_unavailable_is_null(monkeypatch):
|
||||
from src import queue_worker
|
||||
# simulate an uninitialised / broken worker breaker
|
||||
monkeypatch.setattr(queue_worker.worker.breaker, "snapshot",
|
||||
lambda: (_ for _ in ()).throw(RuntimeError("no breaker")))
|
||||
q = metrics_mod.build_metrics()["queue"]
|
||||
assert q["breaker"] is None # null, not 500
|
||||
|
||||
|
||||
# --- TC-08: GET /metrics via handler returns valid JSON --------------------
|
||||
def test_tc08_endpoint_returns_full_payload():
|
||||
tid = _make_task(work_item_id="ORCH-40")
|
||||
rid = _make_agent_run(task_id=tid)
|
||||
_make_running_job(task_id=tid, pid=os.getpid(), run_id=rid)
|
||||
|
||||
from src import main
|
||||
payload = asyncio.run(main.metrics())
|
||||
assert payload["schema_version"] == 1
|
||||
assert isinstance(payload["stages"], list) and len(payload["stages"]) == 1
|
||||
assert isinstance(payload["agents"], list) and len(payload["agents"]) == 1
|
||||
assert "aggregate" in payload["cost"]
|
||||
assert "counts" in payload["queue"]
|
||||
|
||||
|
||||
def test_tc08_kill_switch_minimal_body(monkeypatch):
|
||||
monkeypatch.setattr(cfg.settings, "metrics_endpoint_enabled", False, raising=False)
|
||||
from src import main
|
||||
payload = asyncio.run(main.metrics())
|
||||
assert payload == {"schema_version": 1, "enabled": False}
|
||||
|
||||
|
||||
# --- TC-09: read-only invariant --------------------------------------------
|
||||
def test_tc09_metrics_is_read_only():
|
||||
tid = _make_task(work_item_id="ORCH-50")
|
||||
rid = _make_agent_run(task_id=tid, cost_usd=1.0, input_tokens=10)
|
||||
_make_running_job(task_id=tid, pid=os.getpid(), run_id=rid)
|
||||
|
||||
from src import main
|
||||
before = _db_snapshot()
|
||||
asyncio.run(main.metrics())
|
||||
asyncio.run(main.metrics()) # repeat: state must not change
|
||||
after = _db_snapshot()
|
||||
assert before == after, "/metrics must not mutate any DB state"
|
||||
|
||||
|
||||
# --- TC-10: additivity vs existing endpoints -------------------------------
|
||||
def test_tc10_existing_endpoints_intact():
|
||||
from src import main
|
||||
health = asyncio.run(main.health())
|
||||
assert health["status"] == "ok"
|
||||
|
||||
status = asyncio.run(main.status())
|
||||
assert "active_tasks" in status
|
||||
|
||||
queue = asyncio.run(main.queue())
|
||||
for key in ("counts", "max_concurrency", "poll_interval", "resilience",
|
||||
"reconcile", "reaper", "serial_gate", "recent"):
|
||||
assert key in queue, f"/queue lost existing key {key!r}"
|
||||
|
||||
|
||||
# --- TC-11: empty state is valid -------------------------------------------
|
||||
def test_tc11_empty_state_valid():
|
||||
m = metrics_mod.build_metrics()
|
||||
assert m["stages"] == []
|
||||
assert m["agents"] == []
|
||||
assert m["cost"]["running"] == []
|
||||
agg = m["cost"]["aggregate"]
|
||||
assert all(agg[k] == 0 for k in agg)
|
||||
counts = m["queue"]["counts"]
|
||||
assert counts["queued"] == 0 and counts["running"] == 0
|
||||
Reference in New Issue
Block a user