Compare commits

..

62 Commits

Author SHA1 Message Date
9ee689b6e8 docs(ORCH-009): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)
All checks were successful
CI / test (pull_request) Successful in 56s
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 16:07:43 +03:00
af949afc58 Merge pull request 'feat(lessons): машинный журнал уроков — аддитивная таблица + observer-leaf (ORCH-098)' (#118) from feature/ORCH-098-fnd into main
Some checks failed
CI / test (push) Has been cancelled
2026-06-10 11:02:23 +03:00
deploy-finalizer
4203d93978 deploy(ORCH-036): finalize SUCCESS for ORCH-098
All checks were successful
CI / test (push) Successful in 55s
2026-06-10 11:02:22 +03:00
66700123ac docs(ORCH-098): staging gate SUCCESS — 15-staging-log.md
All checks were successful
CI / test (push) Successful in 57s
CI / test (pull_request) Successful in 1m2s
Staging suite (docker exec orchestrator-staging, port 8501) exit 0.
All REAL checks green; C9a/C9b INFRA-WAIVED (ORCH-061).

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 10:55:51 +03:00
917acf3e1e tester(ET): auto-commit from tester run_id=582
All checks were successful
CI / test (push) Successful in 57s
CI / test (pull_request) Successful in 56s
2026-06-10 10:52:53 +03:00
de009822c0 reviewer(ET): auto-commit from reviewer run_id=581
All checks were successful
CI / test (push) Successful in 59s
CI / test (pull_request) Successful in 59s
2026-06-10 10:49:49 +03:00
21a47e85d3 fix(lessons): resolve land-race with ORCH-100 — renumber ADR 0033→0034
All checks were successful
CI / test (push) Successful in 56s
CI / test (pull_request) Successful in 55s
Merge-gate auto_rebase_onto_main bounced this branch back: ORCH-100 landed
in main first and claimed global ADR number adr-0033 (adr-0033-sidecar-watchdog),
while this branch had created adr-0033-lessons-journal. Resolved the genuine
land race:

- rebased feature/ORCH-098-fnd onto current origin/main (linear history)
- resolved docs/architecture/README.md component-list conflict — both the
  Lessons-journal and Sidecar-watchdog bullets now coexist
- renamed docs/architecture/adr/adr-0033-lessons-journal.md →
  adr-0034-lessons-journal.md (next free global ADR number) + fixed the
  in-file header
- updated all cross-references (CLAUDE.md, README.md, work-item ADR-001,
  12-review.md) 0033→0034 for the lessons journal; ORCH-100's adr-0033
  (sidecar) left intact
- recovered the ORCH-098 CHANGELOG entry silently dropped by the rebase
  auto-merge (now above ORCH-100, ADR ref corrected to 0034)

No code semantics changed; src/** auto-merged cleanly (ORCH-100 did not
touch src/**). ruff: n/a locally (CI). pytest tests/ -q: 1630 passed.

Refs: ORCH-098
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 10:44:34 +03:00
c01c42e532 tester(ET): auto-commit from tester run_id=578 2026-06-10 10:40:17 +03:00
eea70551e6 reviewer(ET): auto-commit from reviewer run_id=577 2026-06-10 10:40:17 +03:00
7d21625d84 feat(lessons): machine lessons-journal — additive table + observer leaf (ORCH-098)
Step 1 ("Foundation", F2) of the self-improvement epic: formalise free-text
"lessons" from memory/ into a machine-readable `lessons` table — the foundation
for the future retrospective agent (E2), the RICE prioritiser (E3) and Стрим.

- src/lessons.py: pure never-raise observer leaf (record/get/update/snapshot),
  kill-switch only, NO repo scope (observer-only; records about any repo incl.
  enduro; repo cut on the read side). Slug-convention constants.
- src/db.py: additive idempotent `lessons` table in init_db() (+3 indexes);
  nullable attribution columns from the start (NFR-6, _ensure_column forward-safe);
  helpers record_lesson/get_lessons/update_lesson/lessons_snapshot/
  lessons_recent_dup_exists (auto-dedup window).
- 4 auto-detectors (best-effort, source="auto", deduped): gate_failure
  (_handle_qg_failure_rollbacks), merge_hold (_handle_merge_verify HOLD),
  transient_retry (launcher._finalize_transient budget-exhaustion), deploy_degraded
  (post-deploy DEGRADED -> set_repo_freeze).
- src/main.py: GET /lessons, POST /lessons, POST /lessons/{id} + read-only
  `lessons` block in GET /queue; off-switch -> {"enabled": false}.
- src/config.py: lessons_enabled / lessons_query_limit_default / lessons_dedup_window_s.
- tests/test_lessons.py: TC-01..TC-12 (unit + integration), all green.
- Docs: CLAUDE.md, docs/architecture/README.md (component + schema + API), CHANGELOG.

Invariant: the journal is an OBSERVER, not a Quality Gate — STAGE_TRANSITIONS /
QG_CHECKS / check_* / machine-verdict / existing table schemas are byte-for-byte
untouched; enduro not affected. never-raise on every public fn + injection.

Refs: ORCH-098
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 10:40:17 +03:00
9f62df02eb architect(ET): auto-commit from architect run_id=574 2026-06-10 10:39:17 +03:00
1dc067a00c analyst(ET): auto-commit from analyst run_id=573 2026-06-10 10:37:51 +03:00
0677ea3a7e docs: init ORCH-098 business request 2026-06-10 10:37:51 +03:00
b915503b37 Merge pull request 'docs(ORCH-098): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)' (#119) from docs/ORCH-098-staging-log into main 2026-06-10 10:33:44 +03:00
b1a7239e20 docs(ORCH-098): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)
All checks were successful
CI / test (pull_request) Successful in 53s
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 10:33:25 +03:00
db78c9eb7a Merge pull request 'feat(watchdog): sidecar-watchdog F1b — monitoring brain in a separate container (ORCH-100)' (#116) from feature/ORCH-100-fnd-f1b-sidecar-watchdog into main 2026-06-10 09:57:12 +03:00
deploy-finalizer
e7dad0f644 deploy(ORCH-036): finalize SUCCESS for ORCH-100
All checks were successful
CI / test (push) Successful in 52s
2026-06-10 09:57:11 +03:00
0ef1cf6698 tester(ET): auto-commit from tester run_id=571
All checks were successful
CI / test (push) Successful in 1m1s
CI / test (pull_request) Successful in 58s
2026-06-10 09:36:02 +03:00
9f62e05d01 reviewer(ET): auto-commit from reviewer run_id=570 2026-06-10 09:36:02 +03:00
318bae7472 fix(test): isolate settings.runs_dir in conftest to stop ambient prod-log pollution (ORCH-100)
test_queue.py::TestRetry::test_finalize_job_requeue_then_fail failed in the
self-hosting environment because launcher._finalize_job classifies a non-zero
exit by reading the tail of <settings.runs_dir>/<run_id>.log. settings.runs_dir
defaults to the live prod dir /app/data/runs, which on the host holds REAL
accumulated agent logs; a real 2.log containing "429" flips the expected
'permanent' classification to 'transient', requeueing the job instead of
marking it 'failed'. This is ambient prod pollution, not a code fault.

Add an autouse _isolate_runs_dir fixture (mirroring _no_telegram /
_disable_merge_verify) that redirects settings.runs_dir to a per-test tmp dir
so _run_log_path() resolves to a non-existent file and classify_log_file()
returns the documented 'permanent' default. Full suite: 1617 passed. src/**
untouched.

Refs: ORCH-100

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 09:36:02 +03:00
d61b583dad tester(ET): auto-commit from tester run_id=568 2026-06-10 09:36:02 +03:00
93cf2732a2 reviewer(ET): auto-commit from reviewer run_id=567 2026-06-10 09:36:02 +03:00
259b507906 feat(watchdog): sidecar-watchdog F1b — monitoring brain in a separate container (ORCH-100)
Add the `watchdog/` package (thin Python-3.12 stdlib-only daemon) and the
`orchestrator-watchdog` compose service — the brain half of the domain-0
observability pair. F1a (ORCH-099) exposes GET /metrics raw signal; F1b reads it,
augments with host / container / dependency probes, runs each signal through a
generalised pure decision function (decide(signal_active, prev, now, cooldown),
a strict superset of disk_watchdog.decide_action) with per-signal in-memory
dedup/throttle/recovery, and alerts over its OWN independent Telegram channel.

Key properties (ADR-001):
- Observer separated from observed: separate container; /metrics not answering is
  itself the master `orch_down` alarm (debounced K ticks — no flap on a hiccup).
- Strictly read-only: docker.sock GET-only + mounted :ro (double guard), host
  paths :ro, no DB/disk writes, no process control — self-hosting-safe.
- never-raise on three levels (per-source/per-tick/per-send) + WATCHDOG_ENABLED
  kill-switch (disabled -> inert idle-loop, not exit).
- Disk anti-duplicate (D6): disk_watchdog (ORCH-063) stays sole owner of the 85%
  alert; sidecar carries orch_down + an opt-in 97% ceiling (default off).
- NO import from src/** (C-1); src/**, STAGE_TRANSITIONS, QG_CHECKS, check_*, DB
  schema — untouched. env_file optional so a missing .env.watchdog never breaks
  `docker compose up` for the prod orchestrator.

Tests: tests/watchdog/ (TC-01…TC-13) + full tests/ regression green (TC-14).
Docs: CHANGELOG, .env.example canon (WATCHDOG_*); architecture README + adr-0033
authored at the architecture stage.

Refs: ORCH-100

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 09:36:02 +03:00
1c08b3f62a architect(ET): auto-commit from architect run_id=565 2026-06-10 09:36:02 +03:00
36102f253f analyst(ET): auto-commit from analyst run_id=564 2026-06-10 09:36:02 +03:00
874cc29ff7 docs: init ORCH-100 business request 2026-06-10 09:36:02 +03:00
26d6936eed Merge pull request 'docs(ORCH-100): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)' (#117) from docs/ORCH-100-staging-log into main
Some checks failed
CI / test (push) Has been cancelled
2026-06-10 09:35:30 +03:00
b63fca4396 docs(ORCH-100): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)
All checks were successful
CI / test (pull_request) Successful in 54s
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 09:35:18 +03:00
64bb895402 docs(epic): скоуп наблюдения (3 слоя) + атрибуция уроков platform-vs-project (Слава 10.06) 2026-06-10 09:05:26 +03:00
ff20c3827a Merge pull request 'feat(bug-fast-track): cheaper/shorter pipeline route for bug-fix tasks (ORCH-019)' (#115) from feature/ORCH-019- into main
Some checks failed
CI / test (push) Has been cancelled
2026-06-10 04:03:53 +03:00
deploy-finalizer
758a732422 deploy(ORCH-036): finalize SUCCESS for ORCH-019
All checks were successful
CI / test (push) Successful in 47s
CI / test (pull_request) Successful in 47s
2026-06-10 04:03:52 +03:00
5ecc870897 tester(ET): auto-commit from tester run_id=562
All checks were successful
CI / test (push) Successful in 50s
CI / test (pull_request) Successful in 52s
2026-06-10 03:58:15 +03:00
69970ecebb reviewer(ET): auto-commit from reviewer run_id=561 2026-06-10 03:58:15 +03:00
50bcae765a feat(bug-fast-track): cheaper/shorter pipeline route for bug-fix tasks (ORCH-019)
A task carrying the Plane `Bug` label takes a shortened route that skips the
`architecture` stage (one opus architect run + ADR + check_architecture_done),
replacing heavy analysis with a lite package (bug-report + mandatory regression
test plan). EVERY Quality Gate / sub-gate runs UNCHANGED — the route is a
scheduler property, not a gate (root invariant NFR-1): STAGE_TRANSITIONS /
QG_CHECKS / check_* / machine-verdict keys are byte-for-byte preserved.

- src/bug_fast_track.py: new leaf (never-raise) — bug_fast_track_applies (local,
  network-free, checked first), is_bug_task (labels.has_label, Plane API source),
  skips_architecture (pure DB-backed routing predicate), snapshot.
- src/db.py: additive idempotent tasks.track column (TEXT DEFAULT 'full') +
  set_task_track / get_task_track helpers (missing/NULL -> 'full', fail-safe).
- src/stage_engine.py: routing-override on the analysis-exit edge (track='bug' ->
  development/developer, skipping architect); brd-review-clock stamp extended to
  analysis->development. get_next_stage/get_agent_for_stage stay pure.
- src/webhooks/plane.py: classify task as bug in start_pipeline (applies-first
  short-circuit; never-raise -> full cycle on any error).
- src/main.py: additive bug_fast_track block in GET /queue + POST
  /bug-fast-track/escalate (reset 'bug'->'full' to return to the full cycle).
- src/config.py: bug_fast_track_enabled / _label / _repos flags (empty CSV ->
  self-hosting only).
- src/notifications.py: optional 🐞 marker on the bug-track card (never-raise).
- Prompts: analyst.md (lite bug package + escalation), reviewer.md (regression-
  test axis) — 52d canon preserved.
- Docs: CLAUDE.md, README.md (env + API + section), docs/architecture/README.md,
  CHANGELOG.md, .env.example.
- Tests: tests/test_bug_fast_track*.py + test_db_migrations.py + queue block
  (TC-01..TC-15). Full regression green (1551 passed).

Kill-switch ORCH_BUG_FAST_TRACK_ENABLED=false -> 1:1 pre-ORCH-019 (zero
regression; residual track column harmless).

Refs: ORCH-019

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 03:58:15 +03:00
bc04186b93 architect(ET): auto-commit from architect run_id=558 2026-06-10 03:58:15 +03:00
2dfbdd61aa analyst(ET): auto-commit from analyst run_id=557 2026-06-10 03:58:15 +03:00
5fd9b1a094 docs: init ORCH-019 business request 2026-06-10 03:58:15 +03:00
a14d2cc5c8 docs(ORCH-019): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived) 2026-06-10 03:57:54 +03:00
e2c0b2ba9b Merge pull request 'feat: ORCH-057-bug-follow-up-orch-040-normali' (#113) from feature/ORCH-057-bug-follow-up-orch-040-normali into main
Some checks failed
CI / test (push) Has been cancelled
2026-06-10 03:09:07 +03:00
deploy-finalizer
c30dc71b88 deploy(ORCH-036): finalize SUCCESS for ORCH-057
All checks were successful
CI / test (push) Successful in 44s
2026-06-10 03:09:06 +03:00
6d8b7fb934 tester(ET): auto-commit from tester run_id=555
All checks were successful
CI / test (push) Successful in 51s
CI / test (pull_request) Successful in 48s
2026-06-10 03:03:34 +03:00
5d4ef9369e reviewer(ET): auto-commit from reviewer run_id=554 2026-06-10 03:03:34 +03:00
a98d605477 feat(fs): legacy root-owned ownership detect + actionable worktree error (ORCH-057)
Follow-up ORCH-040: legacy root:root files in /repos broke worktree creation
under uid 1000 with a raw "Permission denied" (agent never started, no diagnosis).
Three additive, kill-switch-reversible layers; STAGE_TRANSITIONS / QG_CHECKS /
check_* / machine-verdict keys / DB schema are byte-for-byte unchanged.

- D1: ensure_worktree classifies the permission class and raises an actionable
  RuntimeError (cause + chown command + INFRA.md ref); non-permission errors keep
  the prior raw-stderr contract; kill-switch off -> contract 1:1 as before ORCH-057.
- D2: new never-raise leaf src/fs_normalize.py — scan_ownership (TTL-cached,
  early-exit per root), applies()-first scope (empty CSV -> self-hosting only),
  opt-in normalize() that chowns ONLY when privileged (no-op under uid 1000).
- D3: best-effort startup detect in main.lifespan (WARNING + Telegram on mismatch,
  never-fatal); read-only fs_ownership block in GET /queue; POST /fs-normalize/check.
  Claim is NOT blocked — the clear early outcome is delivered by D1 at launch.
- Docs/config: .env.example flags + CHANGELOG (architecture README / adr-0031 /
  INFRA.md procedure already landed on the branch).
- Tests: test_fs_normalize.py, test_git_worktree_perm.py,
  test_fs_normalize_startup.py, test_api_queue.py (TC-01..TC-12). Full suite green.

Refs: ORCH-057
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 03:03:34 +03:00
34778217fe developer(ET): auto-commit from developer run_id=552 2026-06-10 03:03:34 +03:00
6a923f53cb architect(ET): auto-commit from architect run_id=551 2026-06-10 03:03:34 +03:00
e7868e3fc9 architect(ET): auto-commit from architect run_id=550 2026-06-10 03:03:34 +03:00
a0659de4d2 analyst(ET): auto-commit from analyst run_id=548 2026-06-10 03:03:34 +03:00
3364436a2e docs: init ORCH-057 business request 2026-06-10 03:03:34 +03:00
7125c03d16 Merge pull request 'docs(ORCH-057): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)' (#114) from docs/ORCH-057-staging-log into main 2026-06-10 03:03:08 +03:00
78c3fe100f docs(ORCH-057): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)
All checks were successful
CI / test (pull_request) Successful in 48s
Staging suite exit 0; all REAL checks green, C9a/C9b INFRA-WAIVED (ORCH-061).

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 03:02:56 +03:00
cd664b0382 Merge pull request 'feat(metrics): lightweight read-only GET /metrics raw-signal endpoint (ORCH-099)' (#111) from feature/ORCH-099-fnd-f1a-metrics-agent-liveness into main
Some checks failed
CI / test (push) Has been cancelled
2026-06-10 02:14:40 +03:00
deploy-finalizer
999615f8cd deploy(ORCH-036): finalize SUCCESS for ORCH-099
All checks were successful
CI / test (push) Successful in 45s
2026-06-10 02:14:39 +03:00
fda1bea9b8 tester(ET): auto-commit from tester run_id=546
All checks were successful
CI / test (push) Successful in 46s
CI / test (pull_request) Successful in 51s
2026-06-10 02:09:19 +03:00
4840f3f411 reviewer(ET): auto-commit from reviewer run_id=545 2026-06-10 02:09:19 +03:00
d8793c9698 feat(metrics): lightweight read-only GET /metrics raw-signal endpoint (ORCH-099)
FND/F1a: add a versioned read-only JSON endpoint GET /metrics that exposes the
orchestrator's own raw state for the future observability sidecar F1b — active
task stages, job queue, agent-liveness (pid/runtime/cpu_ticks), and cost/tokens.
The orchestrator emits ONLY raw signal it alone knows; thresholds/alerts/history
live in the separate sidecar (observer separated from observed, BRD §1).

- src/metrics.py: new leaf collector build_metrics() (never-raise per section,
  serial_gate.snapshot() pattern); envelope schema_version/generated_at/clk_tck +
  stages/queue/agents/cost. _read_cpu_ticks(pid) reads utime+stime from
  /proc/<pid>/stat (null on None/dead/non-Linux pid — never raises).
- src/main.py: thin @app.get("/metrics") wrapper (style of GET /queue).
- src/db.py: read-only helpers get_running_agents() (dedicated SELECT, not an
  extension of the hot-path get_running_jobs()), agent_cost_totals(),
  queue_retry_stats(); job_status_counts() default dict gains the cancelled key.
- src/config.py: metrics_endpoint_enabled kill-switch (default True), env
  ORCH_METRICS_ENABLED via explicit validation_alias so the documented switch
  actually controls the flag.
- docs: README API table row + CHANGELOG entry (contract section already added
  by architect); .env.example ORCH_METRICS_ENABLED.

Strictly read-only / never-raise: STAGE_TRANSITIONS / QG_CHECKS / check_* /
machine-verdict keys / DB schema untouched; /health//status//queue byte-for-byte.
Tests: tests/test_metrics.py (TC-01..TC-11) + env-alias tests in test_config.py.
Full suite green (1482).

Refs: ORCH-099
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-10 02:09:19 +03:00
8988dca14d architect(ET): auto-commit from architect run_id=542 2026-06-10 02:09:19 +03:00
aa724885d1 analyst(ET): auto-commit from analyst run_id=541 2026-06-10 02:09:19 +03:00
da6e1bb9f1 docs: init ORCH-099 business request 2026-06-10 02:09:19 +03:00
6ea732bbb4 Merge pull request 'docs(ORCH-099): staging gate log — SUCCESS' (#112) from docs/ORCH-099-staging-log into main 2026-06-10 02:08:53 +03:00
5632a047d5 docs(ORCH-099): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)
All checks were successful
CI / test (pull_request) Successful in 45s
2026-06-10 02:08:40 +03:00
567c27e1d9 Merge pull request 'feat(coverage): deterministic test-coverage gate (ORCH-027)' (#109) from feature/ORCH-027-code-coverage into main
Some checks failed
CI / test (push) Has been cancelled
2026-06-10 01:30:54 +03:00
deploy-finalizer
dffd151434 deploy(ORCH-036): finalize SUCCESS for ORCH-027
All checks were successful
CI / test (push) Successful in 43s
CI / test (pull_request) Successful in 43s
2026-06-10 01:30:51 +03:00
137 changed files with 13192 additions and 17 deletions

View File

@@ -139,6 +139,18 @@ ORCH_SERIAL_GATE_FREEZE_ENABLED=true
# for enduro too).
ORCH_STOP_STATUS_ENABLED=true
ORCH_STOP_STATUS_REPOS=
# ORCH-019: bug-fast-track — a cheaper/shorter pipeline route for bug-fix tasks.
# A task carrying the Plane `Bug` label skips the whole `architecture` stage; EVERY
# Quality Gate / sub-gate runs UNCHANGED (route is a scheduler property, not a gate).
# Additive, never-raise, fail-safe -> full cycle. Infra precondition: create a `Bug`
# label on the ORCH board (its absence = full cycle, fail-safe). Leaf src/bug_fast_track.py.
# BUG_FAST_TRACK_ENABLED=false -> start_pipeline AND advance_stage are 1:1 as before
# ORCH-019 (zero regression).
# BUG_FAST_TRACK_LABEL -> Plane label that activates the track (default `Bug`).
# BUG_FAST_TRACK_REPOS (CSV) -> scope; EMPTY = self-hosting only (orchestrator).
ORCH_BUG_FAST_TRACK_ENABLED=true
ORCH_BUG_FAST_TRACK_LABEL=Bug
ORCH_BUG_FAST_TRACK_REPOS=
# ORCH-094: terminal-window-aware guard for the three deploy-phase Plane status
# setters (set_issue_awaiting_deploy / set_issue_deploying / set_issue_monitoring).
# A DB stage=done task converges to Done idempotently instead of flapping
@@ -394,6 +406,35 @@ ORCH_COVERAGE_EPSILON=0.5
ORCH_COVERAGE_TOOL_FAIL_CLOSED=false
ORCH_COVERAGE_RUN_TIMEOUT_S=900
# ORCH-057 (follow-up ORCH-040): legacy root-owned ownership detect + actionable
# worktree error. After the uid migration (user: "1000:1000") legacy root:root files
# in /repos broke worktree creation under uid 1000 with a raw "Permission denied".
# Three additive, kill-switch-reversible layers: an actionable RuntimeError in
# ensure_worktree, a cheap never-raise detect leaf (src/fs_normalize.py) with a
# startup WARNING/Telegram + GET /queue fs_ownership block, and an opt-in chown ONLY
# when privileged (under uid 1000 a no-op; the real fix is the operator procedure in
# docs/operations/INFRA.md «Миграция uid»). No STAGE_TRANSITIONS / QG_CHECKS / schema
# change.
# ENABLED -> kill-switch; false -> all code inert, behaviour 1:1 as before
# ORCH-057 (the actionable error too).
# REPOS -> CSV of repos the layer is REAL for; empty -> self-hosting only.
# TARGET_UID -> target uid fallback when os.getuid() is unavailable.
# NORMALIZE_AUTO -> detect-only (false) | attempt chown when privileged (true).
# SCAN_ROOTS -> CSV override of the scan roots (empty -> default roots).
# SCAN_CACHE_TTL_S -> TTL of the detect cache (mirrors ORCH_PREFLIGHT_CACHE_TTL).
ORCH_FS_NORMALIZE_ENABLED=true
ORCH_FS_NORMALIZE_REPOS=
ORCH_FS_TARGET_UID=1000
ORCH_FS_NORMALIZE_AUTO=false
ORCH_FS_SCAN_ROOTS=
ORCH_FS_SCAN_CACHE_TTL_S=300
# ORCH-099 (FND/F1a): operator off-switch for the read-only GET /metrics endpoint
# (raw-signal snapshot for the F1b sidecar). Default true -> available out of the
# box. false -> /metrics returns a minimal parsable body {"schema_version":1,
# "enabled":false} (200, not 404). The endpoint is inert / read-only anyway.
ORCH_METRICS_ENABLED=true
# ORCH-021: post-deploy production monitoring + degradation reaction. After the
# terminal deploy->done transition for an applicable repo, a reserved-agent job
# `post-deploy-monitor` (no LLM, modelled on deploy-finalizer) probes prod over a
@@ -424,3 +465,48 @@ ORCH_POST_DEPLOY_BASE_URL=http://localhost:8500
# DB title TEXT is unbounded). Default 200. An invalid/empty value gracefully
# degrades to 200 (the process never crashes on startup).
ORCH_QG0_TITLE_MAX=200
# ── ORCH-100 (FND/F1b): sidecar-watchdog (orchestrator-watchdog container) ─────
# The monitoring brain runs in a SEPARATE container with its OWN config. These
# keys are read by the watchdog package (watchdog/config.py), NOT by the
# orchestrator. At runtime they live in `.env.watchdog` (env_file of the
# orchestrator-watchdog service); this block is the canon. NO real secrets here.
# ENABLED -> kill-switch; false (or not starting the service) -> inert.
# INTERVAL_S -> seconds between ticks.
# HTTP_TIMEOUT_S -> per-request timeout (metrics / pings / docker / telegram).
# COOLDOWN_S -> re-alert throttle for a sustained signal (anti-spam).
# METRICS_URL -> orchestrator /metrics (host-network -> 127.0.0.1:8500).
# ORCH_DOWN_TICKS-> K consecutive /metrics failures before "орк не отвечает".
# MEM_PCT -> host memory used-% threshold.
# DISK_CRIT_* -> OPT-IN independent disk CEILING (disk_watchdog/ORCH-063 owns
# the 85% alert; this is a higher ceiling on the sidecar's own
# channel, OFF by default -> no double disk-alert, AC-5/D6).
# DISK_PATHS -> host paths measured for the opt-in ceiling.
# AGENT_HUNG_MIN -> runtime minutes before an agent with ~0 CPU is "hung".
# AGENT_CPU_FLOOR-> CPU fraction below which a long-running agent counts as hung.
# STAGE_STUCK_MIN-> minutes a task may sit in one stage before alerting.
# QUEUE_DEPTH -> queued-job depth threshold.
# CONTAINERS -> CSV of container names to watch (status != running/healthy).
# DOCKER_SOCK -> path to the read-only docker.sock inside the container.
# DEPS -> CSV of name=url dependency pings (empty -> no pings).
# TG_BOT_TOKEN / TG_CHAT_ID -> the sidecar's OWN Telegram bot/chat (independent
# of the orchestrator's; absent -> logs, does not send).
WATCHDOG_ENABLED=true
WATCHDOG_INTERVAL_S=30
WATCHDOG_HTTP_TIMEOUT_S=5
WATCHDOG_COOLDOWN_S=1800
WATCHDOG_METRICS_URL=http://127.0.0.1:8500/metrics
WATCHDOG_ORCH_DOWN_TICKS=3
WATCHDOG_MEM_PCT=90
WATCHDOG_DISK_CRIT_ENABLED=false
WATCHDOG_DISK_CRIT_PCT=97
WATCHDOG_DISK_PATHS=/repos,/app/data
WATCHDOG_AGENT_HUNG_MIN=20
WATCHDOG_AGENT_CPU_FLOOR=0.01
WATCHDOG_STAGE_STUCK_MIN=120
WATCHDOG_QUEUE_DEPTH=20
WATCHDOG_CONTAINERS=orchestrator
WATCHDOG_DOCKER_SOCK=/var/run/docker.sock
WATCHDOG_DEPS=
WATCHDOG_TG_BOT_TOKEN=
WATCHDOG_TG_CHAT_ID=

View File

@@ -29,6 +29,17 @@ FastAPI + SQLite, конвейер стадий через Quality Gates, аге
Стандарт структуры документов — `docs/_standards/PIPELINE_DOCS.md`; копируй скелеты из
`docs/_templates/` (`01-brd.md`, `02-trz.md`, `03-acceptance-criteria.md`, `04-test-plan.yaml`).
**Багфикс-трек (ORCH-019).** Если задача помечена меткой Plane `Bug` (укороченный маршрут —
пропуск стадии `architecture`), выпускай **облегчённый** пакет, но **всё равно все 4 файла**
(гейт `check_analysis_complete` требует `01/02/03/04` — не меняется): `01-brd.md` = короткий
bug-report (симптом / шаги воспроизведения / локализация / причина), `02-trz.md` +
`03-acceptance-criteria.md` = краткие bug-shaped заглушки, `04-test-plan.yaml` = план
**обязательного регресс-теста** (красный до фикса, зелёный после). Экономия — в пропуске целой
стадии `architecture` (отдельный прогон архитектора + ADR), не в числе файлов. Если баг оказался
**сложным/архитектурным/визуальным** (нужен ADR или макет) — выпусти **полный** analysis-пакет и
помечай в bug-report `escalate: full-cycle` (эскалация в полный цикл, ADR-001 D5 ORCH-019); оператор
снимает багфикс-трек эндпоинтом `POST /bug-fast-track/escalate`.
</task>
<deliverables>

View File

@@ -42,6 +42,11 @@ tools:
(слом критического инварианта конвейера может быть P0). Это усиление оси, а не отдельная ось.
3. **Качество кода** — нет явных ошибок/утечек/security-дыр? Есть docstrings на публичных функциях?
Тесты содержательные (не тривиальные)?
- **Багфикс-трек: регресс-тест (ORCH-019, BR-4).** Если задача — багфикс (метка `Bug` /
укороченный маршрут с пропуском `architecture`), исправление кода **обязано** нести
новый/изменённый тест-фиксатор дефекта (красный до фикса, зелёный после). Фикс кода без
теста-фиксатора → **finding ≥ P1 / REQUEST_CHANGES**. Это усиление оси «качество», а не
отдельная ось (структурно дублируется coverage-гейтом ORCH-027).
4. **Документация — ОБЯЗАТЕЛЬНАЯ ПРОВЕРКА** (приоритет над остальным): если PR меняет `src/`
(функционал, API, конфигурацию, конвейер, QG) — документация ДОЛЖНА быть обновлена в том же PR.
Проверь: API → `docs/architecture/README.md` (таблица API)? стадии/QG →

View File

@@ -1,4 +1,4 @@
Work item: ORCH-093
Work item: ORCH-100
Repo: orchestrator
Branch: feature/ORCH-093-bug-merge-gitea-405-5xx-hold-p
Branch: feature/ORCH-100-fnd-f1b-sidecar-watchdog
Stage: development

View File

@@ -3,6 +3,45 @@
Формат: [Keep a Changelog](https://keepachangelog.com/). Записи — на смысловой PR/задачу.
## [Unreleased]
- **Машинный журнал уроков `lessons`** (ORCH-098, `feat`): шаг 1 («Фундамент», F2) эпика саморазвития — формализует свободнотекстовые «уроки» из `memory/` в **машинную структурированную таблицу отклонений конвейера** `lessons`, фундамент для будущих ретроспективщика (E2), приоритизатора RICE (E3) и Стрим. Чистый **observer-leaf** `src/lessons.py` (never-raise, kill-switch, паттерн `serial_gate`/`coverage_gate`/`metrics`): `record()`/`get()`/`update()`/`snapshot()`. **Инвариант:** журнал — наблюдатель, **не** Quality Gate — `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict/схемы существующих таблиц байт-в-байт не тронуты; enduro не затронут. ADR: `docs/work-items/ORCH-098/06-adr/ADR-001-lessons-journal.md`, сквозной `docs/architecture/adr/adr-0034-lessons-journal.md`.
- **Таблица (D1, FR-1):** аддитивная идемпотентная `lessons` (`CREATE TABLE IF NOT EXISTS` в `db.init_db()` + три индекса, restart-safe) — контекст (`work_item_id`/`task_id`/`stage`/`agent`/`repo`), анализ (`root_cause`/`suggestion`), статус (`status`/`related_task`), **колонки атрибуции — сразу и нуллабельно** (`attribution`/`target_repo`/`target_domain`, требование Славы 10.06 / NFR-6, заполняется позже через update; `_ensure_column` форвард-safe на старой таблице) + `source`/`detail`; без `enum`-констрейнтов (слаги forward-compatible). Хелперы `db.record_lesson`/`get_lessons`/`update_lesson`/`lessons_snapshot`/`lessons_recent_dup_exists`.
- **НЕ скоупится по репо (D2):** журнал observer-only → единственный регулятор — глобальный kill-switch `lessons_enabled` (env `ORCH_LESSONS_ENABLED`, дефолт `True`); **`lessons_repos` НЕ вводится**. Recorder пишет уроки про **любой** репо (включая enduro-trails); репо-разрез — на **выборке** (`get(repo=…)`).
- **Автозапись 4 типов (D3, FR-3):** тонкие best-effort врезки (`source="auto"`, never-raise, дедуп) — `gate_failure` (`stage_engine._handle_qg_failure_rollbacks`, откат на `development`), `merge_hold` (`stage_engine._handle_merge_verify` HOLD), `transient_retry` (`launcher._finalize_transient` на исчерпании бюджета ретраев), `deploy_degraded` (post-deploy `DEGRADED → set_repo_freeze`, урок слоя-3 «деплой OK / прод сломан» ET-8).
- **Дедуп (D4):** для `auto` — один indexed-SELECT по `idx_lessons_wi_type`: дубль `(work_item_id, lesson_type, stage)` в окне `lessons_dedup_window_s` (env, дефолт 3600с) → no-op; `manual` не дедупится.
- **Эндпоинты (D5, FR-4/5):** `GET /lessons` (read-only, фильтры `type`/`status`/`repo`/`work_item`/`limit`), `POST /lessons` (ручная запись), `POST /lessons/{id}` (доклассификация/update); read-only ключ `lessons` в `GET /queue`. Выключенный флаг → `{"enabled": false}`.
- **Регресс:** kill-switch `lessons_enabled=False` → полная инертность (no-op без обращения к БД); never-raise на всех публичных функциях/врезках — сбой журнала не роняет конвейер; аддитивно (новая таблица + leaf + эндпоинты + тонкие врезки). Флаги `config.py`: `lessons_enabled`/`lessons_query_limit_default`/`lessons_dedup_window_s`. Тесты `tests/test_lessons.py` (TC-01…TC-12, unit+integration).
- **FND/F1b: sidecar-watchdog — мозг мониторинга в отдельном контейнере** (ORCH-100, `feat`): новая папка `watchdog/` (тонкий **Python-3.12-stdlib-only** демон) + сервис `orchestrator-watchdog` в `docker-compose.yml` (`network_mode: host`, read-only `docker.sock`, `mem_limit: 128m`). Вторая половина пары наблюдаемости домена 0: F1a (ORCH-099) отдаёт `GET /metrics` (сырьё), F1b — **мозг**, который это сырьё читает, дополняет внешними сигналами (хост/контейнеры/зависимости) и превращает в **алерты** через **собственный** независимый Telegram-канал. **`src/**` НЕ изменён** — F1b потребитель `/metrics`; `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/схема БД орка — байт-в-байт. Аддитивно, под kill-switch `WATCHDOG_ENABLED`, строго read-only к наблюдаемому (self-hosting-безопасно). ADR: `docs/work-items/ORCH-100/06-adr/ADR-001-sidecar-watchdog.md`, сквозной `docs/architecture/adr/adr-0033-sidecar-watchdog.md`.
- **fix(test): изоляция `settings.runs_dir` в conftest** — устранена амбиентная prod-зависимость, валившая `test_queue.py::TestRetry::test_finalize_job_requeue_then_fail` в self-hosting-окружении (TC-14 «full tests/ regression green»). `launcher._finalize_job` классифицирует падение по хвосту `<settings.runs_dir>/<run_id>.log`; `runs_dir` по умолчанию = живой prod-каталог `/app/data/runs`, где на хосте накоплены РЕАЛЬНЫЕ логи агентов (`2.log` содержит `429` → 'transient'), поэтому тест с литеральным `run_id=2` читал чужой prod-лог и получал requeue вместо `failed`. Новый autouse-фикстур `_isolate_runs_dir` в `tests/conftest.py` (по образцу `_no_telegram`/`_disable_merge_verify`) перенаправляет `runs_dir` в пер-тестовый tmp → `_run_log_path()` указывает на несуществующий файл → `classify_log_file()` отдаёт документированный дефолт 'permanent'. Детерминизм всей сюты восстановлен (1617 passed); `src/**` не тронут.
- **Стек (D1):** Python 3.12 stdlib-only на `python:3.12-slim``urllib` (HTTP `/metrics` + пинги + Telegram POST), сырой HTTP-over-unix-socket для read-only `docker.sock` (БЕЗ pip-пакета `docker`), `shutil.disk_usage`/`/proc/meminfo` для хоста. Нет дерева зависимостей (тонкость, C-3). Отдельный образ `watchdog/Dockerfile` (build-контекст = корень репо; `src/**` НЕ копируется — изоляция C-1).
- **Топология (D2):** сервис собирается из `watchdog/Dockerfile`, `restart: unless-stopped` (самовосстановление), `network_mode: host``/metrics` достижим как `http://127.0.0.1:8500/metrics`; `docker.sock` смонтирован `:ro` И код GET-only (двойная гарантия read-only); хост-пути bind-mount `:ro`; `mem_limit: 128m`+`mem_reservation: 32m`. `env_file` опционален (`required: false`) → отсутствие `.env.watchdog` НЕ ломает `docker compose up` прод-орка. Деплой watchdog поднимает ТОЛЬКО его — прод `orchestrator` не пересобирается/не рестартится.
- **Обобщённая чистая решающая функция (D4):** `watchdog/decision.py::decide(signal_active, prev, now, cooldown_s) -> alert|realert|recovery|none` — строгая генерализация `disk_watchdog.decide_action` (булев `signal_active` вместо `used_pct >= threshold`), per-signal in-memory `AlertState` (анти-спам/recovery, рестарт сбрасывает → корректный повторный алерт стоящей проблемы).
- **Реестр сигналов (D5):** `orch_down` (K=3 подряд неудачных `/metrics` — debounce, не флаппит на одиночной икоте), `host_mem` (≥90%), `host_disk_crit` (opt-in потолок 97%, default off — D6), `agent_hung` (per run_id, два опроса: `runtime > N` И доля CPU `< floor`), `stage_stuck` (per work_item), `job_failed` (edge, рост счётчика), `queue_depth` (≥20), `container_down` (per name, статус ∉ {running,healthy}), `dep_down` (per name, пинг Plane/Gitea/Anthropic). Все пороги/интервалы/URL/токены — из env (`WATCHDOG_*`, канон в `.env.example`).
- **Анти-дубль диск-алерта (D6, AC-5):** штатные 85% остаются ЕДИНСТВЕННО за `disk_watchdog` (ORCH-063) → **нулевой дубль по построению**; вклад sidecar — `orch_down` (когда орк лёг, in-process стражи мертвы) + **opt-in** независимый потолок `host_disk_crit` (97%, default off) как резерв канала. Один владелец на порог.
- **Независимый транспорт (D7):** `watchdog/notify.py` читает **свои** `WATCHDOG_TG_BOT_TOKEN`/`WATCHDOG_TG_CHAT_ID`, **запрещён** импорт `src/notifications.py`/токена орка (падение орка не утянет алерт-канал). Отсутствие токена → fail-safe (логирует, не шлёт, не падает).
- **never-raise + kill-switch (D8):** три уровня (per-source: битый коллектор деградирует один сигнал; per-tick: внешний try/except цикла; per-send: обёрнутая отправка). `WATCHDOG_ENABLED=false` → демон инертен (idle-loop с логом, НЕ exit — чтобы restart-policy не крутил петлю). Толерантность к версии `/metrics` (D9): неизвестные поля игнорируются, рост `schema_version` логируется (warning) без крэша.
- Тесты: `tests/watchdog/test_*.py` (TC-01…TC-13: решение/orch-down/never-raise/kill-switch/full-tick/docker-readonly/notify-isolation/metrics-parse/compose/disk-dedup + коллекторы host/deps) + полный регресс `tests/ -q` зелёный (TC-14, `src/**` не тронут). **Инфра-предусловие** (07): добавить сервис в compose, создать bot/chat watchdog + `.env.watchdog`, первый запуск на хосте. Откат: не запускать сервис / `WATCHDOG_ENABLED=false`.
- **Багфикс-трек: упрощённый/дешёвый маршрут конвейера для багов** (ORCH-019, `feat`): задача с меткой Plane `Bug` идёт **укороченным маршрутом** — пропускается стадия `architecture` (отдельный прогон opus-агента `architect` + ADR + exit-гейт `check_architecture_done`), тяжёлая аналитика заменяется облегчённым пакетом (короткий bug-report + обязательный план регресс-теста). **Все Quality Gate'ы исполняются без изменений** (корневой инвариант NFR-1): `STAGE_TRANSITIONS` / реестр `QG_CHECKS` / сигнатуры `check_*` / machine-verdict ключи (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`/`coverage_status:`) — байт-в-байт прежние; маршрутизация багфикса — свойство планировщика, **не** гейт. Аддитивно, под kill-switch, с областью репо, never-raise, fail-safe → полный цикл. ADR: `docs/work-items/ORCH-019/06-adr/ADR-001-bug-fast-track.md`, сквозной `docs/architecture/adr/adr-0032-bug-fast-track.md`.
- **Классификация (D1, FR-1):** новый leaf `src/bug_fast_track.py` (never-raise, паттерн `labels`/`serial_gate`). `bug_fast_track_applies(repo)` (локально, без сети) проверяется ПЕРВЫМ → выключенный флаг = нулевой сетевой оверхед; `is_bug_task(work_item_id, project_id)` делегирует в проверенный `labels.has_label` (ORCH-089: `fetch_issue_labels`+`get_project_labels`, нормализация, TTL-кэш). **Источник истины — Plane API**, не payload вебхука. Чтение метки — только в `start_pipeline`, **никогда** в горячем `claim_next_job` (NFR-4).
- **Хранение типа (D2):** аддитивная идемпотентная колонка `tasks.track TEXT DEFAULT 'full'` (`_ensure_column`, паттерн `tasks.cancelled_at` ORCH-090); значения `'full'` (дефолт, ВСЕ существующие и не-баг задачи) | `'bug'`. Хелперы `db.set_task_track`/`db.get_task_track` (отсутствие/NULL → `'full'`, fail-safe). Сигнатура `create_task_atomic` не меняется.
- **Routing-override (D3, FR-2):** врезка в `advance_stage` на ребре выхода из `analysis`: при `track='bug'` (через чистый предикат `bug_fast_track.skips_architecture`) `next_stage``development`, `next_agent``developer` (минуя `architect`). `get_next_stage`/`get_agent_for_stage`/`STAGE_TRANSITIONS` — чистые, 1:1; тип читается из БД (без сети, NFR-4). Для не-баг задач (`track='full'`) маршрут байт-в-байт прежний. Сопутствующе: стамп `mark_brd_review_ended` расширен на `analysis → development` (честная метрика ORCH-087 на багфикс-треке).
- **Гейт `analysis` не тронут (D4, FR-6):** `check_analysis_complete`/`check_analysis_approved` байт-в-байт прежние; багфикс-аналитик всё равно эмитит все 4 файла (облегчённые) — сильнейшая позиция NFR-1 (нулевая поверхность правок гейта).
- **Эскалация (D5, FR-5):** админ-эндпоинт `POST /bug-fast-track/escalate?work_item=<id>` (по образцу `POST /serial-gate/unfreeze`) сбрасывает `track` `'bug'→'full'` → следующий переход уходит в `architecture` (полный цикл). Плюс решение мини-аналитика «баг сложный → полный пакет + `escalate: full-cycle`».
- **Область / флаги (D6):** `bug_fast_track_enabled` (kill-switch, env `ORCH_BUG_FAST_TRACK_ENABLED`), `bug_fast_track_label` (дефолт `Bug`), `bug_fast_track_repos` (CSV; **пусто → self-hosting only** — enduro подключается явным CSV). `False` → старт и маршрут 1:1 как до ORCH-019 (нулевая регрессия, AC-6).
- **Наблюдаемость (D7, FR-7):** аддитивный read-only блок `bug_fast_track` в `GET /queue` (флаг/метка/область + счётчик багфикс-задач + метрика сэкономленных стадий `architecture`); лог-строка на решение о маршруте; отметка `🐞` в Telegram-карточке (never-raise). Композиция (D8, AC-9): багфикс-задача — обычная задача репо для serial-gate (ORCH-088, не обходит его); `autoApprove`/`autoDeploy` (ORCH-089), coverage-gate (ORCH-027, союзник BR-4), merge-gate (ORCH-043) — штатно.
- **Промпты:** `analyst.md` (облегчённый багфикс-пакет + путь эскалации), `reviewer.md` (ось «багфикс без регресс-теста → finding ≥P1 / REQUEST_CHANGES») — канон 52d не нарушен. **Инфра-предусловие:** создать метку `Bug` в Plane-проекте ORCH (её отсутствие = fail-safe полный цикл). Тесты: `tests/test_bug_fast_track*.py` + `tests/test_db_migrations.py` + блок в `tests/test_queue_endpoint.py` (TC-01…TC-15). Полный регресс `tests/ -q` зелёный. Откат: `ORCH_BUG_FAST_TRACK_ENABLED=false` (мгновенный; остаточная колонка `track` безвредна).
- **Детект legacy root-owned файлов + внятная ошибка worktree при миграции на uid 1000** (ORCH-057, follow-up ORCH-040, `feat`): закрыт недоделанный AC ORCH-040 — legacy `root:root` файлы в `/repos` (после перевода контейнеров на `user: "1000:1000"`) ломали создание worktree под uid 1000 (`ensure_worktree` → сырой `fatal: … Permission denied`, агент не стартовал, диагноза не было). Три аддитивных, обратимых kill-switch'ем слоя; **`STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict-ключи / схема БД — байт-в-байт прежние**. ADR: `docs/work-items/ORCH-057/06-adr/ADR-001-legacy-ownership-normalization.md`, сквозной `docs/architecture/adr/adr-0031-legacy-ownership-normalization.md`.
- **D1 — actionable-ошибка `ensure_worktree`:** класс «нет прав» (`Permission denied` / `could not create leading directories` / `insufficient permission for adding an object` / `PermissionError`/`EACCES`/`EPERM`) оборачивается в `RuntimeError` с **причиной** (legacy root-файлы в `/repos/_wt`/`.git` после миграции uid), **лечащей командой** (`chown -R <uid>:<uid> …`) и ссылкой на `INFRA.md` — вместо сырого git stderr. Ошибки, **не** связанные с правами, сохраняют прежний контракт (меняется только формулировка, не факт сбоя; чистый классификатор `fs_normalize.classify_worktree_error`). Под выключенным kill-switch контракт ошибки 1:1 как до ORCH-057.
- **D2 — детект-леаф `src/fs_normalize.py`** (never-raise, паттерн `serial_gate`/`coverage_gate`): `scan_ownership(roots, target_uid=os.getuid())` обходит `/repos/_wt`, `<repo>/.git/{objects,worktrees}`, `data/runs` с ранним выходом при первом `st_uid != target_uid`, TTL-кэшем (`fs_scan_cache_ttl_s`, по образцу `preflight._cache`) и `applies(repo)` first (пустой CSV → self-hosting only → enduro-trails не сканируется). Опц. `normalize()` chown'ит **только** при `geteuid()==0` (под uid 1000 — no-op + честный лог «нужна операторская процедура», НЕ ошибка).
- **D3 — наблюдаемость, БЕЗ блокировки claim:** best-effort вызов `scan_ownership()` на старте `main.lifespan` (рядом с lease-reclaim/log-rotation, never-fatal) → WARNING + Telegram при mismatch; read-only блок `fs_ownership` в `GET /queue`; опц. ручной `POST /fs-normalize/check`. Claim **не** блокируется (preflight repo-слеп → регресс enduro; queue_worker — дорогой FS-обход в hot-path + молчаливое зависание); внятный ранний отказ даёт D1 в точке launch.
- **Процедура (D5):** обязательная операторская нормализация под root на хосте — в `docs/operations/INFRA.md` (раздел «Миграция uid: обязательная нормализация legacy root-файлов», все корни: `_wt`, оба `.git`, `data/runs`); фактический `chown` остаётся ручным шагом (контейнер без root его сделать не может) — задача гарантирует **внятность** отказа, а не его отсутствие.
- **Флаги** (`src/config.py`, аддитивно): `ORCH_FS_NORMALIZE_ENABLED` (kill-switch), `ORCH_FS_NORMALIZE_REPOS` (CSV; пусто → self-hosting only), `ORCH_FS_TARGET_UID` (1000), `ORCH_FS_NORMALIZE_AUTO` (детект-only), `ORCH_FS_SCAN_ROOTS`, `ORCH_FS_SCAN_CACHE_TTL_S`. Тесты: `tests/test_fs_normalize.py`, `tests/test_git_worktree_perm.py`, `tests/test_fs_normalize_startup.py`, `tests/test_api_queue.py` (TC-01…TC-12).
- **Лёгкий read-only `GET /metrics` — машинное «сырьё» о самом орке для sidecar F1b** (ORCH-099, FND/F1a, `feat`): добавлен версионируемый JSON-эндпоинт `GET /metrics`, отдающий снимок внутреннего состояния орка для будущего отдельного sidecar-наблюдателя F1b (`watchdog/`) — наблюдатель отделён от наблюдаемого (BRD §1): орк отдаёт ТОЛЬКО факты, которые знает лишь он сам; пороги/алерты/история/Telegram — на стороне F1b. **Аддитивно, строго read-only, never-raise:** `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict ключи / схема БД — **не тронуты**; `/health`/`/status`/`/queue` — байт-в-байт прежние. ADR: `docs/work-items/ORCH-099/06-adr/ADR-001-metrics-endpoint.md`, сквозной `docs/architecture/adr/adr-0030-metrics-endpoint.md`.
- **Leaf-сборщик + тонкий эндпоинт (D1):** новый `src/metrics.py` (`build_metrics() -> dict`, never-raise по разделам, паттерн `serial_gate.snapshot()`) собирает конверт по-раздельно (каждый раздел в своём `try/except` → безопасный дефолт `null`/`[]`/`{}` + WARNING); эндпоинт `@app.get("/metrics")` в `src/main.py` — тонкая обёртка, возвращает результат как есть (стиль `GET /queue`). Тестируемость без ASGI: разделы проверяются прямым вызовом `build_metrics()`.
- **Конверт + контракт `schema_version` (D2):** `schema_version` (стартует с `1`), `generated_at` (UTC ISO-8601, часовой домен орка → дельты CPU иммунны к skew орк↔sidecar, TR-3), `clk_tck` (`os.sysconf("SC_CLK_TCK")`, базис тиков). Политика: аддитивные изменения **НЕ бампят** версию (sidecar обязан игнорировать незнакомые ключи) — бамп только при ломающем (rename/remove/retype).
- **Разделы сырья (D3D7):** `stages` — незавершённые задачи (`stage NOT IN ('done','cancelled')`, ORCH-090) с `work_item`/`stage`/`age_in_stage_s`/`repo` (источник `db.get_active_tasks_for_reconcile()` + фильтр терминалов на потребителе, helper-инвариант ORCH-053/086 не тронут). `queue``db.job_status_counts()` (+`cancelled`-ключ дефолтом), глубина, сырьё ретраев (`db.queue_retry_stats()`: attempts/transient/в-backoff), `worker.breaker.snapshot()`, `max_concurrency`. `agents` (liveness) — по running-job (новый read-only `db.get_running_agents()`, dedicated SELECT, НЕ расширение hot-path `get_running_jobs()`): `agent`/`run_id`/`job_id`/`pid`/`runtime_s` (= `running_age_s` от `jobs.started_at`, D6)/`model`/`effort` + **CPU-сырьё** `cpu_ticks` (utime+stime из `/proc/<pid>/stat`, поля 14+15; орк дельту не считает — stateless, арбитр sidecar). `cost``running` (по running-job, `null` до завершения = честное сырьё) + `aggregate` (новый `db.agent_cost_totals()`, `COALESCE(SUM(...),0)` по `agent_runs`).
- **Never-raise сырьё для liveness (FR-6/NFR-2):** `metrics._read_cpu_ticks(pid)``pid is None` / нет `/proc/<pid>` / мёртвый процесс / не-Linux → `cpu_ticks: null` у этого агента, прочие поля и весь эндпоинт целы (НЕ raise). Недоступный `worker``breaker: null`/`max_concurrency: null`, не 500. Пустые таблицы → `stages=[]`/`agents=[]`/`cost.aggregate=нули`.
- **Kill-switch (D8):** `src/config.py` `metrics_endpoint_enabled: bool = True` (env `ORCH_METRICS_ENABLED` через явный `validation_alias` — документированное имя контракта реально управляет флагом). `False``200` с минимальным телом `{"schema_version":1,"enabled":false}` (НЕ 404 — контракт остаётся парсимым). Дефолт `True` → нулевая регрессия (эндпоинт доступен из коробки).
- **Контракт задокументирован (AC-7):** формат `/metrics` зафиксирован в `docs/architecture/README.md` (раздел «Сырьё-эндпоинт `/metrics`» + строка в таблице API) как стабильный контракт для F1b. Тесты: `tests/test_metrics.py` (TC-01…TC-11: конверт/4 раздела, исключение терминалов, queue-поля, liveness-сырьё + cpu_ticks на живом pid, never-raise на `pid=None`/мёртвом pid/бросающем источнике/недоступном breaker, cost-агрегат + пустая таблица, эндпоинт через handler, read-only снимок БД до/после, аддитивность `/health`//status//queue, пустое состояние, kill-switch). Полный регресс `tests/ -q` зелёный (1480 → +14). Откат: `ORCH_METRICS_ENABLED=false` (мгновенный) или удаление модуля/эндпоинта/helper'ов (без следов в БД/схеме).
- **Детерминированный гейт покрытия тестами — защита от тихой деградации coverage перед merge в `main`** (ORCH-027, `feat`): существующие тестовые гейты (`check_ci_green`, `check_tests_passed`, merge-gate re-test) судят только по **факту** прохождения, не по **полноте** — ни один не замечает «300 строк кода, 0 тестов», и при пакетном автономном прогоне (ORCH-088) покрытие монотонно деградирует. Введён детерминированный (без LLM) под-гейт ребра `deploy-staging → deploy` по образцу security-гейта (ORCH-022): leaf `src/coverage_gate.py` (never-raise) + тонкая обёртка `check_coverage_gate` в `QG_CHECKS` + врезка `_handle_coverage_gate` в `advance_stage`. **Аддитивно:** `STAGE_TRANSITIONS` / семантика существующих `check_*` / machine-verdict ключи (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`) — байт-в-байт прежние; новая БД-таблица аддитивна (NFR-5/AC-8). См. `docs/work-items/ORCH-027/06-adr/ADR-001-coverage-gate.md`, сквозной `docs/architecture/adr/adr-0029-coverage-gate.md`.
- **Точка/порядок (D1, AC-2):** под-гейт исполняется **ПОСЛЕ merge-gate** (покрытие меряется на догнанном `auto_rebase_onto_main` HEAD — ровно том коде, что landed в `main`) и **ДО image-freshness** (фейл до дорогого docker-rebuild). FAIL → штатный откат на `development` (+ инкремент developer-retry, cap `MAX_DEVELOPER_RETRIES`) **и освобождение merge-lease** (merge-gate держал его на своём PASS — зеркало image-freshness rollback, TR-2). `STAGE_TRANSITIONS` не меняется (под-гейт, как security/merge/image-freshness).
- **Измерение (D2, FR-1/AC-1):** `python -m pytest tests/ --cov=src --cov-report=json` в изолированном per-branch worktree (`ensure_worktree`, прецедент `check_tests_local`); метрика — `totals.percent_covered` (line coverage `src/`). Измеритель инкапсулирован за `measure_coverage(repo, branch) -> float | None` (стек-расширяемость BR-6: jest/jacoco — новая ветка `measure_*`, без переписывания ядра). Тайм-аут `coverage_run_timeout_s`. Новая pip-зависимость `pytest-cov==5.0.0` (offline на момент замера).

View File

@@ -153,6 +153,43 @@ created → analysis → architecture → development → review → testing →
`docs/work-items/ORCH-090/06-adr/ADR-001-stop-cancel-task.md`,
`docs/architecture/adr/adr-0026-stop-cancel-task.md`.
## Багфикс-трек: дешёвый маршрут для багов (ORCH-019)
Задача с меткой Plane `Bug` идёт **укороченным маршрутом** — пропускается стадия `architecture`
(отдельный прогон opus-агента `architect` + ADR + exit-гейт `check_architecture_done`); тяжёлая
аналитика заменяется облегчённым пакетом (короткий bug-report + обязательный план регресс-теста,
но всё равно все 4 файла analysis — гейт `check_analysis_complete` не меняется). **Корневой
инвариант (NFR-1):** срезается ТОЛЬКО аналитика/архитектура — **все Quality Gate'ы и под-гейты
исполняются без изменений** (`STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict ключи —
байт-в-байт прежние); маршрутизация багфикса — свойство планировщика, **не** гейт. Аддитивно, под
kill-switch, never-raise, fail-safe → полный цикл.
- **Классификация (D1):** leaf `src/bug_fast_track.py` (never-raise, образец `labels`/`serial_gate`).
`bug_fast_track_applies(repo)` (локально, без сети) ПЕРВЫМ → выключенный флаг = нулевой сетевой
оверхед; `is_bug_task` делегирует в `labels.has_label` (ORCH-089-аппарат, источник истины — Plane
API, не payload). Чтение метки — только в `start_pipeline`, **никогда** в горячем `claim_next_job`
(NFR-4).
- **Хранение типа (D2):** аддитивная идемпотентная колонка `tasks.track TEXT DEFAULT 'full'`
(`_ensure_column`, паттерн `tasks.cancelled_at`); значения `'full'` (дефолт, ВСЕ существующие и
не-баг задачи) | `'bug'`. Хелперы `db.set_task_track`/`get_task_track` (отсутствие/NULL → `'full'`,
fail-safe). Читается в `advance_stage` из БД, не из сети.
- **Routing-override (D3):** врезка в `advance_stage` на ребре выхода из `analysis`: при `track='bug'`
(чистый предикат `bug_fast_track.skips_architecture`) `next_stage``development`, `next_agent`
`developer` (минуя `architect`). `STAGE_TRANSITIONS`/`get_next_stage`/`get_agent_for_stage` — чистые,
1:1. Стамп `mark_brd_review_ended` расширен на `analysis → development` (честная метрика ORCH-087).
- **Эскалация (D5):** `POST /bug-fast-track/escalate?work_item=<id>` сбрасывает `track` `'bug'→'full'`
→ следующий переход уходит в `architecture` (полный цикл). Плюс self-escalate мини-аналитика
(«баг сложный → полный пакет + `escalate: full-cycle`»).
- **Флаги** (`config.py`): `bug_fast_track_enabled` (kill-switch, env `ORCH_BUG_FAST_TRACK_ENABLED`),
`bug_fast_track_label` (дефолт `Bug`), `bug_fast_track_repos` (CSV; **пусто → self-hosting only**).
`False`/неприменимый репо → старт и маршрут байт-в-байт прежние (нулевая регрессия для enduro и
orchestrator). Наблюдаемость — read-only блок `bug_fast_track` в `GET /queue` (флаг/метка/область +
счётчик багфикс-задач + метрика пропущенных стадий `architecture`) + отметка `🐞` в Telegram-карточке
(never-raise). Композиция: багфикс-задача — обычная задача репо для serial-gate (ORCH-088, не
обходит его); `autoApprove`/`autoDeploy` (ORCH-089), coverage-gate (ORCH-027, союзник BR-4),
merge-gate (ORCH-043) — штатно. **Инфра-предусловие:** создать метку **`Bug`** в Plane-проекте ORCH
(её отсутствие = fail-safe полный цикл). Детали —
`docs/work-items/ORCH-019/06-adr/ADR-001-bug-fast-track.md`,
`docs/architecture/adr/adr-0032-bug-fast-track.md`.
## Гейт покрытия тестами (ORCH-027)
Существующие тестовые гейты (`check_ci_green`, `check_tests_passed`, merge-gate re-test) судят
только по **факту** прохождения, не по **полноте** — ни один не замечает «300 строк кода, 0
@@ -198,6 +235,44 @@ created → analysis → architecture → development → review → testing →
`docs/work-items/ORCH-027/06-adr/ADR-001-coverage-gate.md`,
`docs/architecture/adr/adr-0029-coverage-gate.md`.
## Машинный журнал уроков (ORCH-098)
Шаг 1 («Фундамент», F2) эпика саморазвития: формализует свободнотекстовые «уроки» из `memory/` в
**машинную структурированную таблицу отклонений конвейера** `lessons`, фундамент для будущих
ретроспективщика (E2), приоритизатора RICE (E3) и Стрим. Чистый **observer-leaf** `src/lessons.py`
(never-raise, kill-switch, паттерн `serial_gate`/`coverage_gate`/`metrics`): `record()`/`get()`/
`update()`/`snapshot()`. **Инвариант:** журнал — наблюдатель, **не** Quality Gate; запись урока
никогда не влияет на продвижение по стадиям — `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/
machine-verdict/схемы существующих таблиц байт-в-байт не тронуты.
- **Таблица (D1):** аддитивная идемпотентная `lessons` (`CREATE TABLE IF NOT EXISTS` в `init_db()`,
три индекса) — контекст (`work_item_id`/`task_id`/`stage`/`agent`/`repo`), анализ (`root_cause`/
`suggestion`), статус (`status`/`related_task`), **атрибуция сразу и нуллабельно** (`attribution`/
`target_repo`/`target_domain`, требование Славы 10.06 / NFR-6, заполняется позже через update;
`_ensure_column` форвард-safe на старой таблице) + `source`/`detail`. Без `enum`-констрейнтов —
значения суть forward-compatible слаги. Хелперы `db.record_lesson`/`get_lessons`/`update_lesson`/
`lessons_snapshot`/`lessons_recent_dup_exists`.
- **НЕ скоупится по репо (D2):** в отличие от гейт-leaf'ов (`serial_gate`/`coverage_gate` имеют
`*_repos`, т.к. *действуют* на репо), журнал observer-only → единственный регулятор — глобальный
kill-switch `lessons_enabled` (env `ORCH_LESSONS_ENABLED`, дефолт `True`); **`lessons_repos` НЕ
вводится**. Recorder пишет уроки про **любой** репо (включая enduro-trails — урок ценен для петли);
репо-разрез — на **выборке** (`get(repo=…)`). enduro не затронут (общая БД, аддитивная таблица).
- **Автозапись 4 типов (D3):** тонкие best-effort врезки (`source="auto"`, never-raise, дедуп) —
`gate_failure` (`stage_engine._handle_qg_failure_rollbacks`, откат на `development`), `merge_hold`
(`stage_engine._handle_merge_verify` HOLD-ветка), `transient_retry` (`launcher._finalize_transient`
на **исчерпании** бюджета ретраев, а не на каждом backoff), `deploy_degraded` (post-deploy
`DEGRADED → set_repo_freeze`, урок слоя-3 «деплой OK / прод сломан» ET-8 — `attribution="unknown"`,
классифицируется позже).
- **Дедуп (D4):** для `source="auto"` — один indexed-SELECT по `idx_lessons_wi_type`: дубль с тем же
`(work_item_id, lesson_type, stage)` в окне `lessons_dedup_window_s` (env, дефолт 3600с) → no-op.
`source="manual"` дедуп НЕ проходит (оператор/Стрим всегда пишут).
- **Эндпоинты (D5):** `GET /lessons` (read-only, фильтры `type`/`status`/`repo`/`work_item`/`limit`),
`POST /lessons` (ручная запись, `source="manual"`), `POST /lessons/{id}` (доклассификация/update);
read-only ключ `lessons` в `GET /queue`. Выключенный флаг → `{"enabled": false}`.
- **never-raise (NFR-1):** все публичные функции и врезки изолированы (`try/except` → warning +
безопасный дефолт) — сбой журнала не роняет конвейер. Self-hosting-безопасно: только читает/пишет
свою таблицу, не деплоит/не рестартит прод/не трогает `main`/без процессов/сети. Детали —
`docs/work-items/ORCH-098/06-adr/ADR-001-lessons-journal.md`,
`docs/architecture/adr/adr-0034-lessons-journal.md`.
## Конвенции
- Conventional Commits (`feat:`, `fix:`, `docs:`, `refactor:`, `test:`)
- Ветки: `feature/ORCH-NNN-slug`, `fix/ORCH-NNN-slug`

View File

@@ -45,6 +45,7 @@ created → analysis → architecture → development → review → testing →
| GET | `/queue` | Очередь задач (ORCH-1): counts по статусам + max_concurrency + последние 10 jobs |
| POST | `/webhook/plane` | Plane webhook receiver |
| POST | `/webhook/gitea` | Gitea webhook receiver |
| POST | `/bug-fast-track/escalate?work_item=<id>` | Эскалация багфикс-задачи в полный цикл (ORCH-019): сброс `track` `'bug'→'full'` → следующий переход уходит в `architecture` |
## Структура проекта
@@ -140,6 +141,9 @@ uvicorn src.main:app --reload --port 8500
| `ORCH_QG0_TITLE_MAX` | Верхний лимит длины заголовка QG-0 (вход `_qg0_errors`); невалидное/пустое значение → дефолт (ORCH-069) | `200` |
| `ORCH_STOP_STATUS_ENABLED` | Kill-switch отмены задачи по Plane-статусу **STOP** + закрытия дыры релонча (ORCH-090); `false` → поведение 1:1 как до ORCH-090 | `true` |
| `ORCH_STOP_STATUS_REPOS` | CSV область репо для STOP-отмены; пусто = все репо (ORCH-090) | `""` |
| `ORCH_BUG_FAST_TRACK_ENABLED` | Kill-switch багфикс-трека (ORCH-019): задача с меткой Plane `Bug` пропускает стадию `architecture`; `false` → старт и маршрут 1:1 как до ORCH-019 (нулевая регрессия) | `true` |
| `ORCH_BUG_FAST_TRACK_LABEL` | Имя метки Plane, активирующей багфикс-трек (ORCH-019) | `Bug` |
| `ORCH_BUG_FAST_TRACK_REPOS` | CSV область репо для багфикс-трека; **пусто → self-hosting only** (`orchestrator`) — enduro подключается явным CSV (ORCH-019) | `""` |
## Очередь задач (ORCH-1 / F-2b)
@@ -181,6 +185,36 @@ ORCH-090/06-adr/ADR-001-stop-cancel-task.md` + сквозной
> группой `cancelled`. До создания статуса фича в fail-safe (нет UUID → ветка STOP
> не активируется).
## Багфикс-трек: дешёвый маршрут для багов (ORCH-019)
Задача с меткой Plane `Bug` (имя метки — `ORCH_BUG_FAST_TRACK_LABEL`, дефолт `Bug`)
идёт **укороченным маршрутом** конвейера: `analysis(lite) → development → review →
testing → deploy-staging → deploy → done`, т.е. **пропускается стадия `architecture`**
(отдельный прогон opus-агента `architect` + ADR + exit-гейт `check_architecture_done`).
Мини-аналитик выдаёт облегчённый пакет (короткий bug-report + обязательный план
регресс-теста), но всё равно все 4 файла analysis — гейт `check_analysis_complete`
не меняется.
**Корневой инвариант:** упрощается только аналитика/архитектура — **все Quality
Gate'ы и под-гейты исполняются без изменений** (`STAGE_TRANSITIONS` / `QG_CHECKS` /
`check_*` / machine-verdict ключи — байт-в-байт прежние). Маршрутизация багфикса —
свойство планировщика (routing-override в `advance_stage` по `tasks.track='bug'`),
**не** Quality Gate.
Классификация (`src/bug_fast_track.py`, never-raise): локальный `bug_fast_track_applies(repo)`
ПЕРВЫМ (выключенный флаг = нулевой сетевой оверхед), затем `is_bug_task` через
`labels.has_label` (источник истины — Plane API). Тип хранится в аддитивной колонке
`tasks.track` (`'full'` | `'bug'`), читается в горячем пути из БД (не из сети).
**Эскалация** сложного/архитектурного бага в полный цикл — `POST /bug-fast-track/escalate?work_item=<id>`
(сброс `'bug'→'full'`). Всё под kill-switch `ORCH_BUG_FAST_TRACK_ENABLED`, область —
`ORCH_BUG_FAST_TRACK_REPOS` (пусто → self-hosting only), fail-safe → полный цикл.
Наблюдаемость — блок `bug_fast_track` в `GET /queue` + отметка `🐞` в Telegram-карточке.
Деталь — `docs/work-items/ORCH-019/06-adr/ADR-001-bug-fast-track.md` + сквозной
`docs/architecture/adr/adr-0032-bug-fast-track.md`.
> **Инфра-предусловие:** на доске Plane проекта ORCH создать метку **`Bug`**. До её
> создания фича в fail-safe (нет метки → задача идёт полным циклом).
**Resilience-слой:** дешёвый preflight (CLI/net, кэш, без токенов) гейтит claim;
429/overload детектится по логу (transient vs permanent), transient ретраится с
exp-backoff (`available_at`, Retry-After); circuit breaker паузит воркер после N

View File

@@ -38,6 +38,39 @@ services:
group_add:
- "999"
# ORCH-100 (FND/F1b): sidecar-watchdog — the monitoring brain in a SEPARATE
# container (observer separated from observed, ADR-001 D2). Deploying it builds
# ONLY this service — the prod `orchestrator` is NOT rebuilt/restarted.
# * network_mode: host -> /metrics reachable at http://127.0.0.1:8500/metrics
# and host interfaces visible for memory/disk reads.
# * docker.sock mounted :ro AND the code is GET-only (double read-only guard).
# * host disk paths bind-mounted :ro so shutil.disk_usage sees the host FS but
# can never write (opt-in disk ceiling, D6).
# * mem_limit caps the thin stdlib daemon (D2): OOM = early "sidecar grew" signal.
# * WATCHDOG_ENABLED=false (or simply not starting the service) -> inert.
orchestrator-watchdog:
build:
context: .
dockerfile: watchdog/Dockerfile
container_name: orchestrator-watchdog
restart: unless-stopped
init: true
network_mode: host
mem_limit: 128m
mem_reservation: 32m
volumes:
- /var/run/docker.sock:/var/run/docker.sock:ro
- /home/slin/repos:/repos:ro
- ./data:/app/data:ro
# Optional env_file (required: false): a missing .env.watchdog must NOT fail
# `docker compose up` for the prod orchestrator (self-hosting safety). Absent
# file -> WATCHDOG_* defaults, no token -> fail-safe (logs, does not send).
env_file:
- path: .env.watchdog
required: false
group_add:
- "999"
# ORCH-31: staging instance (port 8501, isolated DB).
# Starts ONLY with: docker compose --profile staging up -d orchestrator-staging
# Normal "docker compose up -d" does NOT start this service.

File diff suppressed because one or more lines are too long

View File

@@ -31,11 +31,17 @@ Per-work-item решения живут в `docs/work-items/<id>/06-adr/ADR-NNN-
| adr-0023 | Обзорная ось reviewer + закрытие эпика 52 | accepted | 2026-06-09 | ORCH-079 |
| adr-0024 | Disk-watchdog — heartbeat-сигнал заполнения хост-ФС | proposed | 2026-06-09 | ORCH-063 |
| adr-0025 | Build-cache-pruner — авто-prune docker build cache на хосте | proposed | 2026-06-09 | ORCH-062 |
| adr-0026 | STOP / отмена задачи — системный терминал `cancelled` | proposed | 2026-06-09 | ORCH-090 |
| adr-0027 | Merge-актор — ретрай транзиентных ошибок Gitea + гард «ветка уже в `main`» | proposed | 2026-06-09 | ORCH-093 |
| adr-0028 | Terminal-window-aware гард deploy-фазовых статусов Plane | proposed | 2026-06-09 | ORCH-094 |
| adr-0029 | Гейт покрытия тестами — edge sub-gate + ratchet-базовая линия | proposed | 2026-06-10 | ORCH-027 |
| adr-0030 | Лёгкий read-only `/metrics` — сырьё о самом орке для sidecar (F1b) | proposed | 2026-06-10 | ORCH-099 |
| adr-0031 | Нормализация legacy root-owned файлов при миграции uid — детект-leaf + actionable worktree-ошибка | proposed | 2026-06-10 | ORCH-057 |
> ⚠️ Историческая коллизия: номер `0007` занят двумя файлами —
> `adr-0007-reconciler.md` (ORCH-053) и `adr-0007-executable-self-deploy.md`
> (ORCH-036). Оба accepted; для новых сквозных ADR использовать следующий
> свободный номер (текущий максимум — `0020`).
> свободный номер (текущий максимум — `0031`).
> adr-0014 **amends** adr-0013 (меняет критерий merge-verify на «SHA-в-main»).
> adr-0016 **amends** adr-0013/0014 (гарантирует открытый код-PR перед merge_pr, ORCH-082).
> adr-0020 реализует машинный слой к adr-0019 (ORCH-52b→52c).

View File

@@ -0,0 +1,88 @@
---
work_item: ORCH-099
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# adr-0030: Лёгкий read-only `/metrics` — сырьё о самом орке для sidecar (F1b)
- **Статус:** proposed
- **Дата:** 2026-06-10
- **Задача:** ORCH-099 (FND/F1a)
- **Детальный ADR:** `docs/work-items/ORCH-099/06-adr/ADR-001-metrics-endpoint.md`
## Контекст
Эпик автономного саморазвития, домен 0 «Фундамент». Рамка наблюдаемости (заказчик): **наблюдатель
отделён от наблюдаемого** — мозг мониторинга (пороги/алерты/история/Telegram) живёт в отдельном
sidecar-контейнере **F1b** (`watchdog/`), а орк отдаёт **только сырьё**, которое знает лишь он сам.
Сегодня такого источника нет: `/health` = `{"status":"ok"}`, `/status` = активные задачи, `/queue`
«человеческий» снимок, перемешанный с конфигом демонов. Нет стабильного машинного контракта для
детекта застрявшей стадии / зависшего агента / деградации очереди / всплеска стоимости. F1b
заблокирована этой задачей. Self-hosting: прод общий с enduro-trails ⇒ эндпоинт обязан быть строго
read-only и never-raise.
## Решение
Новый **leaf-модуль** `src/metrics.py` (`build_metrics() -> dict`, чистый, never-raise по разделам —
паттерн `serial_gate.snapshot()`) + тонкий эндпоинт `@app.get("/metrics")` в `src/main.py` (стиль
`GET /queue`). Только чтение существующих таблиц (`tasks`/`jobs`/`agent_runs`) и in-memory-снапшотов
+ два read-only helper'а в `src/db.py`. `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict-
ключи/схема БД — **не трогаются**.
- **Конверт + контракт версии:** `schema_version` (старт `1`), `generated_at` (UTC ISO-8601 —
момент снимка, домен часов орка), `clk_tck` (`os.sysconf("SC_CLK_TCK")`), разделы
`stages`/`queue`/`agents`/`cost`. **Политика версии:** аддитивные изменения НЕ бампят (sidecar
обязан игнорировать незнакомые ключи и толерировать отсутствие опциональных); бамп — только при
ломающем (rename/remove/retype). Forward-compatible контракт для F1b.
- **`stages`** — `db.get_active_tasks_for_reconcile()` + фильтр `stage NOT IN ('done','cancelled')`
на слое metrics (helper намеренно отдаёт `cancelled` для ORCH-086 — не трогаем его инвариант);
поля `work_item`/`stage`/`age_in_stage_s`/`repo`.
- **`queue`** — `db.job_status_counts()` (+`cancelled`), глубина, сырьё ретраев
(`attempts`/`max_attempts`/`transient_attempts`/в-backoff), `worker.breaker.snapshot()`,
`max_concurrency`. Недоступный worker → `breaker: null`, не 500.
- **`agents` (liveness)** — новый dedicated read-only helper `db.get_running_agents()` (НЕ расширение
hot-path `get_running_jobs()` reaper'а, ORCH-065): `agent`/`run_id`/`job_id`/`pid`/`runtime_s`
(= `running_age_s` от `jobs.started_at`)/`model`/`effort`. CPU-сырьё — **вариант A**: орк читает
`/proc/<pid>/stat` (поля 14+15, utime+stime) → `cpu_ticks`; **дельту не считает** — арбитр
«жив/завис» это sidecar (stateless-эмиссия). `pid is None`/мёртвый/нет `/proc`/не-Linux →
`cpu_ticks: null`, не ошибка.
- **`cost`** — `running` (по running-job, часто `null` до завершения — честное сырьё, `null` ≠ ноль)
+ `aggregate` (новый helper `db.agent_cost_totals()`, `COALESCE(SUM(...),0)` по
`cost_usd`/`input_tokens`/`output_tokens`/`cache_read_tokens`/`cache_creation_tokens`).
- **Kill-switch** `metrics_endpoint_enabled` (env `ORCH_METRICS_ENABLED`, дефолт `True`): при `False`
`200` с `{"schema_version":1,"enabled":false}` (контракт остаётся парсимым). Операторский
off-switch на общем инстансе.
- **Never-raise:** каждый раздел — свой `try/except` + `logger.warning` + дефолт (`null`/`[]`/`{}`);
`build_metrics()` никогда не пробрасывает. Read-only: ни одного `INSERT/UPDATE/DELETE/CREATE/ALTER`.
## Альтернативы
- **Расширить `/queue`** — отклонено: ломает байт-в-байт контракт (BR-6) + смешивает сырьё с
человеческим снимком.
- **Prometheus/OpenMetrics** — отклонено: заказчик задал тонкий кастомный sidecar (не Prometheus),
контракт — JSON.
- **Орк считает CPU-дельту сам** — отклонено: требует состояния; stateful-арбитр это sidecar (C-1).
- **Расширить SELECT `get_running_jobs()`** — отклонено: перенос инварианта hot-path reaper'а;
изолируем dedicated helper.
- **Push в sidecar** — отклонено: нарушает разделение C-1; зависший орк ⇒ pull падает = сам сигнал.
## Последствия
- F1b разблокирована стабильным машинным контрактом; домен наблюдаемости стартует.
- Строго read-only + never-raise ⇒ near-zero риск для общего прод-конвейера (enduro-trails);
`/health`/`/status`/`/queue` байт-в-байт; гейты/схема/machine-verdict-ключи не тронуты (NFR-5).
- `schema_version` + аддитивно-толерантная политика ⇒ расширения не ломают F1b.
- Плата: новая поверхность совместимости `/metrics`↔F1b (митигейшн — единый репо контракта + версия);
CPU-liveness Linux-специфичен (`/proc`; не-Linux → `null`). Топология/схема не меняются (sidecar и
его сетевая достижимость — объём F1b).
- Новый компонент + публичный контракт → `arch:major-change` (хоть и аддитивно/read-only/обратимо);
прод-деплой строго через staging-гейт (8501), без рестарта прод-контейнера.
- **Откат:** `metrics_endpoint_enabled=False` (мгновенный) или удаление модуля/эндпоинта/helper'ов —
без следов в БД/схеме.
## Связи
adr-0002 (job-queue/circuit-breaker — источник `queue`-сырья), adr-0011 (job-reaper —
`get_running_jobs`/pid/liveness-семантика, изоляция hot-path), adr-0026 (терминал `{done,cancelled}`
— фильтр `stages`), adr-0017 (serial_gate — паттерн leaf `snapshot()`/never-raise), adr-0020
(frontmatter-контракт — стиль версионируемого контракта). Прямой потребитель — **F1b** (sidecar
`watchdog/`, отдельная задача).

View File

@@ -0,0 +1,92 @@
---
work_item: ORCH-057
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# adr-0031: Нормализация legacy root-owned файлов при миграции uid — детект-leaf + actionable worktree-ошибка
- **Статус:** proposed
- **Дата:** 2026-06-10
- **Задача:** ORCH-057 (follow-up ORCH-040)
- **Детальный ADR:** `docs/work-items/ORCH-057/06-adr/ADR-001-legacy-ownership-normalization.md`
## Контекст
ORCH-040 перевёл контейнеры на `user: "1000:1000"`, изменив только `docker-compose.yml`. Владельца
уже существующих `root:root` файлов в bind-mount `/repos` это не меняет. Под uid 1000
`src/git_worktree.py::ensure_worktree` (`os.makedirs` стр. 78 / `git worktree add` стр. 81/85) не может
создать worktree рядом с root-owned `/repos/_wt/``fatal: could not create leading directories …
Permission denied`, который сейчас пробрасывается сырым. Конвейер приходит сюда из
`launcher._spawn`/`_materialize_deferred_branch` (ORCH-088) — **агент не стартует** (launch-time
инфра-сбой, не код задачи). Инцидент 06.06 на проде (первый запуск ORCH-043); workaround Стрима
(`chown -R 1000:1000`) наложен вручную. ADR-040 описал нормализацию абстрактно («вне объёма кода») и
не дал процедуры → баг воспроизводим на чистой среде / новом репо / после исторического запуска под
root. Контейнер бежит **без root** → код физически не может `chown` чужие файлы; ему доступны лишь
детект + диагностика.
## Решение
Три аддитивных, обратимых kill-switch'ем слоя — паттерн условного leaf-гейта (`coverage_gate`/
`serial_gate`) + best-effort startup-хук (`main.lifespan`, как lease-reclaim). `STAGE_TRANSITIONS` /
`QG_CHECKS` / `check_*` / machine-verdict-ключи (`verdict:`/`result:`/`deploy_status:`/
`staging_status:`/`security_status:`/`coverage_status:`) / схема БД — **байт-в-байт прежние**.
- **Actionable worktree-ошибка (D1):** `ensure_worktree` классифицирует класс «нет прав» (маркеры
`Permission denied`/`could not create leading directories`/`insufficient permission`/`EACCES`/
`EPERM`) и поднимает `RuntimeError` с причиной (legacy root-файлы после миграции uid) + лечащей
командой + ссылкой на INFRA.md. Не-прав-ошибки сохраняют прежний текст/смысл (никакой подмены).
Меняется лишь **формулировка**, не факт сбоя.
- **Детект-leaf `src/fs_normalize.py` (D2):** чистый, never-raise, TTL-кэш (паттерн `preflight`).
`scan_ownership(roots, target_uid)` обходит `/repos/_wt`, `<repo>/.git/objects`,
`<repo>/.git/worktrees`, `data/runs`; ранний выход при первом `st_uid != target_uid`
(`target_uid=os.getuid()` по умолчанию). `applies(repo)` (kill-switch + scope; пусто →
`is_self_hosting_repo`) проверяется ПЕРВЫМ → дорогой обход только при applies. Идемпотентно;
ошибка обхода → WARNING + консервативный `mismatch=False`.
- **Интеграция = наблюдаемость, без блокировки claim (D3):** best-effort `scan_ownership()` на старте
`main.lifespan` → WARNING + Telegram при mismatch. Claim НЕ гейтится: внятный ранний отказ даёт D1
в точке launch (знает repo, агент ещё не тратил токены). Блокирующий preflight-гейт отвергнут —
preflight не знает repo, заблокировал бы и enduro-trails на общем `/repos`.
- **Опц. `normalize()` (D4):** chown только при `CAP_CHOWN`/root (под uid 1000 — no-op + лог),
флаг `fs_normalize_auto` (дефолт `False`). Init-контейнер/root-entrypoint отвергнут: реинтродукция
root-контекста (анти-цель ORCH-040) + правка compose = self-deploy/групповой риск. Реальную
нормализацию несёт операторская процедура.
- **Процедура (D5):** `INFRA.md` получает раздел «Миграция uid: обязательная нормализация legacy
root-файлов» (точные команды по всем корням) как обязательный шаг миграции; forward-breadcrumb из
ADR-040.
- **Флаги:** `fs_normalize_enabled` (kill-switch, дефолт `True`), `fs_normalize_repos` (CSV, пусто →
self-hosting only), `fs_target_uid` (1000), `fs_normalize_auto` (`False`), `fs_scan_roots`,
`fs_scan_cache_ttl_s` (300). Наблюдаемость — блок `fs_ownership` в `GET /queue`; опц. `POST
/fs-normalize/check`.
## Альтернативы
- **Init-контейнер/root-entrypoint** — реинтродукция root (анти-цель ORCH-040), self-deploy compose,
групповой риск ради разовой операции. Отвергнуто; носитель нормализации — операторская процедура.
- **Блокирующий claim-гейт (preflight)** — preflight не знает repo → регресс enduro на общем `/repos`.
Отвергнуто.
- **Блокирующий claim-гейт (queue_worker/claim)** — дорогой FS-обход в hot-path + «молчаливое
зависание» вместо диагноза D1. Отвергнуто.
- **Авто-chown из app по умолчанию** — под uid 1000 невозможен; ложное ожидание самолечения.
Отвергнуто (оставлен opt-in `fs_normalize_auto`).
- **Hard-fail старта при mismatch** — нарушает never-raise, стопорит сервис всех проектов. Отвергнуто.
## Последствия
- Класс «сырой git-fatal на launch после миграции uid» закрыт внятным диагнозом (D1) + проактивным
startup-сигналом (D3); пробел процедуры ADR-040 закрыт (INFRA.md).
- Нулевая регрессия enduro-trails (scope first); инварианты конвейера/схема БД — байт-в-байт.
- Никакого root-контекста/рестарта прода/касания `main`/force-push/прод-образа (NFR-1).
- Плата: фактический `chown` остаётся ручным операторским шагом (но теперь внятным, с инструкцией);
+1 best-effort startup-хук и leaf-модуль; `fs_normalize_auto=True` под root реинтродуцирует
chown-контекст (дефолт `False`, не для прод-self).
- Аддитивно/обратимо: **не** `arch:major-change` (нет новой стадии/QG/таблицы/смены топологии) — leaf
+ startup-хук + docs.
- **Откат:** `fs_normalize_enabled=False` → полный no-op (мгновенный обратимый kill-switch).
## Связи
adr-0005 (контейнер под host-uid — порождающее решение ORCH-040, чей пробел закрываем),
adr-0029/adr-0012 (coverage/security-гейт — паттерн условного leaf `applies`/scope/never-raise/
fail-open), adr-0017 (serial-gate — leaf never-raise + отложенный срез ветки `_materialize_deferred_
branch`, чья точка падает в `ensure_worktree`), adr-0011 (job-reaper — образец best-effort
startup-хука в `lifespan`), adr-0024 (disk-watchdog — образец «только читать/уведомлять, не трогать
хост/прод»).

View File

@@ -0,0 +1,95 @@
---
work_item: ORCH-019
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# adr-0032: Багфикс-трек — укороченный маршрут конвейера для багов (ORCH-019)
## Статус
Proposed
## Контекст
Любая задача идёт по полному конвейеру `analysis → architecture → development → review → testing
→ deploy-staging → deploy → done`. Для мелкого бага стадия `architecture` (отдельный прогон
opus-агента `architect` + ADR + exit-гейт `check_architecture_done`) избыточна и тратит
токены/время (прецедент ET-9/ET-014 ~35 мин).
**Корневой инвариант (нерушимый):** упрощаем только *аналитику/архитектуру*; ни один Quality
Gate / под-гейт (security/merge/coverage/image-freshness) / exit-код deploy-хука — НЕ ослаблен
(урок ET-8: срезанная проверка = недоделка на проде).
Кросс-каттинговость: затрагивает семантику маршрутизации (`advance_stage`), вводит новый
leaf-компонент `src/bug_fast_track.py` и аддитивную колонку `tasks.track` → регистрируется
сквозным ADR.
## Решение
Багфикс-трек — **свойство планировщика/точки входа, НЕ Quality Gate**.
1. **Классификация** (`src/bug_fast_track.py`, leaf never-raise по образцу `serial_gate`/`labels`):
задача с меткой Plane `Bug` (`bug_fast_track_label`, читается аппаратом ORCH-089
`labels.has_label`) помечается `track='bug'`. `applies(repo)` (локально, без сети) — первым;
`has_label` (сеть) — только при `applies==True`; чтение метки **только** в `start_pipeline`,
никогда в горячем `claim_next_job` (anti-stall).
2. **Хранение** — аддитивная идемпотентная колонка `tasks.track TEXT DEFAULT 'full'`
(`_ensure_column`, паттерн `tasks.cancelled_at` ORCH-090); читается в `advance_stage` из БД
(не из сети).
3. **Routing-override**`STAGE_TRANSITIONS` и `get_next_stage`/`get_agent_for_stage` остаются
**чистыми** (1:1). В `advance_stage`, на ребре выхода из `analysis`, при `track='bug'`:
`next_stage``development` (вместо `architecture`), `next_agent``developer` (вместо
`architect`). Багфикс физически минует стадию `architecture` → её exit-гейт
`check_architecture_done` и `06-adr/` для багфикса не исполняются.
4. **Гейт `analysis` не трогаем**`check_analysis_complete`/`check_analysis_approved` байт-в-байт
прежние; lite-аналитик эмитит все 4 файла (01-bug-report / 02-03 краткие заглушки / 04 план
обязательного регресс-теста). Экономия — пропуск всей стадии `architecture`, не число файлов.
5. **Эскалация** (обратимость) — `POST /bug-fast-track/escalate?work_item=<id>` сбрасывает
`track→'full'` (+ self-escalate мини-аналитика); задача далее идёт через `architecture`.
6. **Условность/откат**`bug_fast_track_enabled` (kill-switch), `bug_fast_track_label`,
`bug_fast_track_repos` (CSV; **пусто → self-hosting only**). `False`/неприменимый репо →
путь старта и маршрут **байт-в-байт** прежние.
7. **Наблюдаемость** — read-only блок `bug_fast_track` в `GET /queue` (флаг/область/метка +
счётчик `track='bug'` + метрика экономии из `agent_runs`); лог на решение о маршруте; опц.
`🐞` в Telegram-карточке.
## Кросс-каттинговые инварианты (НЕ нарушаются)
- `STAGE_TRANSITIONS` структурно не меняется (нет новых/удалённых стадий); `cancelled`/`done`
стоки и предикаты терминальности (ORCH-090) не затронуты.
- Реестр `QG_CHECKS`, сигнатуры `check_*`, вердикт-ключи (`verdict:`/`result:`/`deploy_status:`/
`staging_status:`/`security_status:`/`coverage_status:`), порядок под-гейтов — байт-в-байт.
- Врезка ORCH-019 в `advance_stage` — ТОЛЬКО на ребре выхода из `analysis`, ДО всех deploy-edge
под-гейтов (ORCH-022/043/027/058) и Phase A/B (ORCH-036/059) → их инварианты сохранены.
- Композиция с serial-gate (ORCH-088), auto-label (ORCH-089), coverage-gate (ORCH-027),
merge-gate (ORCH-043) — багфикс-задача остаётся обычной задачей репо.
## Последствия
- **+** Багфикс минует стадию `architecture` (основная экономия), гейты качества сохранены.
- **+** Аддитивно, под kill-switch, per-repo, never-raise, fail-safe → полный цикл; нулевая
регрессия для enduro и orchestrator при выключении.
- **** lite-аналитик эмитит 02/03 заглушки (компромисс ради неизменности гейта); эскалация v1
требует операторского действия (авто-триаж сложности — будущее, ORCH-13/Вариант 3).
- **Откат:** `bug_fast_track_enabled=False` (мгновенно); колонка `tasks.track` аддитивна и
безвредна (дефолт `'full'`).
## Связанные решения
- ORCH-089 (auto-label) — переиспользуемый аппарат label-чтения: [adr-0018](adr-0018-auto-label-gates.md)
- ORCH-088 (serial gate) — композиция очереди репо
- ORCH-027 (coverage-gate) — структурный союзник BR-4: [adr-0029](adr-0029-coverage-gate.md)
- ORCH-090 (cancelled) — паттерн аддитивной колонки `tasks.*`: [adr-0026](adr-0026-stop-cancel-task.md)
## Ссылки
- Детальный ADR задачи: `docs/work-items/ORCH-019/06-adr/ADR-001-bug-fast-track.md`
- BRD/TRZ/AC: `docs/work-items/ORCH-019/01-brd.md`, `02-trz.md`, `03-acceptance-criteria.md`
</content>

View File

@@ -0,0 +1,85 @@
---
work_item: ORCH-100
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# adr-0033: Sidecar-watchdog F1b — мозг мониторинга в отдельном контейнере
- **Статус:** proposed
- **Дата:** 2026-06-10
- **Задача:** ORCH-100 (FND/F1b)
- **Детальный ADR:** `docs/work-items/ORCH-100/06-adr/ADR-001-sidecar-watchdog.md`
- **Парный ADR:** `adr-0030` (F1a `/metrics` — источник сырья)
## Контекст
Домен 0 «Фундамент» эпика автономного саморазвития, рамка наблюдаемости заказчика: **наблюдатель
отделён от наблюдаемого**. F1a (adr-0030) отдаёт read-only `GET /metrics`**только сырьё**. F1b —
**мозг**: читает сырьё, дополняет внешними сигналами (хост/контейнеры/зависимости), решает по порогам,
алертит. Частичные стражи (`disk_watchdog`/`reaper`/`reconciler`) живут ВНУТРИ процесса орка — орк
завис/упал ⇒ они мертвы, платформа слепа в критический момент. Рамки: C-1 (отдельный контейнер, код в
`watchdog/`), C-2 (без внешнего плеча — принятый риск), C-3 (тонкий стек, НЕ Grafana/Prometheus; хост
впритык). Критический инвариант: орк лёг ⇒ `/metrics` недоступен = **сам сигнал тревоги**.
## Решение
Новая папка `watchdog/`**тонкий Python-3.12-stdlib демон** (без сторонних зависимостей), отдельный
образ `watchdog/Dockerfile` + сервис `orchestrator-watchdog` в `docker-compose.yml` (`network_mode:
host`, read-only `docker.sock`, `mem_limit: 128m`, `restart: unless-stopped`). Тик: (1) `GET /metrics`;
(2) хост (диск/inode/память/CPU, stdlib); (3) статусы контейнеров через read-only `docker.sock`
(GET-only — без `docker` SDK); (4) пинг Plane/Gitea/Anthropic. Сигналы проходят через **обобщённую
чистую** `decide(signal_active, prev, now, cooldown) -> alert|realert|recovery|none` (генерализация
`disk_watchdog.decide_action`; per-signal in-memory `AlertState`). Алерт — в **собственный** Telegram-
канал sidecar (свои `WATCHDOG_TG_*`; **НЕ** импорт `src/notifications.py`). Особый сигнал — `/metrics`
не отвечает → `orch_down`. Всё never-raise (per-source/per-tick/per-send), под kill-switch
`WATCHDOG_ENABLED`, строго read-only к наблюдаемому. **`src/**`/`STAGE_TRANSITIONS`/`QG_CHECKS`/
`check_*`/схема БД орка — не тронуты** (F1b вне процесса орка и вне конвейера QG).
- **Стек** — Python stdlib (`urllib`, `socket`+`http.client` для docker.sock, `shutil.disk_usage`,
`/proc/meminfo`); pytest на чистые функции. Отвергнуты Go / `docker` SDK / Prometheus (C-3).
- **Реестр сигналов** — `orch_down` (K подряд неудачных опросов), `host_mem`/`host_disk_crit`,
`agent_hung``cpu_ticks`/`clk_tck``generated_at` < floor при растущем `runtime_s`; нужно 2
опроса — sidecar stateful-арбитр), `stage_stuck` (`age_in_stage_s`), `job_failed` (edge),
`queue_depth`, `container_down` (per name), `dep_down` (per name). Пороги/интервалы/URL — из env.
- **Владелец диск-алерта (BR-10)** — штатные 85% остаются за внутренним `disk_watchdog` (ORCH-063,
канал орка) ⇒ **нулевой дубль по построению**; sidecar покрывает провал «орк+disk_watchdog мертвы»
через `orch_down`, плюс **opt-in** (default off) независимый критический потолок `host_disk_crit`
(97%) — другое событие/канал, не повтор 85%.
- **Толерантность контракта** — неизвестные ключи `/metrics` игнорируются, отсутствие опционального не
ошибка, рост `schema_version` → warning (зеркало аддитивной политики adr-0030).
- **Kill-switch** `WATCHDOG_ENABLED=false` → демон инертен (idle-loop, не exit) ⇒ нулевой эффект.
## Альтернативы
- **Go / `docker` SDK / `requests`** — отклонено: вес/вторая цепочка против C-3 и консистентности с
`disk_watchdog`.
- **Prometheus/Grafana/TSDB** — отклонено: прямой запрет C-3.
- **Sidecar — единственный владелец диска** — отклонено: потеря покрытия, когда сам sidecar/Docker
недоступен; выбрана связка primary `disk_watchdog` + opt-in ceiling.
- **Push из орка в sidecar** — отклонено: зависший орк не пушит; pull падает = сам сигнал `orch_down`.
- **bridge + `host.docker.internal`** — отклонено: на Linux ненадёжно; `network_mode: host` проще.
- **Своя БД/файл порогов** — отклонено: C-3; in-memory best-effort достаточно (как `disk_watchdog`).
## Последствия
- Внешний мозг мониторинга переживает падение орка; `orch_down` делает наблюдателя громче в инцидент.
- Строго read-only + независимый канал + never-raise ⇒ self-hosting-безопасно (enduro не затронут);
падение sidecar не влияет на конвейер.
- Аддитивно/обратимо: `src/**`/гейты/схема байт-в-байт; kill-switch → нулевая регрессия; дубль диска
исключён структурно.
- Плата: новый контейнер на впритык-хосте (`mem_limit: 128m` + замер RSS на staging обязательны);
C-2 (падёт хост → молчит и sidecar); новая поверхность совместимости `/metrics`↔F1b (толерантный
парсинг + единый репо контракта); CPU-liveness Linux-специфичен.
- **Топология** меняется (новый контейнер) → `07-infra-requirements.md`; **схема БД** не меняется →
08 = N/A. Новый компонент + контейнер + канал → `arch:major-change`; прод-выкат через staging-гейт
(8501), деплой sidecar НЕ рестартит прод-контейнер.
- **Откат:** не запускать сервис / `WATCHDOG_ENABLED=false` (мгновенный) или удаление `watchdog/` +
сервиса + env — без следов в БД/схеме.
## Связи
adr-0030 (F1a `/metrics` — парный источник сырья; контракт `cpu_ticks`/`clk_tck`/`generated_at`/
`schema_version`), adr-0024 (`disk_watchdog` — образец решающей функции/never-raise + владелец
диск-алерта), adr-0025 (build-cache-pruner — паттерн «вторая половина»), adr-0017 (serial_gate —
leaf `snapshot()`/never-raise), adr-0011 (job-reaper — pid/liveness-семантика). Прямой источник —
**F1a** (`GET /metrics`); F1b — его потребитель.
</content>

View File

@@ -0,0 +1,92 @@
---
work_item: ORCH-098
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# adr-0034: Машинный журнал уроков — таблица `lessons` + observer-leaf (ORCH-098)
## Статус
Proposed
## Контекст
Оркестратор автономно ведёт задачи по конвейеру (ORCH-54), но **развивается** вручную: инциденты →
уроки → задачи. Уроки живут свободным текстом в `memory/` — не машиночитаемы: нельзя считать
паттерны, приоритизировать, предлагать улучшения. ORCH-098 — шаг 1 эпика саморазвития (домен 0
«Фундамент», F2): «топливо» петли самообучения 8A. Нужна **структурированная таблица отклонений
конвейера**, на которой позже встанут ретроспективщик (E2), приоритизатор RICE (E3) и Стрим.
Нормативное требование Славы (10.06): схема ДОЛЖНА **сразу** нести поля **атрибуции** урока
(`platform`/`project`/`both`/`unknown` + целевой репо + домен улучшения), иначе позже придётся
переделывать схему на живой общей прод-БД.
**Кросс-каттинговость** (почему сквозной ADR): новый компонент `src/lessons.py` + аддитивная
таблица на **общей прод-БД** (self-hosting, разделяемой с enduro-trails) + врезки автозаписи в
несколько горячих choke-point'ов (`stage_engine`/`merge_gate`/`launcher`) + новый раздел контракта
`GET /queue`. Фундамент для будущих задач-потребителей → регистрируется глобально.
## Решение
Журнал уроков — **observer (наблюдатель), НЕ Quality Gate**. Аддитивная таблица + чистый leaf,
по образцу `serial_gate`/`coverage_gate`/`metrics`/`bug_fast_track`.
1. **Таблица `lessons`** (`db.init_db()`, `CREATE TABLE IF NOT EXISTS` + 3 индекса, идемпотентно,
restart-safe) — поля контекста (`work_item_id`/`task_id`/`stage`/`agent`/`repo`), анализа
(`root_cause`/`suggestion`), статуса (`status`/`related_task`), **атрибуции сразу и нуллабельно**
(`attribution`/`target_repo`/`target_domain`) + `source`/`detail`. Без `enum`-констрейнтов
(слаги forward-compatible). Будущие колонки — `_ensure_column`.
2. **Leaf `src/lessons.py`** (never-raise, импортирует только `config`+`db`): `record()` / `get()` /
`update()` / `snapshot()`. **Расхождение с гейт-шаблоном: журнал НЕ скоупится по репо** — он
observer-only и не *действует* ни на один репо; единственный регулятор — глобальный kill-switch
`lessons_enabled`. Запись урока про enduro ценна и **не затрагивает** пайплайн enduro (чистая
память орка); репо-разрез — на выборке (`repo`-колонка/фильтр).
3. **Автозапись 4 типов** (`source="auto"`, best-effort, дедуп в окне; `transient_retry` — только на
исчерпании бюджета ретраев): `gate_failure` (`stage_engine._handle_qg_failure_rollbacks`),
`merge_hold` (`merge_gate._handle_merge_verify` HOLD), `transient_retry` (merge-retry/launcher
transient budget-exhaustion), `deploy_degraded` (post-deploy `DEGRADED → set_repo_freeze`, урок
слоя-3 «деплой OK / прод сломан», ET-8). Каждая врезка — одиночный вызов в защитном `try/except`.
4. **Эндпоинты** `GET /lessons` (read-only, фильтры), `POST /lessons` (ручная запись,
`source="manual"`), `POST /lessons/{id}` (update — доклассификация `unknown`), + read-only ключ
`"lessons": snapshot()` в `GET /queue`. При выключенном флаге → `{"enabled": false}`.
**Инвариант (нерушимый):** `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict-ключи
(`verdict:`/`result:`/`staging_status:`/`deploy_status:`/`security_status:`/`coverage_status:`) /
схемы существующих таблиц — **байт-в-байт не тронуты**. Журнал не влияет на продвижение по стадиям.
## Композиция с существующими механизмами
- **Self-hosting (общая БД):** аддитивная таблица; enduro не затронут (NFR-3).
- **serial-gate (ORCH-088) / post-deploy (ORCH-021):** детектор `deploy_degraded` врезан рядом с
`set_repo_freeze`, не меняя freeze-логику.
- **merge-gate (ORCH-043/071/093):** `merge_hold`/`transient_retry` читают исход актора, не меняя
классификатор/ретрай.
- **metrics (ORCH-099):** журнал — историческая память петли (best-effort запись), `/metrics`
realtime-сырьё для sidecar; разные роли, оба observer-only.
## Условность и откат
- Флаг `lessons_enabled` (env `ORCH_LESSONS_ENABLED`, дефолт `True`; kill-switch) +
`lessons_dedup_window_s` / `lessons_query_limit_default`. `False` → полная инертность, нулевая
регрессия, конвейер байт-в-байт прежний.
- **never-raise** на всех публичных функциях и врезках (NFR-1) — сбой журнала не роняет конвейер.
- Откат — флаг в `false` (мгновенно) или revert диффа; таблица не касается существующих.
## Последствия
- **+** Машиночитаемые уроки — фундамент E2/E3/Стрим; атрибуция forward-proof (без передела живой БД).
- **+** Нулевая регрессия; проверенный additive-observer-leaf шаблон → низкий риск; enduro изолирован.
- **** Рост таблицы (митигейшн: лёгкие строки + дедуп + budget-exhaustion; ретенция — будущее).
- **** Дедуп-запрос в `record()` (один indexed-SELECT, только `auto`).
## Ссылки
- Локальный ADR: `docs/work-items/ORCH-098/06-adr/ADR-001-lessons-journal.md`
- BRD/TRZ/AC: `docs/work-items/ORCH-098/01-brd.md`, `02-trz.md`, `03-acceptance-criteria.md`
- Data/Infra/Risks: `docs/work-items/ORCH-098/08-data-requirements.md`, `07-infra-requirements.md`,
`10-tech-risks.md`
- Эпик: `docs/epics/self-evolution.md` (домен 0 «Фундамент», F2; петля 8A)
- Сверено по коду: `src/serial_gate.py`, `src/coverage_gate.py`, `src/db.py`, `src/stage_engine.py`,
`src/merge_gate.py`, `src/agents/launcher.py`, `src/main.py`, `src/qg/checks.py`.

View File

@@ -106,6 +106,17 @@ claude.exe --print --system-prompt --allowedTools Read,Write,Edit,Bash
Примечание: переход `review → testing` использует `check_reviewer_verdict` (читается из frontmatter `12-review.md`); `development → review``check_tests_local` (оркестратор сам прогоняет тесты, не зависит от Gitea CI).
**Багфикс-трек: routing-override на ребре выхода из `analysis` (ORCH-019 — design).** Для задачи
с `tasks.track='bug'` (помечена в `start_pipeline` по метке Plane `Bug` через аппарат ORCH-089)
`advance_stage` на шаге 3 переопределяет результат `get_next_stage('analysis')`: `next_stage`
`development` (вместо `architecture`), а на шаге 4 `next_agent``developer` (вместо `architect`)
→ стадия `architecture` и её exit-гейт `check_architecture_done` для багфикса не исполняются.
`STAGE_TRANSITIONS`/`get_next_stage`/`get_agent_for_stage` остаются чистыми (1:1) — override живёт
только в `advance_stage`. Чистый предикат `bug_fast_track.skips_architecture(track)` (leaf
`src/bug_fast_track.py`, never-raise) под `bug_fast_track_enabled`; `track` читается из БД, не из
сети (NFR-4). `False`/неприменимый репо → маршрут байт-в-байт прежний. Детали —
[adr-0032](adr/adr-0032-bug-fast-track.md).
### 6. Review Bounce
При REQUEST_CHANGES:

View File

@@ -75,6 +75,16 @@
- **F1 Наблюдаемость** (ORCH-83 [ЭПИК]): метрики agent-liveness + очередь + стадии + хост (диск/память/CPU) + контейнеры + внешние деп (Plane/Gitea/Anthropic). Эндпоинты /health /status /queue → расширить до /metrics + дашборд.
- **F2 Журнал уроков** (ORCH-8 шаг 1): машинная структурированная таблица отклонений (тип, контекст, корень, предложение, статус) — формализовать то, что сейчас в memory/. Это «топливо» для вертикали-двигателя.
### 🎯 СКОП НАБЛЮДЕНИЯ — три слоя (решено Славой 10.06)
> Граница «мониторим ПЛАТФОРМУ vs ПРОДУКТЫ на ней». Важно для архитектора и будущих задач — не путать уровни.
- **Слой 1 — проекты как ЗАДАЧИ в конвейере — ✅ В СКОПЕ (F1a/F1b).** ET-задачи в stages/queue/agents `/metrics` — это работа орка (его агенты/очередь/стадии). Sidecar алертит «ET-задача застряла». Здоровье КОНВЕЙЕРА.
- **Слой 2 — проекты как КОНТЕЙНЕРЫ на хосте — ✅ В СКОПЕ (F1b, жив/мёртв).** `enduro-trails-app-1`, `osrm` и пр. через docker.sock ro — Up/healthy/restarting/exited. Общий хост впритык → текущий ET-контейнер вредит орку. Здоровье контейнера как чёрного ящика.
- **Слой 3 — ВНУТРЕННЕЕ бизнес-здоровье продукта — ❌ НЕ В ФУНДАМЕНТЕ, НО НУЖНО (см. ниже).** Эндпоинты ET отвечают 200? карта рендерится? latency не деградировала после фичи? Орк не знает внутренностей задеплоенных приложений — это МОНИТОРИНГ ПРОДУКТА, не платформы.
**Слой 3 — это отдельная продуктовая способность (домен D4/D5):** «per-project мониторинг здоровья задеплоенного приложения» — опция для заказчика («слежу, что твой ET-сайт жив»). **НО он НУЖЕН и самой петле** (см. §8A «атрибуция уроков») — без детекции деградации продукта петле нечего ловить. Порядок: фундамент (слои 1-2) сначала, слой 3 — позже как D4/D5-фича.
---
## 3. ДОМЕН D1 — 🛡️ Надёжность (Self-Repairing)
@@ -166,6 +176,25 @@
- **Анализ (гибрид):** машина копит и предлагает черновик → Стрим фильтрует/оформляет → Слава апрувит.
- **E1** Журнал уроков (=F2). **E2** Агент-ретроспективщик (анализ→предложение).
#### ⚖️ АТРИБУЦИЯ урока — platform-level vs project-level (решено Славой 10.06)
> Ключевой шаг петли. Пример Славы: выпустили фичу в ET → она деградировала ET. Петля поймала сигнал — но ЧЬЯ вина и ГДЕ чинить?
Когда детектирована деградация продукта после выпуска фичи, петля ДОЛЖНА различить два уровня вины и направить урок в правильное русло:
- **А. Platform-level (недоработал ОРК):** конвейер выпустил деградацию, потому что у платформы СЛАБЫЙ ПРОЦЕСС (нет регресс-гейта «фича не ломает соседнее», тест-стадия не ловит деградацию производительности, нет производительностного бенчмарка в приёмке). → улучшаем ПРОЦЕСС орка (домен **D2 Качество** / **D1 Надёжность**). Чинится ОДИН раз — выигрывают ВСЕ проекты.
- **Б. Project-level (недоработал ПРОЕКТ):** процесс орка нормальный, но в конкретном ET МАЛО тестов/слабая приёмка под этот тип фич. → усиливаем ТЕСТЫ/приёмку В САМОМ ET (задача в бэклог ET). Чинится точечно — выигрывает только ET.
**Механизм (новый шаг петли):**
```
ДЕТЕКЦИЯ деградации продукта (слой 3) → урок →
АТРИБУЦИЯ: platform-level или project-level?
├─ platform → задача в D1/D2 (улучшить процесс — польза всем)
└─ project → задача в бэклог ET (усилить тесты ET — польза ET)
(развилка не всегда бинарна — бывает ОБА: и гейт в орк, и тесты в ET)
```
Без атрибуции петля «чинит платформу» там, где надо усилить проект (и наоборот). **Зависит от слоя-3 детекции** (§2): без мониторинга здоровья продукта петле нечего атрибутировать. **E2-ретроспективщик** несёт эту классификацию; спорные случаи → Стрим/Слава решают.
### 8B. Проактивная турбина 💡 — генератор идей новых возможностей (НОВОЕ — запрос Славы)
> Отдельный источник идей роста функционала — НЕ только требования от Славы. Проактивно предлагает новые фичи/возможности/удобства. Та же воронка: машина/агент генерит черновики → Стрим фильтрует → Слава решает.

View File

@@ -47,8 +47,35 @@ ADR `docs/work-items/ORCH-040/06-adr/ADR-001-run-agents-as-host-uid.md` и гл
- **P-3:** `id slin``1000:1000`; `/repos`, `/app/data` уже `1000:1000`.
- **P-4:** прод-рестарт self — только в окно тишины (`GET /status` без активных задач):
общий инстанс с enduro-trails.
- Разовый разгребающий `chown -R 1000:1000 /home/slin/repos/orchestrator` для старых
`root:root` файлов из истории (вне объёма кода).
- **P-5 (блокер миграции uid, ORCH-057):** нормализация **всех** legacy `root:root` файлов в `/repos`
— см. подраздел «Миграция uid: обязательная нормализация legacy root-файлов» ниже. Без неё первый
job падает на launch при создании worktree (инцидент 06.06, ORCH-043).
### Миграция uid: обязательная нормализация legacy root-файлов (ORCH-057)
ORCH-040 сменил `user:` контейнера, но **не** владельца уже существующих файлов в bind-mount `/repos`,
созданных прежним root-контейнером. Под uid 1000 `src/git_worktree.py::ensure_worktree` не может
создать worktree рядом с `root:root` каталогом `/repos/_wt/``fatal: could not create leading
directories … Permission denied` (агент даже не стартует). С ORCH-057 эта ошибка распознаётся и
выдаётся **внятно** (с лечащей командой) + детектится на старте сервиса (WARNING/Telegram, блок
`fs_ownership` в `GET /queue`), но **фактический `chown` обязан выполнить оператор под root на хосте**
(контейнер бежит без root и chown'ить чужие файлы не может).
**Обязательный разовый шаг при миграции uid / на новой среде (под root на mva154, ПЕРЕД стартом app):**
```bash
# 1) worktree-корень (все ветки всех проектов режутся здесь)
sudo chown -R 1000:1000 /home/slin/repos/_wt
# 2) .git обоих репо (objects / worktrees-административные записи)
sudo chown -R 1000:1000 /home/slin/repos/orchestrator/.git \
/home/slin/repos/enduro-trails/.git
# 3) корень orchestrator целиком (включая data/runs/*.log — 37 root-логов в инциденте)
sudo chown -R 1000:1000 /home/slin/repos/orchestrator
# Проверка (пусто = ок):
find /home/slin/repos/_wt ! -uid 1000 -print -quit
```
Процедура **идемпотентна** (повтор на корректной среде — no-op) и входит в **чеклист деплоя/миграции
self**. Область охвата: `_wt`, оба `.git` (`objects`+`worktrees`), `data/runs`. См.
`docs/work-items/ORCH-057/06-adr/ADR-001-legacy-ownership-normalization.md` и сквозной
`docs/architecture/adr/adr-0031-legacy-ownership-normalization.md`.
### Тома (volumes)
- `./data``/app/data` (БД; у staging — `./data/staging`)

View File

@@ -0,0 +1,48 @@
---
staging_status: SUCCESS
work_item: ORCH-009
stage: deploy-staging
author_agent: deployer
status: success
created_at: 2026-06-10
model_used: claude-fable-5
timestamp: 2026-06-10T13:07:10Z
base_url: http://localhost:8501
---
# Staging Gate Log
Staging test suite completed against the live staging environment
(`orchestrator-staging`, 8501), run canonically inside the container
(ORCH-048, ADR-001: `docker exec orchestrator-staging python3
/repos/orchestrator/scripts/staging_check.py --base-url http://localhost:8501
--mode stub`).
**Verdict: SUCCESS** (exit code 0).
## Results
Result: 8/10 checks PASS. All REAL (pipeline) checks are green:
- **Block A (SMOKE)**: A1 `/health` → 200 status=ok, A2 `/queue` → 200 with
counts/max_concurrency/resilience (incl. `serial_gate`, `coverage`,
`auto_labels`, `stop`, `bug_fast_track`, `lessons` blocks), A3
`ORCH_STAGING=true` — PASS
- **Block B (ACCESS)**: B4 Plane sandbox accessible, B5 Gitea
`orchestrator-sandbox` accessible (push=true), B6 registry isolation
(sandbox present, prod ET/ORCH absent) — PASS
- **Block C (E2E, mode=stub)**: C7 create issue in Plane SANDBOX (HTTP 201),
C8 trigger pipeline via `/webhook/plane` (HTTP 200, accepted) — PASS;
cleanup completed (Plane issue deleted, HTTP 204)
REAL failed: none.
The two failed checks (C9a/C9b) are known sandbox-infra checks (they depend on
SANDBOX bot accounts being project members, not on the pipeline) and were
waived per ORCH-061 (`staging_infra_tolerance_enabled=True`); the script still
exited 0 fail-closed because every REAL check is green.
```
INFRA-WAIVED: C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue (known sandbox-infra; real checks green)
VERDICT: SUCCESS (exit 0) — SUCCESS (infra-waived): ['C9a Branch appears in orchestrator-sandbox', 'C9b Analyst job enqueued in staging queue'] are known sandbox-infra checks; all real checks green
```

View File

@@ -0,0 +1,7 @@
# Business Request: Режим багфиксинга: упрощённый/дешёвый трек для багов (не полный цикл)
Work Item ID: ORCH-019
## Description
TBD

View File

@@ -0,0 +1,178 @@
---
work_item: ORCH-019
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 01 — BRD (бизнес-требования): ORCH-019 — Режим багфиксинга (упрощённый/дешёвый трек для багов)
Work Item: **ORCH-019** · Repo: **orchestrator** (self-hosting) · Стадия: analysis
Заказчик: Слава · Тип: фича (новый режим конвейера, опциональный, под флагом)
> ⚠️ **Принцип, заданный Владельцем (нерушимый):** упрощаем **аналитику**, но **НЕ ослабляем
> качество**. Гейты CI / review / tester verdict / deploy verdict **остаются**. Горький урок
> ET-8 / BUG-TESTS-SUBSTRING: срезанная *проверка* = недоделка на проде. «Дешевле ≠
> бесконтрольнее». Этот принцип — корневой инвариант всей задачи (см. NFR-1, BR-6).
---
## 1. Бизнес-контекст и проблема
### 1.1. Цель
Дать оркестратору **отдельный удешевлённый трек для багфиксов**. Сейчас любой баг (пример:
зашёл на карту enduro-trails, увидел дефект, завёл задачу) идёт по **полному** конвейеру
`analysis → architecture → development → review → testing → deploy-staging → deploy`. Для мелкой
правки полный цикл **избыточен**: лишние стадии (полный BRD/TRZ/AC + архитектурный ADR) тратят
токены и время, не добавляя ценности на однострочном фиксе.
### 1.2. Установленные факты (проверено по коду, не изобретать)
- **Точка входа задачи в конвейер:** `src/webhooks/plane.py::start_pipeline` создаёт task-row
с **жёстко зашитой** начальной стадией `"analysis"` (`create_task_atomic(..., "analysis", ...)`)
и режет ветку (`_create_gitea_branch`). Это единственная точка, где задаётся точка входа.
- **Маршрутизация стадий полностью управляется** `src/stages.py::STAGE_TRANSITIONS` через
`get_next_stage``advance_stage` (`src/stage_engine.py`) не содержит «зашитого» порядка стадий,
он спрашивает `get_next_stage`. → Изменение точки входа / маршрута локализуемо, машину стадий
ломать не нужно.
- **Метка задачи уже читается из Plane** аппаратом ORCH-089: `src/labels.py::has_label` +
`plane_sync.fetch_issue_labels` / `get_project_labels` (TTL-кэш, нормализация имени, never-raise,
fail-safe → False). Источник истины — Plane API, **не** payload вебхука (`type`/`priority` в
payload отсутствуют). Это готовый, проверенный шаблон классификации задачи.
- **Все Quality Gate'ы читают вердикт из артефактов**, а не из стадии входа: `check_ci_green`,
`check_reviewer_verdict` (`12-review.md`), `check_tests_passed` (`13-test-report.md`),
`check_staging_status`, `check_deploy_status`, под-гейты security/merge/coverage/image-freshness.
Они **не зависят** от того, прошла ли задача `analysis`/`architecture`, → их можно сохранить
нетронутыми при срезанном «входе».
- **Coverage-гейт (ORCH-027)** уже структурно ловит «код без тестов» на ребре
`deploy-staging → deploy` — союзник принципа «баг фиксируется тестом».
- **Прецедент стоимости:** UI z-index баг ET-9/ET-014 прошёл **полный** цикл ~35 мин — типичный
кандидат на удешевление.
### 1.3. Связки и разграничение
- **ORCH-13 (роутинг моделей):** «дешёвая модель на багфиксе» (Вариант 4 постановки) —
**вне объёма** ORCH-019, отдельная задача; ORCH-019 лишь оставляет точку композиции
(флаг bug-track наблюдаем, по нему ORCH-13 позже может выбрать модель). См. §2.2.
- **ORCH-088 (serial gate) / ORCH-089 (auto-label):** ORCH-019 **сосуществует** с ними и
переиспользует их аппарат (label-чтение, per-repo flag, claim-gate); не конфликтует.
- **ORCH-12 / ORCH-14 (UX) / ET-9 (визуальные баги):** часть багов визуальные и может требовать
мини-макета — для таких случаев предусмотрен механизм **эскалации обратно в полный цикл**
(BR-5), а не слепое удешевление.
- **ORCH-8 (петля уроков):** баг, найденный на проде, — сигнал петли уроков; ORCH-019 этого не
меняет (post-deploy-телеметрия ORCH-021 сохраняется).
---
## 2. Объём (scope)
### 2.1. В объёме
- **BR-1 — Классификация «баг».** Задача распознаётся как баг по **метке Plane** (рекоменд. имя
`Bug`), читаемой аппаратом ORCH-089. Операторская, детерминированная, обратимая разметка.
- **BR-2 — Упрощённый трек.** Багфикс-задача идёт по **укороченному** пути: пропускается
**тяжёлая аналитика и стадия `architecture`** (полный BRD/TRZ/AC/ADR не требуются); вместо них —
**минимальный набор артефактов** (короткий bug-report + обязательный план регресс-теста).
- **BR-3 — Гейты качества сохраняются ПОЛНОСТЬЮ.** CI (`check_ci_green`), review
(`check_reviewer_verdict`), testing (`check_tests_passed`), staging/deploy-вердикты и под-гейты
(security/merge/coverage/image-freshness) исполняются **без изменений** на багфикс-треке.
- **BR-4 — Обязательный регресс-тест.** Багфикс **обязан** зафиксировать дефект тестом (тест,
падающий до фикса и зелёный после) — главный предохранитель от рецидива (урок ET-8).
- **BR-5 — Эскалация в полный цикл.** Если баг оказался сложным/архитектурным или визуальным
(нужен макет), он **возвращается** в полный цикл; багфикс-трек не «застревает» на сложном.
- **BR-6 — Безопасность по умолчанию (fail-safe → полный цикл).** Любая неоднозначность/ошибка
чтения метки/выключенный флаг → задача идёт **полным** циклом (никогда не «теряет» стадии молча).
- **BR-7 — Наблюдаемость стоимости.** Виден факт «задача на багфикс-треке» и метрика экономии
(стадии/agent-runs/токены/время) относительно полного цикла.
### 2.2. Вне объёма (явно не делать)
- **Роутинг моделей (ORCH-13 / Вариант 4):** выбор дешёвой модели на багфиксе — отдельная задача.
- **Авто-триаж сложности аналитиком (полный Вариант 3):** автоматическая classification
`trivial/small/complex` LLM-аналитиком — будущее развитие; v1 опирается на явную метку оператора
+ ручную/мини-эскалацию (BR-5), не на ML-классификатор.
- **Изменение `STAGE_TRANSITIONS` (новые стадии), реестра `QG_CHECKS`, семантики любого `check_*`,
вердикт-ключей** (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`/
`coverage_status:`).
- **Параллелизм багфиксов**, изменение `max_concurrency`, merge-очередь.
- **Полный отказ от стадии `analysis`** (вариант «hotfix → сразу development») как дефолт — см.
§6 (требуется минимальный аналитический проход ради регресс-теста и трассируемости). Чистый
hotfix без аналитики оставлен как возможная опция архитектора, но не дефолт.
---
## 3. Заинтересованные стороны
- **Владелец/оператор (Слава):** ставит метку `Bug`, получает быстрый дешёвый фикс, эскалирует
сложный баг, читает метрику экономии.
- **Self-hosting прод (`orchestrator`) и enduro-trails:** общий инстанс/БД/очередь — режим обязан
быть аддитивным, под флагом, per-repo, с нулевой регрессией при выключении (FR-условие).
- **Агенты конвейера (analyst/developer/reviewer/tester):** работают по тем же контрактам; на
багфикс-треке analyst выдаёт облегчённый пакет, остальные — как обычно.
---
## 4. Бизнес-требования (BR) — сводная таблица
| ID | Требование | Связь |
|----|------------|-------|
| BR-1 | Задача распознаётся как баг по метке Plane (`Bug`), читаемой через аппарат ORCH-089 (`labels.has_label` + `plane_sync.fetch_issue_labels`). Источник истины — Plane API, не payload. | FR-1, AC-1 |
| BR-2 | Багфикс-задача пропускает тяжёлую аналитику и стадию `architecture`; маршрут `analysis(lite) → development → review → testing → deploy-staging → deploy`. Полный BRD/TRZ/AC/ADR не обязателен. | FR-2, AC-2 |
| BR-3 | Все Quality Gate'ы (CI/review/tester/staging/deploy + под-гейты security/merge/coverage/image-freshness) исполняются на багфикс-треке **без изменений**. | FR-3, AC-3 |
| BR-4 | Багфикс обязан содержать **регресс-тест** (падает до фикса, зелён после); отсутствие нового/изменённого теста на исправление — повод для REQUEST_CHANGES reviewer'ом. | FR-3/FR-4, AC-4 |
| BR-5 | Существует механизм **эскалации** багфикса в полный цикл (сложный/архитектурный/визуальный баг) — задача возвращается на полную аналитику/архитектуру. | FR-5, AC-5 |
| BR-6 | **Fail-safe:** при выключенном флаге, ошибке/неоднозначности чтения метки, неприменимом репо — задача идёт **полным** циклом (никогда не теряет стадии молча). never-raise. | FR-6, AC-6 |
| BR-7 | Факт багфикс-трека и метрика экономии (пропущенные стадии / Σ agent-runs / токены / время vs полный цикл) наблюдаемы (`GET /queue` блок + лог/Telegram-карточка). | FR-7, AC-7 |
| BR-8 | Поведение управляется kill-switch'ом и областью репо (как ORCH-35/43/58/88/89): выключение флага → строго прежнее поведение (нулевая регрессия для enduro и для orchestrator). | NFR-2, AC-6 |
---
## 5. Нефункциональные требования (NFR)
| ID | Требование |
|----|------------|
| NFR-1 | **Качество не ослабляется (корневой инвариант).** Срезается только *аналитика/архитектура*; ни один Quality Gate, exit-код deploy-хука, под-гейт безопасности/покрытия — не ослаблен и не пропущен. |
| NFR-2 | **Нулевая регрессия / аддитивность.** При `bug_fast_track_enabled=False` или неприменимом репо путь старта и маршрут идентичны текущим. `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/вердикт-ключи/схема БД — не меняются (допустима лишь аддитивная идемпотентная миграция, если архитектор сочтёт нужным помечать тип задачи в БД). |
| NFR-3 | **never-raise / fail-safe.** Любая ошибка классификации/маршрутизации → деградация на полный цикл, не падение вебхука/конвейера (по образцу `labels.py`/`serial_gate.py`). |
| NFR-4 | **Offline-устойчивость горячего пути.** Классификация может ходить в Plane API только в момент `start_pipeline` (как ORCH-089), но **не** в горячем `claim_next_job` (иначе встанет очередь всех проектов). |
| NFR-5 | **Per-repo область.** Режим включается по CSV-области репо; orchestrator и enduro управляются независимо. |
| NFR-6 | **Self-hosting безопасность.** Механизм не рестартит/не роняет прод-контейнер, не пушит/force-push в `main`. |
| NFR-7 | **Композируемость.** Корректно сосуществует с serial-gate (ORCH-088), auto-label (ORCH-089), coverage-gate (ORCH-027), merge-gate (ORCH-043). |
---
## 6. Допущения и ограничения
- **Минимальный аналитический проход сохраняется** (а не «hotfix → сразу dev»): ради (а)
фиксации регресс-теста как контракта приёмки (BR-4), (б) трассируемости (минимальный bug-report).
Полный отказ от `analysis` для багов оставлен архитектору как опция, но дефолт — мини-анализ.
Обоснование: урок ET-8 — именно отсутствие явного теста-фиксатора привело к «недоделка в Done».
- **Классификация v1 — явная метка оператора**, не LLM-авто-триаж (Вариант 3 в полном объёме —
будущее). Метка `Bug` должна существовать в Plane-проекте; её отсутствие = fail-safe полный цикл.
- **Эскалация v1** — допускает как минимум ручной путь (снять метку `Bug` / вернуть стадию) и/или
решение мини-аналитика «баг сложный → не фаст-трекать». Конкретный механизм — архитектору.
- **Стоимость измеряется относительно**: метрика «во сколько раз дешевле» считается по факту из
существующей телеметрии `agent_runs` (стадии/токены/время), без новой тяжёлой инфраструктуры.
---
## 7. Критерии успеха (резюме; детали — `03-acceptance-criteria.md`)
- AC-1 — задача с меткой `Bug` распознаётся и помечается как багфикс-трек.
- AC-2 — багфикс-задача проходит конвейер, пропустив стадию `architecture` (и тяжёлый BRD/TRZ/AC).
- AC-3 — все Quality Gate'ы исполнены на багфикс-треке (CI/review/tester/staging/deploy + под-гейты).
- AC-4 — багфикс содержит регресс-тест; его отсутствие даёт REQUEST_CHANGES.
- AC-5 — сложный/визуальный баг эскалируется в полный цикл.
- AC-6 — при выключенном флаге / ошибке / неприменимом репо — поведение строго прежнее (полный цикл).
- AC-7 — факт багфикс-трека и метрика экономии наблюдаемы.
---
## 8. Риски (детали — `10-tech-risks.md`, заполняет архитектор)
- R-1: **Срезали лишнее.** Ошибочный пропуск гейта качества → недоделка на проде (ET-8). Митигатор —
NFR-1: режется только аналитика/архитектура, гейты структурно нетронуты + тест AC-3.
- R-2: **Сложный баг под меткой `Bug`** уходит на фаст-трек и упирается в отсутствие архитектуры →
нужна эскалация (BR-5) и/или решение мини-аналитика.
- R-3: **Регресс-тест не написан** (developer «забыл») → рецидив бага. Митигатор — BR-4 + reviewer-ось
+ союзник coverage-gate (ORCH-027).
- R-4: **Fail-safe инвертирован** (ошибка → молча срезали стадии) → недоделка. Митигатор — NFR-3
fail-safe строго в сторону полного цикла + тест AC-6.
- R-5: **Конфликт с serial-gate/auto-label** при изменённой точке входа. Митигатор — NFR-7 +
интеграционный тест композиции.
</content>
</invoke>

View File

@@ -0,0 +1,207 @@
---
work_item: ORCH-019
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 02 — ТЗ (TRZ): ORCH-019 — Режим багфиксинга (упрощённый/дешёвый трек для багов)
Work Item: **ORCH-019** · Repo: **orchestrator** · Стадия: analysis
> ТЗ описывает **что** должно измениться и **где** (модули/контракты/артефакты), выведенное из BRD
> и фактического кода. **Как** (точная схема: где именно ветвить маршрут, хранить ли тип задачи в
> БД, отдельный leaf-модуль или расширение `labels.py`) — решает архитектор в `06-adr/`. ТЗ
> фиксирует требования и границы, архитектурное решение не предлагает.
> ⚠️ **Корневой инвариант (NFR-1 BRD):** срезается ТОЛЬКО аналитика/архитектура. Любой Quality Gate,
> exit-код deploy-хука, под-гейт безопасности/покрытия — байт-в-байт прежние.
---
## 1. Сводка изменения
Ввести **опциональный багфикс-трек**: задача, помеченная в Plane меткой `Bug`, проходит конвейер по
**укороченному маршруту** — пропускается стадия `architecture` и тяжёлая аналитика (полный
BRD/TRZ/AC/ADR заменяются минимальным bug-report + обязательным планом регресс-теста). Все
Quality Gate'ы (CI/review/tester/staging/deploy + под-гейты security/merge/coverage/image-freshness)
исполняются **без изменений**. Распознавание бага и маршрут — аддитивно, под kill-switch, с областью
репо, never-raise, fail-safe → полный цикл. `STAGE_TRANSITIONS` и реестр `QG_CHECKS` структурно не
меняются.
---
## 2. Задействованные модули / пути
| Путь | Роль в задаче | Характер изменения |
|------|---------------|--------------------|
| `src/labels.py` | аппарат чтения метки Plane (ORCH-089: `has_label`, `*_applies`) | переиспользовать; **добавить** `is_bug_task(work_item_id, project_id) -> bool` + `bug_fast_track_applies(repo) -> bool` (по образцу `auto_approve_applies`), либо вынести в новый leaf `src/bug_fast_track.py` (never-raise) — выбор архитектора |
| `src/plane_sync.py` | `fetch_issue_labels` / `get_project_labels` / `_normalize_label` | **без изменений** — переиспользуются для чтения метки `Bug` (источник истины — Plane API) |
| `src/webhooks/plane.py` | `start_pipeline` (создаёт task-row со стадией `"analysis"`, режет ветку `_create_gitea_branch`), `handle_status_start`, `handle_issue_updated` | **ключевая врезка:** перед `create_task_atomic(...)` определить тип задачи и (при багфикс-треке) пометить задачу багом / задать укороченный маршрут. Внешний контракт вебхука Plane не меняется |
| `src/stages.py` | `STAGE_TRANSITIONS`, `get_next_stage` | **структура `STAGE_TRANSITIONS` не меняется** (новых стадий нет). Требование: маршрут багфикса = `analysis → development` (пропуск `architecture`). Механизм (условный `get_next_stage` по типу задачи / bug-mode-флаг на task) — архитектору |
| `src/stage_engine.py` | `advance_stage`, `_run_qg`, `_handle_analysis_approved_flow`, откаты | `advance_stage` уже маршрутизирует через `get_next_stage` (не зашивает порядок) → при условной маршрутизации правка точечная. Гейты диспетчеризуются как раньше |
| `src/db.py` | `create_task_atomic(plane_id, work_item_id, repo, branch, stage, title)`, схема `tasks`, `claim_next_job` | если архитектор решит хранить «тип=bug» в БД — **аддитивная идемпотентная** колонка (`_ensure_column`, напр. `tasks.track TEXT DEFAULT 'full'`); горячий `claim_next_job` **не** должен ходить в сеть (NFR-4) |
| `src/config.py` | флаги фичи | новые: `bug_fast_track_enabled`, `bug_fast_track_label`, `bug_fast_track_repos` (CSV) + helper `applies(repo)` по образцу `auto_label_*` / `serial_gate_*` |
| `src/qg/checks.py` | реестр `QG_CHECKS` и `check_*` | **без изменений** (инвариант NFR-1) |
| `src/serial_gate.py`, `src/coverage_gate.py`, `src/merge_gate.py` | композиция | **без изменений**; проверить совместимость (NFR-7) интеграционным тестом |
| `src/main.py` | `GET /queue` | **аддитивный** read-only блок `bug_fast_track` (флаг/область/счётчики/метрика экономии) |
| `src/notifications.py` | live-карточка | опционально — отметка «🐞 багфикс-трек» в карточке (never-raise) |
| `.openclaw/agents/analyst.md` | промпт мини-аналитика | при багфикс-треке выдавать **облегчённый** пакет (bug-report + регресс-тест-план), не полный BRD/TRZ/AC. Канон промптов 52d не нарушать |
| `.openclaw/agents/reviewer.md` | ось контроля | добавить ось «багфикс без регресс-теста → REQUEST_CHANGES» (BR-4) — нормативно-описательно, не машинный гейт |
---
## 3. Функциональные требования
### FR-1 — Классификация задачи как «баг» (BR-1)
- Багфикс-трек активируется, если issue несёт метку Plane с именем `bug_fast_track_label`
(дефолт `Bug`), прочитанную через `labels.has_label(work_item_id, label, project_id)` (ORCH-089:
`fetch_issue_labels` + `get_project_labels`, нормализация `_normalize_label`, TTL-кэш).
- **Источник истины — Plane API**, не payload вебхука (поле `type` в payload отсутствует).
- Чтение метки допускается **только** в `start_pipeline` (момент старта, сетевой вызов приемлем,
как ORCH-089) — **не** в горячем `claim_next_job` (NFR-4).
- `applies(repo)` (локальный, без сети) проверяется **первым**; `has_label` (сеть) — только при
`applies==True` → при выключенном флаге нулевой сетевой оверхед (образец ORCH-089).
### FR-2 — Укороченный маршрут (BR-2)
- Для багфикс-задачи маршрут конвейера: `analysis(lite) → development → review → testing →
deploy-staging → deploy → done`, т.е. **пропускается стадия `architecture`** (и её exit-гейт
`check_architecture_done` / требование `06-adr/`).
- `STAGE_TRANSITIONS` **не изменяется структурно**. Требуемый инвариант результата: при выходе
багфикс-задачи из `analysis` следующая стадия = `development` (а не `architecture`); для
не-багфикс задач — прежняя `architecture`. Конкретный механизм (условный `get_next_stage(stage,
task)` / bug-mode-флаг на task / точка входа сразу в `development`) — решение архитектора.
- Тяжёлая аналитика облегчается: на багфикс-треке обязательны лишь `01-brd.md` (короткий
bug-report: симптом, шаги воспроизведения, локализация, причина) и `04-test-plan.yaml` (план
регресс-теста). Полные `02-trz.md`/`03-acceptance-criteria.md` и `06-adr/` — **не обязательны**.
(Совместимость с `check_analysis_complete`, требующим `01/02/03/04` — см. FR-6.)
### FR-3 — Гейты качества сохраняются полностью (BR-3, корневой инвариант)
- На багфикс-треке исполняются **без изменений**: `check_ci_green` (development→review),
`check_reviewer_verdict` (review→testing, `12-review.md`), `check_tests_passed` (testing→
deploy-staging, `13-test-report.md`), `check_staging_status`, `check_deploy_status`, под-гейты
ребра `deploy-staging→deploy` (security ORCH-022 → merge ORCH-043 → coverage ORCH-027 →
image-freshness ORCH-058) и merge-verify ребра `deploy→done` (ORCH-071/073).
- Ни один `check_*`, его сигнатура, вердикт-ключ или порядок под-гейтов **не меняется**.
### FR-4 — Обязательный регресс-тест (BR-4)
- Багфикс **обязан** содержать новый/изменённый тест, воспроизводящий дефект (красный до фикса,
зелёный после). Требование закрепляется: (а) в `04-test-plan.yaml` багфикса как обязательный TC;
(б) reviewer-осью (`.openclaw/agents/reviewer.md`): «исправление кода без теста-фиксатора →
finding ≥P1 / REQUEST_CHANGES»; (в) усиливается coverage-гейтом ORCH-027 (структурно ловит «код
без тестов»). Это требование, не новый машинный гейт.
### FR-5 — Эскалация в полный цикл (BR-5)
- Багфикс-задача должна иметь путь возврата в полный цикл, если баг оказался сложным/архитектурным
или визуальным (нужен макет — связка ORCH-12/14, прецедент ET-9). Минимум v1: ручная эскалация
(оператор снимает метку `Bug` / переводит стадию) **и/или** решение мини-аналитика «баг сложный →
не фаст-трекать» (тогда задача идёт штатным маршрутом с `architecture`). Конкретный механизм и
его автоматизация — архитектору; v1 не обязан включать LLM-авто-триаж сложности.
### FR-6 — Fail-safe → полный цикл (BR-6, NFR-3)
- При `bug_fast_track_enabled=False`, неприменимом репо, ошибке/таймауте/неоднозначности чтения
метки (`has_label` → False / `None`-labels), отсутствии метки `Bug` в проекте — задача идёт
**полным** циклом (точка входа `analysis`, маршрут с `architecture`). never-raise: ошибка логики
не роняет `start_pipeline`/вебхук.
- **Совместимость с `check_analysis_complete`** (требует наличие `01/02/03/04`): при облегчённом
пакете багфикса гейт не должен ложно блокировать. Варианты (архитектору): мини-аналитик всё равно
эмитит заглушки `02/03` ИЛИ гейт `check_analysis_approved` на багфикс-треке учитывает облегчённый
набор. Требование: **не ослабить** проверку для не-баг задач и **не заблокировать ложно** баг.
### FR-7 — Наблюдаемость стоимости (BR-7)
- Факт «задача на багфикс-треке» и метрика экономии видны: (а) аддитивный блок `bug_fast_track` в
`GET /queue` (флаг/область + счётчик задач на треке + агрегат сэкономленных стадий/agent-runs);
(б) лог-строка на решение о маршруте; (в) опц. отметка в Telegram-карточке. Метрика «во сколько
дешевле» считается из существующей телеметрии `agent_runs` (Σ токены/время багфикс-трека vs
средний полный цикл) — без новой тяжёлой инфраструктуры.
---
## 4. Изменения API
### 4.1. Новые публичные endpoint'ы
- **Не требуются обязательно.** (Эскалация и классификация идут через Plane-метки/статусы, не через
новый HTTP-эндпоинт. Если архитектор вводит админ-эндпоинт принудительной (де)классификации —
описать в ADR и обновить таблицу API в README.)
### 4.2. Изменяемые endpoint'ы
- `GET /queue` — **аддитивно** добавляется блок `bug_fast_track` (read-only, never-raise) по образцу
блоков `serial_gate` / `auto_labels` / `coverage`: `enabled`, `repos`, `label`, перечень/счётчик
задач на багфикс-треке, агрегатная метрика экономии. Существующие ключи `GET /queue` не меняются.
### 4.3. Webhook-обработчики
- `start_pipeline` (`webhooks/plane.py`): добавляется ветвление «issue имеет метку `Bug` и
`applies(repo)` → багфикс-трек (пометить задачу / задать укороченный вход-маршрут)». Внешний
контракт вебхука Plane не меняется.
---
## 5. Изменения схемы БД
> Только **аддитивные, идемпотентные** миграции (общая прод-БД; enduro не трогать).
- **Опционально (выбор архитектора):** если тип задачи нужно знать после старта (для маршрутизации
в `advance_stage`/`get_next_stage` и для метрики), ввести аддитивную колонку
`tasks.track TEXT DEFAULT 'full'` (значения `full` | `bug`) через `_ensure_column` (паттерн
`tasks.cancelled_at` ORCH-090). Тогда горячий `claim_next_job` читает тип из БД, **не** из сети
(NFR-4). Альтернатива без колонки (вывести тип повторным чтением метки) допустима, но повторный
сетевой вызов в горячем пути запрещён (NFR-4) → колонка предпочтительнее.
- **Существующие** `tasks`-контракт (прочие колонки), `jobs`, `job_deps`, `agent_runs`,
`coverage_baseline`, `repo_freeze` — **без изменений**.
---
## 6. Требования к новым/изменённым QG checks
- **Новых QG-проверок не вводить; ни один `check_*` не менять семантически** (NFR-1). Маршрутизация
багфикса — свойство планировщика/точки входа, **не** Quality Gate.
- Единственная допустимая тонкая правка — обеспечить, чтобы exit-гейт стадии `analysis`
(`check_analysis_approved` / helper `check_analysis_complete`) **не блокировал ложно** облегчённый
багфикс-пакет, **не ослабляя** проверку для полного цикла (FR-6). Если для этого требуется правка
`check_*` — она должна сохранить вердикт-семантику для не-баг задач байт-в-байт.
---
## 7. Совместимость / регресс
- **Kill-switch** `bug_fast_track_enabled` (env `ORCH_BUG_FAST_TRACK_ENABLED`); `False` → точка входа
и маршрут строго прежние (`analysis → architecture → …`), нулевая регрессия (NFR-2).
- **Область репо** `bug_fast_track_repos` (CSV; пусто → рекомендуется self-hosting + явно
разрешённые проекты, где есть метка `Bug` — решение об области по умолчанию фиксирует архитектор).
- **`applies(repo)` первым** (локально, без сети) → выключенный флаг = нулевой сетевой оверхед,
enduro не затронут.
- **Композиция (NFR-7):** не конфликтует с serial-gate (ORCH-088: багфикс-задача — обычная задача
репо, учитывается в serial-очереди), auto-label (ORCH-089: `autoApprove`/`autoDeploy` работают и
на багфикс-треке), coverage-gate (ORCH-027: союзник BR-4), merge-gate (ORCH-043).
- **never-raise / fail-safe** (NFR-3): ошибка классификации/маршрута → полный цикл, не падение.
- **Self-hosting** (NFR-6): механизм не рестартит/не роняет прод, не пушит/force-push в `main`.
- **Маркеры трассировки** (CLAUDE.md §9): новые инварианты помечаются `ORCH-019`; правка
маркированного кода (ORCH-088/089/027) — со сверкой их `06-adr/`.
---
## 8. Артефакты pipeline (создать/обновить в ТОМ ЖЕ PR)
- `docs/work-items/ORCH-019/06-adr/ADR-001-<slug>.md` — решение (механизм маршрута, хранение типа,
совместимость с `check_analysis_complete`, область по умолчанию, механизм эскалации).
- `docs/architecture/README.md` — новый раздел «Багфикс-трек (ORCH-019)» + блок `bug_fast_track` в
описании `GET /queue`; при новой колонке — раздел «База данных».
- `CLAUDE.md` — краткий абзац о багфикс-режиме (правила для агентов / конвейер).
- `CHANGELOG.md` — запись `feat:`.
- `.openclaw/agents/analyst.md` / `reviewer.md` — облегчённый пакет багфикса + reviewer-ось
регресс-теста (канон 52d не нарушать).
- При новой колонке — `docs/work-items/ORCH-019/08-data-requirements.md` (заполняет архитектор).
---
## 9. Открытые вопросы для архитектора (не блокируют анализ)
- OQ-1: Механизм пропуска `architecture` — условный `get_next_stage(stage, task)`, bug-mode-флаг на
task, или прямой вход багфикса сразу в `development` с сохранённым мини-bug-report? (Влияет на
§3 `stages.py`/`stage_engine.py` и на `check_analysis_complete`.)
- OQ-2: Хранить ли тип задачи в БД (`tasks.track`) vs выводить из метки. Рекоменд. — колонка
(NFR-4 запрещает сеть в горячем claim).
- OQ-3: Сохранять ли мини-стадию `analysis(lite)` (рекоменд., ради регресс-теста и трассируемости)
или допустить чистый hotfix `→ development` (вне дефолта). См. BRD §6.
- OQ-4: Механизм эскалации (BR-5) — только ручной (снять метку/сменить стадию) или авто-сигнал
мини-аналитика «баг сложный → полный цикл».
- OQ-5: Область по умолчанию (пустой CSV) — self-hosting only vs все репо с меткой `Bug`.
- OQ-6: Совместимость с `check_analysis_approved`/`check_analysis_complete` на облегчённом пакете
(FR-6) — заглушки `02/03` vs условный учёт гейтом.
</content>

View File

@@ -0,0 +1,139 @@
---
work_item: ORCH-019
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 03 — Критерии приёмки (Acceptance Criteria): ORCH-019 — Режим багфиксинга
Work Item: **ORCH-019** · Repo: **orchestrator** · Стадия: analysis
Формат: каждый критерий имеет **PASS** (что должно быть истинно для приёмки) и **FAIL** (что
считается провалом). Reviewer/tester проверяют их буквально по файлам репозитория и тестам.
> ⚠️ Корневой инвариант (см. AC-3/AC-8): срезается только аналитика/архитектура; ни один Quality
> Gate не ослаблен. Это главное условие приёмки — нарушение = безусловный FAIL всей задачи.
---
## AC-1 — Классификация задачи по метке `Bug`
**Условие:** issue с меткой Plane `bug_fast_track_label` (дефолт `Bug`) при включённом флаге и
применимом репо распознаётся как багфикс-задача.
- **PASS:** при `bug_fast_track_enabled=True` и `applies(repo)==True` для issue с меткой `Bug`
`is_bug_task(...)` возвращает `True` (через `labels.has_label``plane_sync.fetch_issue_labels`);
задача стартует на багфикс-треке. Источник метки — Plane API, не payload вебхука.
- **FAIL:** метка `Bug` игнорируется; ИЛИ тип читается из payload вебхука; ИЛИ задача без метки
`Bug` ошибочно попадает на багфикс-трек.
---
## AC-2 — Укороченный маршрут: пропуск стадии `architecture`
**Условие:** багфикс-задача проходит конвейер, минуя стадию `architecture`.
- **PASS:** для багфикс-задачи переход из `analysis` ведёт в `development` (а не `architecture`);
стадия `architecture` и её требование `06-adr/` для багфикса не исполняются; задача доходит до
`done`. Маршрут не-баг задачи остаётся `analysis → architecture → development → …`.
- **FAIL:** багфикс-задача всё равно проходит `architecture`; ИЛИ не-баг задача начинает пропускать
`architecture`; ИЛИ `STAGE_TRANSITIONS` изменён структурно (новые/удалённые стадии).
---
## AC-3 — Все Quality Gate'ы исполнены на багфикс-треке (корневой инвариант)
**Условие:** на багфикс-треке исполняются все гейты качества без изменений.
- **PASS:** для багфикс-задачи отрабатывают `check_ci_green`, `check_reviewer_verdict`
(`12-review.md`), `check_tests_passed` (`13-test-report.md`), `check_staging_status`,
`check_deploy_status` и под-гейты ребра `deploy-staging→deploy` (security → merge → coverage →
image-freshness) и merge-verify ребра `deploy→done`. Реестр `QG_CHECKS`, сигнатуры `check_*`,
вердикт-ключи (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`/
`coverage_status:`) и порядок под-гейтов — байт-в-байт прежние.
- **FAIL:** хоть один гейт качества пропущен/ослаблен/изменён на багфикс-треке; ИЛИ изменён состав
`QG_CHECKS` / имя или регистр любого вердикт-ключа / порядок под-гейтов.
---
## AC-4 — Обязательный регресс-тест
**Условие:** багфикс фиксирует дефект тестом.
- **PASS:** PR багфикса содержит новый/изменённый тест, воспроизводящий исправляемый дефект
(красный на коде до фикса, зелёный после); требование закреплено в `04-test-plan.yaml` багфикса
и в reviewer-оси (`.openclaw/agents/reviewer.md`: фикс без теста → finding ≥P1 / REQUEST_CHANGES).
- **FAIL:** багфикс мержится без теста-фиксатора; ИЛИ reviewer-ось отсутствует/не срабатывает; ИЛИ
тест присутствует, но не падает на исходном (нефиксированном) коде.
---
## AC-5 — Эскалация сложного бага в полный цикл
**Условие:** сложный/архитектурный/визуальный баг возвращается в полный цикл.
- **PASS:** существует и документирован путь эскалации (минимум ручной: снятие метки `Bug` /
перевод стадии, и/или решение мини-аналитика «баг сложный → не фаст-трекать»); после эскалации
задача проходит штатный маршрут с `architecture`.
- **FAIL:** механизма эскалации нет; ИЛИ багфикс-задача необратимо застревает без `architecture`,
когда баг требует архитектурного решения/макета.
---
## AC-6 — Fail-safe → полный цикл (нулевая регрессия)
**Условие:** при выключении/ошибке/неприменимости — строго прежнее поведение (полный цикл).
- **PASS:** при `bug_fast_track_enabled=False`, неприменимом репо, ошибке/таймауте/неоднозначности
чтения метки, отсутствии метки `Bug` — задача стартует на `analysis` и идёт маршрутом с
`architecture` (как до ORCH-019). Логика never-raise: ошибка не роняет `start_pipeline`/вебхук.
При выключенном флаге путь старта и маршрут идентичны текущим (диффом по поведению — нулевые).
- **FAIL:** ошибка/неоднозначность приводит к молчаливому пропуску стадий; ИЛИ исключение из
логики классификации роняет вебхук/конвейер; ИЛИ при выключенном флаге поведение отличается от
прежнего.
---
## AC-7 — Наблюдаемость трека и метрика стоимости
**Условие:** факт багфикс-трека и экономия наблюдаемы.
- **PASS:** `GET /queue` содержит аддитивный read-only блок `bug_fast_track` (флаг/область/метка +
счётчик задач на треке + агрегатная метрика экономии стадий/agent-runs/токенов/времени);
решение о маршруте логируется; существующие ключи `GET /queue` не изменены.
- **FAIL:** трек/метрика ненаблюдаемы; ИЛИ блок ломает существующий контракт `GET /queue`; ИЛИ
ошибка построения блока роняет эндпоинт (нарушен never-raise).
---
## AC-8 — Аддитивность и self-hosting безопасность
**Условие:** изменение аддитивно и безопасно для общего прод-инстанса.
- **PASS:** миграции БД (если есть) аддитивны и идемпотентны (`_ensure_column`/`CREATE TABLE IF NOT
EXISTS`); enduro при выключенном/неприменимом флаге не затронут; механизм не рестартит/не роняет
прод-контейнер, не пушит/force-push в `main`. Полный регресс `tests/` зелёный.
- **FAIL:** ломающая миграция/изменение существующих контрактов; ИЛИ затронут enduro при выключенном
флаге; ИЛИ механизм трогает прод-контейнер/`main`; ИЛИ красный `tests/`.
---
## AC-9 — Композиция с существующими гейтами
**Условие:** багфикс-трек корректно сосуществует с ORCH-088/089/027/043.
- **PASS:** багфикс-задача корректно учитывается serial-gate (ORCH-088) как обычная задача репо;
`autoApprove`/`autoDeploy` (ORCH-089) работают на багфикс-треке; coverage-gate (ORCH-027) и
merge-gate (ORCH-043) исполняются штатно. Интеграционный тест композиции зелёный.
- **FAIL:** изменённая точка входа ломает serial-очередь/auto-label/merge/coverage; ИЛИ багфикс-
задача обходит serial-gate.
---
## Сводная матрица AC ↔ BR/FR
| AC | Покрывает |
|----|-----------|
| AC-1 | BR-1 / FR-1 |
| AC-2 | BR-2 / FR-2 |
| AC-3 | BR-3 / FR-3 / NFR-1 |
| AC-4 | BR-4 / FR-4 |
| AC-5 | BR-5 / FR-5 |
| AC-6 | BR-6 / FR-6 / NFR-2 / NFR-3 |
| AC-7 | BR-7 / FR-7 |
| AC-8 | BR-8 / NFR-2 / NFR-6 |
| AC-9 | NFR-7 |
</content>

View File

@@ -0,0 +1,111 @@
work_item: ORCH-019
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
title: "Багфикс-трек: классификация по метке, укороченный маршрут, сохранность гейтов, fail-safe"
framework: pytest
scope: >
Покрывает: классификацию задачи как бага по метке Plane (ORCH-089-аппарат), маршрутизацию
багфикса в обход стадии architecture, сохранность ВСЕХ Quality Gate'ов, обязательность
регресс-теста, эскалацию в полный цикл, fail-safe → полный цикл, наблюдаемость/метрику,
аддитивность и композицию с serial-gate/auto-label/coverage. Вне покрытия: реальный
Plane/Gitea I/O (мокается), роутинг моделей ORCH-13, LLM-авто-триаж сложности.
notes: >
Сетевые вызовы Plane (fetch_issue_labels/get_project_labels) мокаются. Полный регресс tests/
должен оставаться зелёным. Тесты на сохранность гейтов проверяют НЕИЗМЕННОСТЬ QG_CHECKS/check_*/
вердикт-ключей — это анти-регресс корневого инварианта (NFR-1). Финальные имена модулей/функций
(labels.py vs новый bug_fast_track.py; tasks.track колонка) фиксирует архитектор — TC привязаны
к поведению, имена путей уточняются на стадии разработки.
tests:
- id: TC-01
type: unit
description: "is_bug_task() возвращает True для issue с меткой 'Bug' (has_label True); метка читается из Plane API, не из payload."
module: tests/test_bug_fast_track.py
expected: PASS
- id: TC-02
type: unit
description: "is_bug_task() возвращает False при отсутствии метки, неоднозначной метке или labels=None (fail-safe)."
module: tests/test_bug_fast_track.py
expected: PASS
- id: TC-03
type: unit
description: "bug_fast_track_applies(repo): первым проверяется локальная область (enabled + CSV repos) до любого сетевого вызова; выключенный флаг → False без обращения к has_label."
module: tests/test_bug_fast_track.py
expected: PASS
- id: TC-04
type: unit
description: "never-raise: исключение в fetch_issue_labels/get_project_labels не пробрасывается — is_bug_task деградирует в False (полный цикл)."
module: tests/test_bug_fast_track.py
expected: PASS
- id: TC-05
type: unit
description: "Маршрут багфикса: для bug-задачи следующая стадия после analysis = development (architecture пропущена); для не-баг задачи = architecture."
module: tests/test_bug_fast_track_routing.py
expected: PASS
- id: TC-06
type: unit
description: "STAGE_TRANSITIONS структурно не изменён: набор стадий и рёбер байт-в-байт прежний (анти-регресс)."
module: tests/test_bug_fast_track_routing.py
expected: PASS
- id: TC-07
type: unit
description: "Реестр QG_CHECKS и сигнатуры check_* не изменены багфикс-треком; вердикт-ключи (verdict/result/deploy_status/staging_status/security_status/coverage_status) сохранены по имени и регистру."
module: tests/test_bug_fast_track_gates.py
expected: PASS
- id: TC-08
type: integration
description: "E2E багфикс-трек: bug-задача проходит development→review→testing→deploy-staging→deploy с исполнением всех гейтов (check_ci_green/reviewer_verdict/tests_passed/staging/deploy + под-гейты security/merge/coverage/image-freshness), минуя architecture."
module: tests/test_bug_fast_track_e2e.py
expected: PASS
- id: TC-09
type: integration
description: "start_pipeline: issue с меткой Bug (флаг вкл, репо применим) создаёт задачу на багфикс-треке; issue без метки — на полном цикле (точка входа analysis + маршрут с architecture)."
module: tests/test_bug_fast_track_e2e.py
expected: PASS
- id: TC-10
type: integration
description: "Fail-safe: при bug_fast_track_enabled=False путь старта и маршрут идентичны прежним (нулевая регрессия) — задача с меткой Bug идёт полным циклом."
module: tests/test_bug_fast_track_e2e.py
expected: PASS
- id: TC-11
type: integration
description: "Эскалация: после снятия метки Bug / решения 'баг сложный' задача проходит штатный маршрут с architecture (возврат в полный цикл)."
module: tests/test_bug_fast_track_escalation.py
expected: PASS
- id: TC-12
type: unit
description: "check_analysis_approved/check_analysis_complete не блокирует ложно облегчённый багфикс-пакет, но сохраняет прежнюю проверку для не-баг задач (требование FR-6)."
module: tests/test_bug_fast_track_gates.py
expected: PASS
- id: TC-13
type: integration
description: "GET /queue содержит аддитивный read-only блок bug_fast_track (enabled/repos/label/счётчик/метрика); существующие ключи неизменны; ошибка построения блока не роняет эндпоинт."
module: tests/test_queue_endpoint.py
expected: PASS
- id: TC-14
type: integration
description: "Композиция: багфикс-задача учитывается serial-gate (ORCH-088) как обычная задача репо и не обходит его; autoApprove/autoDeploy (ORCH-089) применимы на багфикс-треке."
module: tests/test_bug_fast_track_composition.py
expected: PASS
- id: TC-15
type: unit
description: "Миграция (если введена колонка tasks.track) аддитивна и идемпотентна: повторный init_db/_ensure_column не падает; дефолт 'full' для существующих строк."
module: tests/test_db_migrations.py
expected: PASS

View File

@@ -0,0 +1,231 @@
---
work_item: ORCH-019
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# ADR-001: Багфикс-трек — пропуск стадии `architecture` через track-aware routing override
Work Item: **ORCH-019** — упрощённый/дешёвый трек для багов (укороченный маршрут конвейера)
Стадия: **architecture**
Сквозная регистрация: **`docs/architecture/adr/adr-0032-bug-fast-track.md`** (решение
кросс-каттинговое: новый leaf-компонент + аддитивная колонка `tasks.track` + семантика
маршрутизации, затрагивающая `advance_stage`).
## Статус
Proposed
## Контекст
Любая задача входит в конвейер через `webhooks/plane.py::start_pipeline`, который
**жёстко** создаёт task-row со стадией `"analysis"` (`create_task_atomic(..., "analysis", ...)`)
и режет ветку. Маршрут стадий полностью управляется `src/stages.py::STAGE_TRANSITIONS` через
`get_next_stage``advance_stage` (`src/stage_engine.py`) НЕ зашивает порядок, а спрашивает
`get_next_stage(current_stage)` (строка 214) и `get_agent_for_stage(current_stage)` (строка 464).
Для мелкого бага полный цикл `analysis → architecture → development → …` избыточен: стадия
`architecture` = отдельный прогон агента `architect` (opus, дорогой) + ADR + exit-гейт
`check_architecture_done`. Прецедент: UI z-index баг ET-9/ET-014 прошёл полный цикл ~35 мин.
**Корневой инвариант (NFR-1 BRD, нерушимый):** упрощаем только *аналитику/архитектуру*; ни один
Quality Gate / exit-код deploy-хука / под-гейт (security/merge/coverage/image-freshness) — НЕ
ослаблен. Горький урок ET-8: срезанная *проверка* = недоделка на проде.
**Факты, сверенные с кодом:**
- `src/labels.py::has_label` + `plane_sync.fetch_issue_labels`/`get_project_labels` (ORCH-089) —
готовый, проверенный аппарат чтения метки Plane (TTL-кэш, нормализация, never-raise,
fail-safe → False, источник истины Plane API, не payload).
- `advance_stage` маршрутизирует через `get_next_stage`/`get_agent_for_stage` → точка ветвления
локализуема, `STAGE_TRANSITIONS` ломать не нужно.
- `check_analysis_approved` (exit-гейт `analysis`) вызывает `check_analysis_complete`, требующий
**01/02/03/04** (`src/qg/checks.py:33`). Это и есть точка риска ложной блокировки облегчённого
пакета (FR-6).
- `_ensure_column` (`src/db.py:334`) — идемпотентная аддитивная миграция (паттерн
`tasks.cancelled_at`, ORCH-090).
## Решение
### Сводка
Багфикс-трек — **свойство планировщика/точки входа, не Quality Gate**. Задача с меткой Plane
`Bug` помечается в БД как `track='bug'`; на ребре выхода из `analysis` `advance_stage` применяет
**чистый routing-override**: `next_stage``development` (вместо `architecture`), `next_agent`
`developer` (вместо `architect`). `STAGE_TRANSITIONS`, реестр `QG_CHECKS`, все `check_*` и
вердикт-ключи — **байт-в-байт прежние**. Распознавание, маршрут и метрика — аддитивно, под
kill-switch, с областью репо, never-raise, fail-safe → полный цикл.
### D1 — Классификация: метка Plane `Bug`, читаемая в `start_pipeline` (FR-1, AC-1)
Новый leaf `src/bug_fast_track.py` (пустой импорт-граф как `serial_gate`/`labels`: только
`config`, лениво `labels`/`plane_sync`/`qg.checks`), never-raise. Публичные функции:
- `bug_fast_track_applies(repo) -> bool` — локальный, без сети, по образцу `_auto_label_applies`:
`bug_fast_track_enabled=False``False`; `bug_fast_track_repos` (CSV) непустой → только
перечисленные репо; **пусто → self-hosting only** (`is_self_hosting_repo`, см. D6). Проверяется
**ПЕРВЫМ** → при выключенном флаге нулевой сетевой оверхед, enduro не затронут.
- `is_bug_task(work_item_id, project_id) -> bool``bug_fast_track_applies` уже проверен
вызывающим; делегирует в `labels.has_label(work_item_id, settings.bug_fast_track_label,
project_id)` (дефолт метки `Bug`). Любая ошибка/неоднозначность → `False` (fail-safe → полный
цикл).
Чтение метки — **только** в `start_pipeline` (момент старта, сетевой вызов приемлем, как
ORCH-089), **никогда** в горячем `claim_next_job` (NFR-4).
### D2 — Хранение типа: аддитивная колонка `tasks.track` (OQ-2, NFR-4)
Идемпотентная миграция `_ensure_column(conn, "tasks", "track", "TEXT DEFAULT 'full'")` рядом с
`tasks.cancelled_at`/`cancel_requested_at` (`src/db.py` init). Значения: `'full'` (дефолт, ВСЕ
существующие и не-баг задачи) | `'bug'`. Хелперы: `db.set_task_track(task_id, track)` (запись),
`db.get_task_track(task_id) -> str` (чтение, дефолт `'full'`). Тип читается из **БД** в
`advance_stage` (NFR-4: горячий путь без сети). Альтернатива «выводить тип повторным чтением
метки» отвергнута — повторный сетевой вызов в горячем пути запрещён.
`create_task_atomic` НЕ меняет сигнатуру: задача создаётся как `'full'` (DEFAULT), затем
`start_pipeline` после успешного `created=True` при `is_bug_task` вызывает
`db.set_task_track(task_id, 'bug')`. Точка входа стадии остаётся `"analysis"` (мини-анализ
сохраняется, OQ-3/BRD §6 — НЕ чистый hotfix).
### D3 — Routing-override: пропуск `architecture` без правки `STAGE_TRANSITIONS` (FR-2, AC-2)
`get_next_stage`/`get_agent_for_stage` остаются **чистыми** (принимают только стадию, 1:1).
Override живёт в `advance_stage`, сразу после строки `next_stage = get_next_stage(current_stage)`:
```python
next_stage = get_next_stage(current_stage)
# ORCH-019: bug-fast-track skips the architecture stage entirely.
if current_stage == "analysis" and bug_fast_track.skips_architecture(track):
next_stage = "development"
```
и при запуске следующего агента (строка 464):
```python
next_agent = get_agent_for_stage(current_stage) # "analysis" -> "architect"
if current_stage == "analysis" and next_stage == "development":
next_agent = "developer" # skip architect run
```
`track` читается один раз в начале `advance_stage` (`db.get_task_track(task_id)`). Чистый
предикат `bug_fast_track.skips_architecture(track) -> bool` (== `track == 'bug'` под
`bug_fast_track_enabled`; иначе `False`). Багфикс-задача физически НЕ попадает в стадию
`architecture` → её exit-гейт `check_architecture_done` и требование `06-adr/` не исполняются для
багфикса. Для не-баг задач (`track='full'`) поведение **байт-в-байт** прежнее.
**Сопутствующая правка телеметрии:** строка 386 стампит `mark_brd_review_ended` при
`analysis → architecture`. Для багфикса next_stage = `development`, поэтому условие расширяется до
`current_stage == "analysis" and next_stage in ("architecture", "development")` — чтобы метрика
«твоё время» (ORCH-087) оставалась честной на багфикс-треке. Не влияет на гейты.
### D4 — Quality Gate `analysis`: НЕ трогаем; lite-пакет эмитит все 4 файла (FR-3/FR-6, OQ-6, AC-3)
**Корневой инвариант диктует минимальную поверхность изменения гейтов = ноль.**
`check_analysis_complete` (требует 01/02/03/04) и `check_analysis_approved` остаются **байт-в-байт
прежними**. Багфикс-аналитик (`analyst.md` lite-режим) всё равно эмитит **все 4** файла, но в
облегчённой багфикс-форме: `01-brd.md` = короткий bug-report (симптом / шаги воспроизведения /
локализация / причина), `02-trz.md` + `03-acceptance-criteria.md` = краткие bug-shaped заглушки,
`04-test-plan.yaml` = план **обязательного регресс-теста** (красный до фикса, зелёный после).
Обоснование выбора: доминирующая экономия — пропуск **всей стадии `architecture`** (отдельный
прогон opus-агента `architect` + ADR), а не число файлов analysis (они эмитятся в ОДНОМ прогоне
analyst-агента). Сохранение 4-файлового гейта = **сильнейшая** позиция NFR-1 (нулевая поверхность
правок гейта) ценой почти нулевого оверхеда. Альтернатива «track-aware `check_analysis_complete`
(для bug требовать только 01/04)» рассмотрена и отвергнута для v1 (D-Alt) — она трогает `check_*`
и расширяет поверхность риска без существенной экономии.
### D5 — Эскалация в полный цикл (FR-5, AC-5)
Два пути возврата сложного/архитектурного/визуального бага в полный цикл, оба сбрасывают
`track='bug'``'full'` (после чего `advance_stage` маршрутизирует `analysis → architecture`
штатно):
1. **Операторский (ручной, v1-дефолт):** админ-эндпоинт `POST /bug-fast-track/escalate?work_item=<id>`
(по образцу `POST /serial-gate/unfreeze`, `POST /coverage/baseline`) — `db.set_task_track(...,
'full')`, лог + Telegram + Plane-коммент, never-raise. Применять, пока задача в `analysis`
(до выхода) — тогда следующий переход уйдёт в `architecture`.
2. **Решение мини-аналитика:** если на багфикс-треке аналитик определяет, что баг архитектурный,
он эмитит **полный** analysis-пакет (включая запрос на `06-adr/`) и помечает в bug-report
`escalate: full-cycle` — оператор подтверждает эскалацию эндпоинтом (1). v1 НЕ включает
автоматический LLM-авто-триаж сложности (вне объёма, BRD §2.2).
Эскалация обратима, детерминирована, наблюдаема. Багфикс-задача не «застревает» без архитектуры.
### D6 — Область по умолчанию: self-hosting only (OQ-5, NFR-5)
Пустой `bug_fast_track_repos`**self-hosting only** (`is_self_hosting_repo`, как
ORCH-089/027/058). Это безопасный дефолт: режим обкатывается на самом орке (где метка `Bug`
гарантированно заводится оператором), enduro подключается явным добавлением в CSV. Флаги
(`config.py`): `bug_fast_track_enabled` (kill-switch, env `ORCH_BUG_FAST_TRACK_ENABLED`),
`bug_fast_track_label` (дефолт `Bug`, env `ORCH_BUG_FAST_TRACK_LABEL`), `bug_fast_track_repos`
(CSV, env `ORCH_BUG_FAST_TRACK_REPOS`).
### D7 — Наблюдаемость стоимости (FR-7, AC-7)
- **`GET /queue`** — аддитивный read-only блок `bug_fast_track` (`bug_fast_track.snapshot()`,
never-raise, по образцу `serial_gate`/`auto_labels`/`coverage`): `enabled`, `repos`, `label`,
счётчик задач с `track='bug'`, агрегатная метрика экономии (пропущенные стадии / Σ agent-runs /
токены / время багфикс-трека против среднего полного цикла из существующей телеметрии
`agent_runs`). Существующие ключи `GET /queue` не меняются.
- **Лог-строка** на решение о маршруте (`analysis → development (bug-fast-track)`).
- **Опц.** отметка `🐞 багфикс-трек` в Telegram-карточке (`notifications.py`, never-raise).
### D8 — Композиция (NFR-7, AC-9)
- **serial-gate (ORCH-088):** багфикс-задача — обычная задача репо, учитывается в serial-очереди
как есть (FIFO `t2.id < jobs.task_id`); точка входа `analysis` не меняется, defer-branch логика
не затронута. Маркированный код `serial_gate.py` НЕ правится.
- **auto-label (ORCH-089):** `autoApprove`/`autoDeploy` работают на багфикс-треке — autoApprove
врезка в `_handle_analysis_approved_flow` вызывает `advance_stage(finished_agent=None)`, который
применяет D3-override и уходит в `development`. Переиспользуем `labels.has_label`.
- **coverage-gate (ORCH-027):** союзник BR-4 (структурно ловит «код без теста») — исполняется
штатно на ребре `deploy-staging → deploy`.
- **merge-gate (ORCH-043):** не затронут.
Правки маркированного кода (`advance_stage` несёт врезки ORCH-088/089/027/059/094) — точечные,
со сверкой их `06-adr/`; зафиксированные инварианты (порядок под-гейтов, merge-lease,
terminal-sync) НЕ нарушаются: ORCH-019 добавляет ветвление ТОЛЬКО на ребре выхода из `analysis`,
до всех deploy-edge под-гейтов.
## Альтернативы
- **Track-aware `get_next_stage(stage, task)` / новая стадия в `STAGE_TRANSITIONS`** — отвергнуто:
ломает чистоту `stages.py` и риск задеть структуру таблицы (AC-2 FAIL при структурном изменении).
Override в `advance_stage` локальнее и держит `STAGE_TRANSITIONS` неизменным.
- **Track-aware `check_analysis_complete` (bug → только 01/04)** — отвергнуто для v1 (D-Alt):
трогает `check_*`, расширяет поверхность риска NFR-1 ради почти нулевой экономии (см. D4).
Оставлено как возможное будущее уточнение, если потребуется реальный отказ от 02/03.
- **Чистый hotfix `start_pipeline → development`, минуя `analysis`** — отвергнуто как дефолт
(BRD §6): теряется фиксация регресс-теста как контракта приёмки и трассируемость (урок ET-8).
- **Тип задачи из payload вебхука / повторное чтение метки в `claim_next_job`** — отвергнуто:
payload не несёт `type` (источник истины — Plane API); сеть в горячем claim запрещена (NFR-4).
- **Чтение типа без БД-колонки** — отвергнуто: потребовало бы сетевого вызова в горячем пути.
## Последствия
- **+** Багфикс минует целую стадию `architecture` (один прогон opus-агента `architect` + ADR) —
основная экономия токенов/времени; гейты качества **байт-в-байт** сохранены.
- **+** Полностью аддитивно: kill-switch `False` или неприменимый репо → путь старта и маршрут
идентичны текущим (AC-6, нулевая регрессия для enduro и orchestrator).
- **+** Переиспользует проверенный аппарат ORCH-089 (label-чтение) и паттерн leaf+флаги+snapshot.
- **** Багфикс-аналитик всё равно эмитит 02/03 (краткие заглушки) ради неизменности гейта —
принятый компромисс (D4); экономия на их содержании, не на их наличии.
- **** Эскалация v1 требует операторского действия (эндпоинт) — авто-триаж сложности отложен
(BRD §2.2). Митигатор: путь эскалации документирован, обратим, наблюдаем (D5).
- **Откат:** `bug_fast_track_enabled=False` (мгновенно, 1:1 прежнее поведение); колонка
`tasks.track` остаётся (аддитивна, дефолт `'full'`, безвредна). Полный откат — revert PR;
миграция идемпотентна, остаточная колонка не мешает.
## Ссылки
- BRD: `docs/work-items/ORCH-019/01-brd.md`
- TRZ: `docs/work-items/ORCH-019/02-trz.md`
- Acceptance: `docs/work-items/ORCH-019/03-acceptance-criteria.md`
- Сквозной ADR: `docs/architecture/adr/adr-0032-bug-fast-track.md`
- Data: `docs/work-items/ORCH-019/08-data-requirements.md`
- Infra: `docs/work-items/ORCH-019/07-infra-requirements.md`
- Риски: `docs/work-items/ORCH-019/10-tech-risks.md`
- Сверено по коду: `src/stages.py`, `src/stage_engine.py` (advance_stage:175-477),
`src/webhooks/plane.py::start_pipeline` (505-684), `src/labels.py`,
`src/qg/checks.py` (check_analysis_complete:33, check_analysis_approved:286,
check_architecture_done:62), `src/db.py` (_ensure_column:334, create_task_atomic:433)
</content>
</invoke>

View File

@@ -0,0 +1,62 @@
---
work_item: ORCH-019
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 07 — Инфраструктурные требования (Infra Requirements): ORCH-019 — Багфикс-трек
Work Item: **ORCH-019** · Repo: **orchestrator** · Стадия: architecture
> **Топология не меняется.** Один прод-контейнер `orchestrator` (8500) + staging (8501) на mva154,
> общая SQLite-БД. ORCH-019 — чисто прикладное изменение под флагом. Этот документ фиксирует
> **предусловия включения** (Plane-метка + env-флаги), не новую инфраструктуру.
---
## 1. Предусловие: метка `Bug` в Plane-проекте (блокирующее для активации)
Багфикс-трек активируется по метке Plane с именем `bug_fast_track_label` (дефолт `Bug`),
читаемой аппаратом ORCH-089 (`fetch_issue_labels`/`get_project_labels`). **Метка должна
существовать** в Plane-проекте orchestrator (и в любом проекте, добавленном в
`bug_fast_track_repos`).
- Её **отсутствие = fail-safe полный цикл** (`has_label → False`), не сбой. Включение флага без
заведённой метки безопасно, но эффекта не даёт.
- Создаётся оператором в Plane вручную (как `autoApprove`/`autoDeploy` для ORCH-089).
## 2. Конфигурация (env-флаги, `src/config.py`)
| Флаг | Env | Дефолт | Назначение |
|------|-----|--------|-----------|
| `bug_fast_track_enabled` | `ORCH_BUG_FAST_TRACK_ENABLED` | `False` | kill-switch; `False` → путь старта/маршрут строго прежние (нулевая регрессия) |
| `bug_fast_track_label` | `ORCH_BUG_FAST_TRACK_LABEL` | `Bug` | имя метки Plane для распознавания бага |
| `bug_fast_track_repos` | `ORCH_BUG_FAST_TRACK_REPOS` | `""` (пусто) | CSV-область; пусто → **self-hosting only** (`orchestrator`) |
> Рекомендация выката: `enabled=False` до момента, когда метка `Bug` заведена в Plane и проведён
> staging-прогон. Дефолт области (пустой CSV) = self-hosting only → enduro не затронут даже при
> включённом флаге.
## 3. Зависимости / образ
- **Новых pip-зависимостей нет.** Переиспользуются существующие `httpx`/`plane_sync` (label-чтение)
и `sqlite3` (колонка `tasks.track`). Пересборка образа из-за зависимостей не требуется.
- **Миграция БД** (`tasks.track`) применяется идемпотентно при старте приложения (`_ensure_column`)
— без ручного шага, без даунтайма (ALTER ADD COLUMN на SQLite — мгновенный).
## 4. Self-hosting безопасность (NFR-6)
- Механизм **не** рестартит/не роняет прод-контейнер, **не** пушит/force-push в `main`. Это
routing-решение планировщика + аддитивная колонка + read-only наблюдаемость.
- Выкат самого ORCH-019 на прод орка идёт штатным конвейером через обязательный
`deploy-staging` (8501) → `Confirm Deploy` (ORCH-059). Топология/процедура — `docs/operations/INFRA.md`.
## 5. Новый эндпоинт (эскалация)
`POST /bug-fast-track/escalate?work_item=<id>` — админ-ручка возврата задачи в полный цикл
(`track → 'full'`), по образцу `POST /serial-gate/unfreeze`. Без новой инфраструктуры (тот же
FastAPI-приложение/порт). Read-only блок `bug_fast_track` добавляется в существующий `GET /queue`.
</content>

View File

@@ -0,0 +1,64 @@
---
work_item: ORCH-019
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 08 — Требования к данным (Data Requirements): ORCH-019 — Багфикс-трек
Work Item: **ORCH-019** · Repo: **orchestrator** · Стадия: architecture
> ⚠️ Общая прод-БД (self-hosting + enduro). Только **аддитивные, идемпотентные** миграции;
> существующие контракты таблиц не меняются.
---
## 1. Новая колонка `tasks.track`
| Атрибут | Значение |
|---------|----------|
| Таблица | `tasks` |
| Колонка | `track` |
| Тип | `TEXT` |
| DEFAULT | `'full'` |
| Допустимые значения | `'full'` (дефолт; ВСЕ существующие и не-баг задачи) \| `'bug'` |
| Миграция | `_ensure_column(conn, "tasks", "track", "TEXT DEFAULT 'full'")` (идемпотентно, паттерн `tasks.cancelled_at` ORCH-090) |
| Размещение | рядом с `_ensure_column(conn, "tasks", "cancel_requested_at", ...)` в init `src/db.py` |
**Семантика:** тип задачи (полный цикл / багфикс). Записывается в `start_pipeline` после
успешного `create_task_atomic` (`created=True`) при `is_bug_task==True`. Читается в `advance_stage`
для routing-override (D3) — из БД, **никогда** из сети (NFR-4).
## 2. Хелперы доступа (`src/db.py`)
| Хелпер | Контракт |
|--------|----------|
| `set_task_track(task_id: int, track: str) -> None` | `UPDATE tasks SET track=? WHERE id=?`; идемпотентно; never-raise на уровне вызова в `start_pipeline`/escalate |
| `get_task_track(task_id: int) -> str` | `SELECT track FROM tasks WHERE id=?`; отсутствие/NULL → `'full'` (fail-safe → полный цикл) |
## 3. Что НЕ меняется
- Сигнатура `create_task_atomic(plane_id, work_item_id, repo, branch, stage, title)`
**без изменений** (задача создаётся как `track='full'` по DEFAULT, тип проставляется отдельным
`set_task_track`).
- Существующие колонки `tasks` (прочие), таблицы `jobs`, `job_deps`, `agent_runs`,
`coverage_baseline`, `repo_freeze`, `tracker_messages`**без изменений**.
- `claim_next_job`**без изменений** (не читает `track`; сеть/маршрут в горячем claim не вводятся).
## 4. Обратная совместимость / откат
- Колонка аддитивна с безопасным DEFAULT `'full'` → существующие строки и enduro-задачи ведут
себя как сегодня без обратной записи.
- Откат фичи (`bug_fast_track_enabled=False`) не требует удаления колонки: при выключенном флаге
`track` не влияет на маршрут (`skips_architecture``False`). Остаточная колонка безвредна.
- Полный revert PR: миграция `_ensure_column` идемпотентна; повторный запуск на БД с уже
существующей колонкой — no-op.
## 5. Объём данных / производительность
- Одна `TEXT`-колонка на строку `tasks` (низкая кардинальность: 2 значения). Индекс не требуется
(чтение по `id` PK в `advance_stage`; агрегат для `GET /queue` — редкий read-only скан).
</content>

View File

@@ -0,0 +1,39 @@
---
work_item: ORCH-019
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 10 — Технические риски: ORCH-019 — Багфикс-трек
Work Item: **ORCH-019** · Repo: **orchestrator** · Стадия: architecture
> Шкала: вероятность × влияние ∈ {Низк., Средн., Выс.}. Каждый риск — с митигатором, привязанным
> к ADR-001 / AC.
---
| ID | Риск | Вер. | Влияние | Митигатор |
|----|------|------|---------|-----------|
| R-1 | **Срезали лишнее** — ошибочный пропуск гейта качества → недоделка на проде (урок ET-8). | Низк. | Выс. | NFR-1 диктует **нулевую** поверхность правок гейтов (D4): `STAGE_TRANSITIONS`/`QG_CHECKS`/все `check_*`/вердикт-ключи — байт-в-байт; режется ТОЛЬКО стадия `architecture`. Тест AC-3: на багфикс-треке отрабатывают все гейты. |
| R-2 | **Сложный баг под меткой `Bug`** уходит на фаст-трек и упирается в отсутствие архитектуры. | Средн. | Средн. | Эскалация D5 (эндпоинт `escalate` + self-escalate мини-аналитика) сбрасывает `track→full` → задача идёт через `architecture`. AC-5. |
| R-3 | **Регресс-тест не написан** (developer «забыл») → рецидив бага. | Средн. | Выс. | BR-4: обязательный TC в `04-test-plan.yaml` + reviewer-ось (фикс без теста → REQUEST_CHANGES) + структурный союзник coverage-gate ORCH-027. AC-4. |
| R-4 | **Fail-safe инвертирован** — ошибка чтения метки молча срежет стадии. | Низк. | Выс. | never-raise leaf `bug_fast_track.py`: любая ошибка/неоднозначность/`None`-labels → `is_bug_task=False` → полный цикл; `get_task_track` при NULL → `'full'`. AC-6. |
| R-5 | **Конфликт с serial-gate/auto-label** при изменённой точке входа. | Низк. | Средн. | Точка входа НЕ меняется (задача стартует на `analysis`, ветвление — только на ребре выхода). serial_gate/auto-label маркированный код не правится. Интеграционный тест композиции (AC-9). |
| R-6 | **Ложная блокировка** облегчённого пакета exit-гейтом `analysis` (`check_analysis_complete` требует 01/02/03/04). | Низк. | Средн. | D4: гейт НЕ трогаем; lite-аналитик эмитит все 4 файла (02/03 — краткие заглушки). FR-6/OQ-6. |
| R-7 | **Правка маркированного `advance_stage`** (несёт врезки ORCH-088/089/027/059/094) сломает чужой инвариант. | Низк. | Выс. | Врезка ORCH-019 — ТОЛЬКО на ребре выхода из `analysis`, ДО всех deploy-edge под-гейтов; порядок под-гейтов/merge-lease/terminal-sync не затронуты (CLAUDE.md §9: сверка `06-adr/` затронутых ORCH-NNN). |
| R-8 | **Телеметрия `mark_brd_review_ended`** не сработает на багфиксе (next=`development`, не `architecture`) → искажённая метрика «твоё время». | Низк. | Низк. | D3: условие расширено до `next_stage in ("architecture","development")`. Не влияет на гейты. |
| R-9 | **Метрика экономии** (FR-7) вводит в заблуждение (несравнимые задачи). | Низк. | Низк. | Метрика помечена как относительная оценка из существующей телеметрии `agent_runs`; без новой тяжёлой инфраструктуры; read-only, never-raise. AC-7. |
---
## Сводный вывод
Доминирующий риск — **R-1 (срезали лишнее)**; он структурно закрыт нулевой поверхностью правок
гейтов (D4) — изменение касается планировщика/точки входа, а не Quality Gate. Остальные риски
покрыты паттерном leaf+флаги+fail-safe (ORCH-088/089/027) и обратимой эскалацией (D5). Откат —
мгновенный через `bug_fast_track_enabled=False`.
</content>

View File

@@ -0,0 +1,108 @@
---
verdict: APPROVED
work_item: ORCH-019
stage: review
author_agent: reviewer
status: approved
created_at: 2026-06-10
model_used: claude-opus-4-8
type: review
work_item_id: ORCH-019
version: 1
---
# Review ORCH-019 — Багфикс-трек (упрощённый/дешёвый маршрут для багов)
## Summary
Реализация соответствует ТЗ (`02-trz.md`), ADR-001 и всем 9 критериям приёмки
(`03-acceptance-criteria.md`). Корневой инвариант NFR-1 («срезается только аналитика/архитектура;
ни один Quality Gate не тронут») соблюдён **структурно**: `src/stages.py` и `src/qg/checks.py`
**пустой diff**; маршрутизация багфикса реализована чистым routing-override в `advance_stage`, как
и предписывал ADR (D3). Полный регресс `tests/` зелёный (**1551 passed**), 46 целевых тестов
ORCH-019 (6 suites) — PASS. Документация обновлена исчерпывающе во всех требуемых поверхностях.
Findings уровня P0/P1 — нет. → **APPROVED**.
## Проверка по осям
### 1. Соответствие ТЗ / Acceptance Criteria
- **AC-1 (классификация по метке `Bug`)** ✓ — `bug_fast_track.is_bug_task` делегирует в
`labels.has_label` (источник истины — Plane API, не payload); `applies(repo)` (локальный)
проверяется ПЕРВЫМ в `start_pipeline` → при выключенном флаге нулевой сетевой оверхед.
- **AC-2 (пропуск `architecture`)** ✓ — override на ребре выхода из `analysis`
(`next_stage → development`, `next_agent → developer`); `STAGE_TRANSITIONS`/`get_next_stage`/
`get_agent_for_stage` остались чистыми (1:1). Анти-регресс структуры — TC-06.
- **AC-3 (все QG сохранены — корневой инвариант)** ✓ — `git diff` по `src/stages.py`/`src/qg/`
пуст; вердикт-ключи и порядок под-гейтов не тронуты (TC-07). Подтверждено независимой проверкой
diff, не только тестом.
- **AC-4 (обязательный регресс-тест)** ✓ — ось добавлена в `.openclaw/agents/reviewer.md`
(«фикс без теста-фиксатора → finding ≥P1»); `04-test-plan.yaml` несёт требование. (Сам ORCH-019 —
feature, не bugfix, поэтому правило к нему не применяется; покрытие — 46 содержательных тестов.)
- **AC-5 (эскалация)** ✓ — `POST /bug-fast-track/escalate` (`db.set_task_track 'bug'→'full'`,
Telegram+Plane-коммент, never-raise) + self-escalate мини-аналитика (`analyst.md`).
- **AC-6 (fail-safe / нулевая регрессия)** ✓ — `bug_fast_track_enabled` kill-switch; все публичные
функции leaf'а never-raise → False (full cycle); `get_task_track` деградирует в `'full'`.
Дефолт `True` согласован со всеми sibling-флагами (serial_gate/auto_label/coverage/stop/… все
`= True` при пустом scope = self-hosting only).
- **AC-7 (наблюдаемость)** ✓ — read-only блок `bug_fast_track` в `GET /queue` (`snapshot()`,
never-raise) + отметка `🐞` в Telegram-карточке (never-raise) + лог-строки на решение.
- **AC-8 (аддитивность / self-hosting)** ✓ — `_ensure_column(tasks, track, "TEXT DEFAULT 'full'")`
идемпотентна (TC-15); прод-контейнер/`main` не трогаются; полный `tests/` зелёный.
- **AC-9 (композиция)** ✓ — serial-gate/auto-label/coverage/merge — тест композиции зелёный
(TC-14); override применяется ДО всех deploy-edge под-гейтов.
### 2. Соответствие ADR
Реализация точно следует ADR-001 (D1D8): leaf `src/bug_fast_track.py`, колонка `tasks.track`,
override в `advance_stage`, эскалация-эндпоинт, область self-hosting-only. Сквозной ADR
`adr-0032-bug-fast-track.md` присутствует.
**Трассировка:** `advance_stage` несёт маркеры ORCH-088/089/027/059/094; врезка ORCH-019 добавляет
ветвление ТОЛЬКО на ребре выхода из `analysis` (до deploy-edge под-гейтов) — зафиксированные
инварианты (порядок под-гейтов, merge-lease, terminal-sync) не нарушены. Сверено по diff. Расширение
`mark_brd_review_ended` на `analysis → development` (ORCH-087 метрика) гейтов не касается.
### 3. Качество кода
- Leaf чист (импортирует только `config`, лениво `labels`/`db`/`qg.checks`), never-raise контракт
соблюдён везде, публичные функции снабжены docstrings. ✓
- Next-agent override (`next_stage == "development"`) безопасен: единственный путь к
`analysis → development` — сам багфикс-override (штатно `get_next_stage("analysis") == "architecture"`). ✓
- `get_task_by_work_item_id`/`add_comment`/`set_task_track`/`get_task_track` существуют и
совместимы по сигнатурам. ✓
### 4. Документация — обязательная проверка
`src/` изменён → документация ДОЛЖНА быть обновлена. **Обновлено в том же PR:**
- `docs/architecture/README.md` — раздел «Багфикс-трек (ORCH-019)» + блок `bug_fast_track` в `GET /queue`;
- `README.md` — таблица env (`ORCH_BUG_FAST_TRACK_*`) + обзорный раздел;
- `.env.example` — три новых переменных;
- `docs/architecture/adr/adr-0032-bug-fast-track.md` (сквозной) + `06-adr/ADR-001`;
- `docs/architecture/internals.md`, `CLAUDE.md`, `CHANGELOG.md` (`feat:`);
- `07-infra-requirements.md` / `08-data-requirements.md` / `10-tech-risks.md`;
- `.openclaw/agents/analyst.md` (lite-пакет + self-escalate) и `reviewer.md` (ось регресс-теста).
Все поверхности из §8 ТЗ покрыты. **Обзорная витрина README** — добавлен раздел, ничего из «Известных
ограничений» не оставлено открытым в нарушение ORCH-079.
## Findings
### P0 — Blocker
- (нет)
### P1 — Must fix
- (нет)
### P2 — Should fix
- (нет)
### P3 — Nice to have
- [ ] `snapshot.est_saved_architecture_runs == total_bug_tasks` считает ВСЕ багфикс-задачи, включая
`cancelled` (которые могли не дойти до пропуска `architecture`). Косметическая неточность метрики
экономии; на гейты/маршрут не влияет. Можно сузить до `stage NOT IN ('cancelled')` при случае.
## Документация
Обновлена полностью и согласованно во всех требуемых поверхностях (architecture/README, README env +
обзор, оба ADR, internals, CLAUDE.md, CHANGELOG, .env.example, промпты analyst/reviewer,
infra/data/risks). Расхождений код↔документация не обнаружено. Требований к доработке документации
нет.
## Вердикт
Нет findings уровня P0/P1; документация обновлена; корневой инвариант подтверждён независимой
проверкой diff и зелёным полным регрессом (1551 passed). → **APPROVED**.

View File

@@ -0,0 +1,84 @@
---
result: PASS # PASS | FAIL — машинный вердикт, UPPERCASE
work_item: ORCH-019
stage: testing
author_agent: tester
status: pass
created_at: 2026-06-10
model_used: claude-opus-4-8
type: test-report
work_item_id: ORCH-019
---
# Test Report — ORCH-019 — Багфикс-трек (упрощённый/дешёвый маршрут для багов)
## Окружение
- Python: 3.12.13
- pytest: 8.3.3 (plugins: cov-5.0.0, anyio-4.13.0, asyncio-0.23.8)
- Worktree: `/repos/_wt/orchestrator/feature_ORCH-019-` (ветка `feature/ORCH-019-`)
- Дата: 2026-06-10T00:53:34Z
- Предусловие: review `12-review.md` = `verdict: APPROVED`
## Smoke API (read-only)
| Endpoint | Результат | Примечание |
|----------|-----------|------------|
| `GET /health` | PASS | `{"status":"ok","service":"orchestrator"}` |
| `GET /status` | PASS | отвечает; ORCH-019 (task 84) виден на стадии `testing` |
| `GET /queue` | PASS | блок `serial_gate` присутствует (ORCH-088) ✓; `auto_labels` присутствует ✓ |
> Прод-контейнер (8500) исполняет код **до** ORCH-019 (фича ещё не задеплоена), поэтому блока
> `bug_fast_track` в живом `/queue` ожидаемо нет — это не регресс смока. Обязательные для смока
> блоки `serial_gate` и `auto_labels` присутствуют. Новый блок `bug_fast_track` верифицирован
> юнит/интеграционными тестами `test_queue_endpoint.py` (TC-13) на коде ветки. Smoke — read-only,
> прод-контейнер не трогался.
## Результаты — покрытие TC из `04-test-plan.yaml`
| TC ID | Описание (кратко) | Тип | Тесты | AC | Результат |
|-------|-------------------|-----|-------|----|-----------|
| TC-01 | `is_bug_task()` True для метки `Bug`; источник — Plane API, не payload | unit | `test_tc01_is_bug_task_true`, `test_tc01_label_from_plane_api_not_payload` | AC-1 | PASS |
| TC-02 | `is_bug_task()` False при отсутствии/неоднозначной метке/`labels=None` (fail-safe) | unit | `test_tc02_label_absent`, `test_tc02_labels_none`, `test_tc02_label_ambiguous`, `test_tc02_empty_label_config` | AC-1/AC-6 | PASS |
| TC-03 | `bug_fast_track_applies(repo)`: локальная область ПЕРВОЙ; выключенный флаг → без сети | unit | `test_tc03_empty_csv_self_hosting_only`, `test_tc03_csv_membership`, `test_tc03_killswitch_off_no_network` | AC-6 | PASS |
| TC-04 | never-raise: исключение в fetch labels → деградация в False (полный цикл) | unit | `test_tc04_is_bug_task_never_raises`, `test_tc04_applies_never_raises` | AC-6 | PASS |
| TC-05 | Маршрут: bug → next stage после analysis = `development`; не-баг = `architecture` | unit | `test_tc05_bug_task_skips_architecture`, `test_tc05_full_task_keeps_architecture`, `test_tc05_killswitch_off_bug_keeps_architecture`, `test_tc05_bug_only_affects_analysis_edge` | AC-2 | PASS |
| TC-06 | `STAGE_TRANSITIONS` структурно не изменён (анти-регресс) | unit | `test_tc06_stage_transitions_unchanged`, `test_tc06_get_next_stage_pure` | AC-2 | PASS |
| TC-07 | `QG_CHECKS`/сигнатуры `check_*`/вердикт-ключи не изменены (имя+регистр) | unit | `test_tc07_qg_checks_registry_unchanged`, `test_tc07_verdict_keys_preserved` | AC-3 | PASS |
| TC-08 | E2E багфикс-трек проходит development→…→deploy, минуя architecture, все гейты | integration | `test_tc08_bug_task_full_walk_skips_architecture` | AC-2/AC-3 | PASS |
| TC-09 | `start_pipeline`: метка Bug → bug-track; без метки → full-track | integration | `test_tc09_bug_label_creates_bug_track`, `test_tc09_no_label_creates_full_track` | AC-1 | PASS |
| TC-10 | Fail-safe: `enabled=False` → метка Bug идёт полным циклом (нулевая регрессия) | integration | `test_tc10_killswitch_off_bug_label_full_cycle` | AC-6 | PASS |
| TC-11 | Эскалация: `'bug'→'full'` → штатный маршрут с architecture | integration | `test_tc11_escalate_returns_to_full_cycle`, `test_tc11_escalate_unknown_work_item`, `test_tc11_escalate_missing_arg`, `test_tc11_escalate_idempotent_on_full` | AC-5 | PASS |
| TC-12 | `check_analysis_*` не блокирует ложно lite-пакет; не ослаблен для не-баг | unit | `test_tc12_bug_lite_package_with_all_four_passes`, `test_tc12_missing_file_still_fails_for_any_track`, `test_tc12_signature_has_no_track_param` | AC-3/FR-6 | PASS |
| TC-13 | `GET /queue` несёт read-only блок `bug_fast_track`; существующие ключи целы | integration | `test_queue_has_bug_fast_track_block_and_keeps_existing_keys`, `test_queue_bug_fast_track_counts_bug_tasks` | AC-7 | PASS |
| TC-14 | Композиция: bug-задача учтена serial-gate; autoApprove/autoDeploy применимы | integration | `test_tc14_bug_task_counts_as_active_in_serial_gate`, `test_tc14_bug_task_itself_gated_behind_predecessor`, `test_tc14_bug_task_claimable_once_predecessor_done`, `test_tc14_auto_label_applies_track_agnostic` | AC-9 | PASS |
| TC-15 | Миграция `tasks.track` аддитивна/идемпотентна; дефолт `'full'` | unit | `test_tc15_track_column_present_with_default`, `test_tc15_init_db_idempotent`, `test_tc15_helpers_round_trip`, `test_tc15_get_task_track_missing_row_failsafe` | AC-8 | PASS |
**Итог покрытия:** все 15 TC из `04-test-plan.yaml` выполнены и сопоставлены с критериями
`03-acceptance-criteria.md` (AC-1…AC-9). Непокрытых/пропущенных TC нет.
## Вывод pytest
### Целевые suite ORCH-019 (6 файлов + queue/migrations)
```
$ pytest tests/test_bug_fast_track.py tests/test_bug_fast_track_routing.py \
tests/test_bug_fast_track_gates.py tests/test_bug_fast_track_e2e.py \
tests/test_bug_fast_track_escalation.py tests/test_bug_fast_track_composition.py \
tests/test_queue_endpoint.py tests/test_db_migrations.py -v
...
======================== 46 passed, 1 warning in 2.51s =========================
```
46/46 целевых тестов — PASS.
### Полный регресс
```
$ pytest tests/ -q --tb=short
........................................................................ [100%]
1551 passed, 1 warning in 56.64s
```
1551/1551 — PASS, 0 failed. (Единственный warning — известный Pydantic V2 deprecation в
`src/config.py:8`, не относится к ORCH-019.)
## Итог
**PASS** — полный регресс (1551 passed) и целевые suites ORCH-019 (46 passed) зелёные; smoke API
(`/health`/`/status`/`/queue` с блоками `serial_gate`+`auto_labels`) — OK; все 15 TC выполнены и
сопоставлены с AC-1…AC-9. Корневой инвариант NFR-1 (неизменность `STAGE_TRANSITIONS`/`QG_CHECKS`/
вердикт-ключей) подтверждён анти-регресс-тестами TC-06/TC-07. → стадия переходит на `deploy-staging`.

View File

@@ -0,0 +1,12 @@
---
deploy_status: SUCCESS
work_item: ORCH-019
hook_exit_code: 0
deployed_by: deploy-finalizer
---
# Deploy log — ORCH-036 executable self-deploy
Прод-деплой завершён хост-хуком с exit-code `0` -> `deploy_status: SUCCESS`.
Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.

View File

@@ -0,0 +1,51 @@
---
staging_status: SUCCESS
work_item: ORCH-019
stage: deploy-staging
author_agent: deployer
status: success
created_at: 2026-06-10
model_used: claude-opus-4-8
timestamp: 2026-06-10T00:56:51Z
base_url: http://localhost:8501
---
# Staging Gate Log
Staging test suite completed against the live `orchestrator-staging` environment (port 8501),
run inside the `orchestrator-staging` container (canonical path, ORCH-048):
```
docker exec orchestrator-staging \
python3 /repos/orchestrator/scripts/staging_check.py \
--base-url http://localhost:8501 --mode stub
```
**Result: 8/10 checks PASS — exit code 0 → SUCCESS.**
- REAL failed: **none**
- SANDBOX_INFRA waived (ORCH-061): C9a, C9b
INFRA-WAIVED: C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue (known sandbox-infra; real checks green)
VERDICT: SUCCESS (exit 0) — SUCCESS (infra-waived): ['C9a Branch appears in orchestrator-sandbox', 'C9b Analyst job enqueued in staging queue'] are known sandbox-infra checks; all real checks green
## Check breakdown
| Block | Check | Result |
|-------|-------|--------|
| A SMOKE | A1 GET /health → 200 status=ok | ✓ PASS |
| A SMOKE | A2 GET /queue → 200 with counts/max_concurrency/resilience | ✓ PASS |
| A SMOKE | A3 ORCH_STAGING=true (not prod) | ✓ PASS |
| B ACCESS | B4 Plane: sandbox project accessible | ✓ PASS |
| B ACCESS | B5 Gitea: orchestrator-sandbox accessible, push=true | ✓ PASS |
| B ACCESS | B6 Registry: sandbox present, prod ET/ORCH absent | ✓ PASS |
| C E2E | C7 Create issue in Plane SANDBOX | ✓ PASS |
| C E2E | C8 Trigger pipeline via /webhook/plane | ✓ PASS |
| C E2E | C9a Branch appears in orchestrator-sandbox | ✗ FAIL (INFRA-WAIVED) |
| C E2E | C9b Analyst job enqueued in staging queue | ✗ FAIL (INFRA-WAIVED) |
Cleanup: Plane issue deleted (HTTP 204); no branch to delete.
Exit-code → verdict mapping unchanged: exit 0 → `staging_status: SUCCESS`. Waived checks are not
re-judged (trust the exit code; the two infra-only checks C9a/C9b depend on SANDBOX bot accounts
being project members, not on the pipeline). Staging gate **PASSED**; task advances to `deploy`.

View File

@@ -0,0 +1,12 @@
---
deploy_status: SUCCESS
work_item: ORCH-027
hook_exit_code: 0
deployed_by: deploy-finalizer
---
# Deploy log — ORCH-036 executable self-deploy
Прод-деплой завершён хост-хуком с exit-code `0` -> `deploy_status: SUCCESS`.
Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.

View File

@@ -0,0 +1,7 @@
# Business Request: BUG/follow-up ORCH-040: normalize legacy root-owned файлы при миграции на uid 1000 (one-time + защита)
Work Item ID: ORCH-057
## Description
TBD

View File

@@ -0,0 +1,140 @@
---
work_item: ORCH-057
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 01 — BRD (бизнес-требования): ORCH-057 — нормализация legacy root-owned файлов при миграции на uid 1000 (one-time + защита)
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: analysis
## 1. Бизнес-контекст и проблема
ORCH-040 перевёл оба контейнера (`orchestrator` 8500, `orchestrator-staging` 8501) с root
на `user: "1000:1000"` (slin). Изменён был **только** `docker-compose.yml`. Однако bind-mount
`/home/slin/repos → /repos` уже содержал файлы и каталоги, созданные **прежним root-контейнером**
(`root:root`). Смена `user:` владельца существующих файлов НЕ меняет.
**Реальный инцидент (прод, 06.06, поймали на первом запуске ORCH-043).** Первый job под uid 1000
упал на стадии **launch** (НЕ на коде задачи):
```
fatal: could not create leading directories of
'/repos/_wt/orchestrator/feature_ORCH-043-.../.git': Permission denied
```
Причина: `/repos/_wt/` и старые worktree-папки = `root:root` → uid 1000 не может создать рядом
новый каталог worktree. Установлено фактически: ошибка возникает в `src/git_worktree.py::ensure_worktree`
(вызов `git worktree add`), куда конвейер приходит из `src/agents/launcher.py::_spawn` (стр. 500)
и `_materialize_deferred_branch` (ORCH-088). Агент даже не стартует — падает создание worktree.
**Ручной workaround (применён Стрим, прод снова рабочий, ОДНОРАЗОВО):**
```
sudo chown -R 1000:1000 /home/slin/repos/_wt
sudo chown -R 1000:1000 /home/slin/repos/orchestrator/.git /home/slin/repos/enduro-trails/.git
sudo chown -R 1000:1000 /home/slin/repos/orchestrator # +data/runs/*.log (37 root-логов)
```
ADR-001 ORCH-040 упоминал «массовый chown старых root-файлов» лишь абстрактно («вне объёма кода»,
«разовая операция Owner») и НЕ дал конкретной процедуры чистки legacy worktree — поэтому deployer
её не выполнил, и баг проявился в проде. Прод сейчас рабочий (ручной фикс наложен), но проблема
**воспроизведётся** на чистой среде, новом репо или после любого исторического запуска под root,
если её не закрыть кодом + процедурой.
**Это follow-up / закрытие недоделанного AC ORCH-040** (legacy-файлы), а не новая фича.
## 2. Объём (scope)
### В объёме
- **Защита launcher (код):** при `Permission denied` на создании worktree выдавать **внятную,
диагностируемую** ошибку «legacy root-файлы в `/repos/_wt` — требуется нормализация прав»
с указанием команды, а НЕ сырой `git fatal`.
- **Раннее обнаружение (код):** детектирование наличия файлов с `uid != <target_uid>` в
`ORCH_REPOS_DIR` (включая `_wt`, `.git/objects`, `.git/worktrees`, `data/runs`) при старте
контейнера / перед претензией на job — чтобы конвейер падал **внятно и заранее**, а не сырым
git-фаталом на launch.
- **Процедура нормализации (документация):** в `docs/operations/INFRA.md` (и собственный ADR
ORCH-057) — обязательная одноразовая процедура нормализации legacy root-файлов при миграции uid,
с точными командами и областью охвата (`_wt`, `.git`, `data/runs`).
- **Опционально (по решению архитектора):** механизм one-time нормализации при буте/деплое —
init-контейнер/хук под root, либо blocking-entrypoint-проверка.
### Вне объёма
- Изменение логики конвейера, `STAGE_TRANSITIONS`, `QG_CHECKS`, `check_*`, схемы БД.
- Пересмотр самого решения ORCH-040 (uid 1000) — оно принято и остаётся.
- Перенос инстанса на другой хост / другой uid (отдельная задача при миграции хоста).
- Массовая ретроактивная переработка ADR-001 ORCH-040 (его история не переписывается;
допускается forward-breadcrumb-ссылка на ORCH-057 — решает архитектор).
- Выбор конкретного варианта реализации one-time нормализации (a/b/в) — зона архитектора (06-adr).
## 3. Заинтересованные стороны
- **Заказчик / Owner** — Слава (homenet542), инициатор; принимает результат.
- **Эксплуатация** — Стрим (применял ручной workaround); потребитель процедуры в INFRA.md.
- **Затронутые проекты** — `orchestrator` (self-hosting) и `enduro-trails` (общий инстанс, общая
очередь, общий bind-mount `/repos`): нормализация прав `/repos` касается обоих репо.
## 4. Бизнес-требования (BR)
- **BR-1** — После миграции контейнера на новый uid конвейер запускается **без ручного `chown`**:
либо авто-нормализация прав, либо **явная блокирующая ошибка с инструкцией** (никогда не сырой
`git fatal` на launch).
- **BR-2** — На свежей среде / новом репо / после исторического запуска под root проблема
**не воспроизводится** (детект + понятная диагностика срабатывают до падения агента).
- **BR-3** — `INFRA.md` и ADR содержат **конкретную процедуру** нормализации legacy root-файлов
(точные команды, область: `_wt`, `.git/objects`, `.git/worktrees`, `data/runs`), помеченную как
обязательный шаг миграции uid.
- **BR-4** — Несоответствие владельца наблюдаемо: оператор узнаёт о проблеме из лога/уведомления/
read-only статуса, а не по падению задачи на launch.
- **BR-5** — Защита `ensure_worktree` распознаёт класс ошибки «нет прав на создание worktree» и
сообщает причину + лечащую команду (опц. — авто-самолечение, если процесс имеет права).
## 5. Нефункциональные требования (NFR)
- **NFR-1 (self-hosting безопасность)** — Решение **никогда** не перезапускает/не роняет
прод-контейнер `orchestrator`, не трогает `main`/force-push/прод-образ. Контейнер бежит под
uid 1000 (без root) → код **не может** делать `chown` без root; код ограничивается
детектом + внятной диагностикой/блокировкой, а фактический `chown` — операторская/init-процедура.
- **NFR-2 (общий инстанс)** — Нулевая регрессия для `enduro-trails`: feature под kill-switch и
scope-флагом (по образцу `serial_gate`/`coverage_gate`); выключено → поведение 1:1 как до ORCH-057.
- **NFR-3 (never-raise / fail-safe)** — Детект-леаф никогда не бросает наружу неожиданное исключение
и не блокирует старт сервиса по своей ошибке; деградирует в WARNING.
- **NFR-4 (идемпотентность)** — Повторный запуск детекта/нормализации на уже корректной среде —
no-op без побочных эффектов.
- **NFR-5 (обратимость)** — Поведение откатывается выключением kill-switch без миграций/правки схемы.
- **NFR-6 (наблюдаемость)** — Вердикт (есть/нет mismatch, сколько файлов, какие корни) логируется
структурно; при проблеме — Telegram с кликабельным номером задачи (если применимо) + read-only
отражение в `GET /queue`.
## 6. Допущения и ограничения
- Целевой uid:gid рантайма = `1000:1000` (slin), подтверждён ORCH-040 (P-3); на хосте `/repos`,
`/app/data` штатно `1000:1000`.
- Контейнер бежит под numeric uid 1000 без записи в `/etc/passwd` базового образа; в образе создан
реальный user `slin` (uid 1000) для `getpwuid()` (ORCH-058, Dockerfile). Под uid 1000 `chown`
чужих (root) файлов **невозможен** без CAP_CHOWN/root.
- `git config --system --add safe.directory '*'` уже в образе — git доверяет bind-mount.
- Корни проверки: `ORCH_REPOS_DIR` (`/repos`), включая `_wt`, `<repo>/.git/objects`,
`<repo>/.git/worktrees`, и `data/runs` (37 root-логов в инциденте).
- `start_pipeline` (ORCH-088) отложил срез ветки на момент claim analyst-job → детект уместен
и на старте сервиса, и перед claim'ом (точку выбирает архитектор).
## 7. Критерии успеха
После миграции uid (или на чистой среде) первый же job проходит launch без ручного `chown`, либо —
если права не нормализованы — конвейер выдаёт **понятную блокирующую диагностику** с командой
исправления вместо сырого `git fatal`. INFRA.md/ADR содержат воспроизводимую процедуру.
Для `enduro-trails` — нулевая регрессия. Детальные PASS/FAIL — в `03-acceptance-criteria.md`.
## 8. Риски
- Контейнер без root не может `chown` → авто-самолечение возможно только частично/при наличии прав;
основной гарант — детект+диагностика+процедура (детали — `10-tech-risks.md`, архитектор).
- Рекурсивный обход больших `.git/objects` / `_wt` может быть дорог → нужен дешёвый/семплированный
детект и кэш (как preflight TTL).
- Ложно-блокирующая ошибка может застопорить и enduro-trails (общий `/repos`) → строгий scope/fail-safe.
- Правка `docker-compose.yml`/entrypoint (init-контейнер) = деплой self → групповой риск (NFR-1),
обязательная страховка staging.

View File

@@ -0,0 +1,117 @@
---
work_item: ORCH-057
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 02 — ТЗ (TRZ): ORCH-057 — нормализация legacy root-owned файлов при миграции на uid 1000
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: analysis
> ТЗ описывает **конкретные изменения к реализации**, выведенные из BRD и фактического кода.
> Архитектурное обоснование/выбор варианта one-time нормализации (init-контейнер vs blocking-entrypoint
> vs ансибл) — задача архитектора (`06-adr/`). Здесь — требования, контракты и ограничения.
## 1. Сводка изменения
Закрыть недоделанный AC ORCH-040 по legacy-файлам. Три слоя:
1. **Защита launcher**`ensure_worktree` распознаёт `Permission denied`/git-fatal на создании
worktree и поднимает **внятную** ошибку с диагнозом «legacy root-файлы в `/repos/_wt` — нужна
нормализация прав» + лечащая команда (опц. авто-самолечение при наличии прав).
2. **Ранний детект** — новый чистый леаф находит файлы с `uid != target_uid` в `ORCH_REPOS_DIR`
(`_wt`, `.git/objects`, `.git/worktrees`, `data/runs`); вызывается на старте сервиса и/или перед
claim'ом job; never-raise, config-gated, с наблюдаемостью.
3. **Процедура**`INFRA.md` + ADR ORCH-057: точные команды разовой нормализации как обязательный
шаг миграции uid. Опционально — one-time нормализация под root через init-механизм (решает архитектор).
Инвариант: `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict-ключи / схема БД —
**байт-в-байт прежние**. Изменение аддитивно и обратимо kill-switch'ем.
## 2. Задействованные модули / пути
| Путь | Действие |
|------|----------|
| `src/git_worktree.py` (`ensure_worktree`, `remove_worktree`) | изменить — классификация `Permission denied`/git-fatal на `git worktree add` / `os.makedirs` → внятный actionable `RuntimeError` (опц. self-heal при правах) |
| `src/fs_normalize.py` | **создать** — чистый леаф (never-raise): `scan_ownership(roots, target_uid) -> результат`; опц. `normalize(...)` (chown только при наличии прав); хелпер `applies(repo)` + кэш (TTL, как preflight) |
| `src/config.py` | изменить — добавить флаги (см. §7); без правки существующих значений |
| `src/main.py` (`lifespan`) | изменить — добавить startup-вызов детекта (best-effort, never-fatal по образцу L-2/lease-reclaim), лог + Telegram при mismatch; read-only блок в `GET /queue` |
| `src/preflight.py` **или** `src/queue_worker.py` | изменить (на выбор архитектора) — опц. гейт claim'а job при обнаруженном mismatch, чтобы падать внятно ДО launch (по образцу preflight-гейта) |
| `docker-compose.yml` / `Dockerfile` / `scripts/*entrypoint*` | **кандидат** (решает архитектор) — one-time root-нормализация (init-контейнер/хук) ПЕРЕД стартом app; если выбрано — деплой self, обязательная staging-страховка |
| `docs/operations/INFRA.md` | изменить — раздел «Миграция uid: обязательная нормализация legacy root-файлов» (команды + область) |
| `docs/work-items/ORCH-057/06-adr/ADR-001-*.md` | создать (architect) — решение + процедура; опц. forward-breadcrumb из ADR-001 ORCH-040 (без переписывания истории) |
| `CHANGELOG.md` | изменить — запись о ORCH-057 |
| `tests/test_*` | создать — см. `04-test-plan.yaml` |
## 3. Функциональные требования
### FR-1 — Внятная ошибка `ensure_worktree` (BR-1, BR-5)
При неуспехе `git worktree add` / `os.makedirs(os.path.dirname(wt))` по причине отказа доступа
(`Permission denied`, `could not create leading directories`, `insufficient permission for adding an
object`) `ensure_worktree` поднимает `RuntimeError` с сообщением, которое: (а) называет корневую
причину (legacy root-owned файлы в `/repos/_wt` или `.git` после миграции uid ORCH-040); (б) указывает
лечащую команду (`chown -R <uid>:<gid> …`) или ссылку на процедуру INFRA.md; (в) НЕ является сырым
git stderr. Прочие (нет-прав-несвязанные) ошибки сохраняют текущий контракт (никакой подмены смысла).
### FR-2 — Детект несоответствия владельца (BR-2, BR-4)
Леаф `fs_normalize.scan_ownership` обходит корни (`/repos/_wt`, `<repo>/.git/objects`,
`<repo>/.git/worktrees`, `data/runs`) и возвращает: есть ли файлы с `uid != target_uid`, их число
(или флаг «≥1»), список затронутых корней. Обход дешёвый/ограниченный (ранний выход при первом
mismatch для быстрого вердикта; полный подсчёт — опционально/семплировано). Результат кэшируется по
TTL (по образцу `preflight._cache`). `target_uid` = `os.getuid()` или конфиг (дефолт 1000).
### FR-3 — Реакция на детект (BR-1, BR-4)
- **Startup (main.lifespan):** вызвать детект best-effort; при mismatch — структурный WARNING +
Telegram (если включён) с числом/корнями и лечащей командой. Никогда не падать на старте по
ошибке детекта (NFR-3).
- **Опц. гейт claim'а:** при обнаруженном mismatch и `target_uid` без прав на chown — не претендовать
на job (или претендовать и сразу честно фейлить с FR-1-сообщением), чтобы исход был внятным до launch.
Конкретную точку (preflight vs queue_worker) выбирает архитектор; требование — «внятно и заранее».
### FR-4 — Опциональная авто-нормализация (BR-1)
`fs_normalize.normalize` выполняет `chown -R target_uid:target_gid` по корням **только если процесс
имеет на это право** (CAP_CHOWN/root). Под uid 1000 без прав — no-op + честный лог «нужна операторская
процедура» (НЕ ошибка). Включается отдельным флагом (`*_AUTO`), по умолчанию — выкл (детект-only).
Если архитектор выбирает init-контейнер под root — это и есть носитель FR-4 на буте.
### FR-5 — Документированная процедура (BR-3)
`INFRA.md` получает раздел с точными командами разовой нормализации (`_wt`, оба `.git`, `data/runs`),
помеченный как **обязательный** шаг миграции uid и часть чеклиста деплоя self. ADR ORCH-057 фиксирует
решение и ссылается на процедуру; ADR-001 ORCH-040 опц. получает forward-ссылку.
## 4. Изменения API
Нет новых обязательных эндпоинтов. **Опционально** (наблюдаемость, решает архитектор):
- расширить `GET /queue` read-only блоком `fs_ownership` (`{enabled, target_uid, mismatch, roots, checked_at}`);
- ручной триггер `POST /fs-normalize/check` (форс-пересчёт детекта) — по образцу `POST /serial-gate/unfreeze`.
## 5. Изменения схемы БД
Нет. Состояние детекта — в памяти (TTL-кэш), как `preflight`. Таблицы/миграции/индексы не вводятся.
## 6. Требования к новым/изменённым QG checks
Нет. Это **не** stage-гейт и **не** под-гейт ребра. `QG_CHECKS` / `check_*` / `STAGE_TRANSITIONS` /
machine-verdict-ключи (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`/
`coverage_status:`) — не трогаются. (В описании баг-репорта «deploy-гейт ORCH-040» — это деплой-хук/
процедура, а не зарегистрированный QG.)
## 7. Совместимость / регресс
- **Kill-switch** `ORCH_FS_NORMALIZE_ENABLED` (дефолт по решению архитектора; `False` → весь код инертен,
поведение 1:1 как до ORCH-057).
- **Scope** `ORCH_FS_NORMALIZE_REPOS` (CSV; пусто → **self-hosting only**, как `coverage_gate_repos`
enduro-trails не затронут). Локальный `applies(repo)` проверяется ПЕРВЫМ (дешёвый обход только при applies).
- **Флаги** (рабочие имена, финал — за архитектором): `ORCH_FS_TARGET_UID` (дефолт 1000),
`ORCH_FS_NORMALIZE_AUTO` (дефолт `False` — детект-only; `True` → попытка chown при наличии прав),
`ORCH_FS_SCAN_ROOTS` (CSV переопределения корней), `ORCH_FS_SCAN_CACHE_TTL_S`.
- **Never-raise / fail-safe** — ошибка детекта/нормализации деградирует в WARNING, не блокирует старт
сервиса по своей вине; FR-1 меняет лишь **формулировку** ошибки worktree, не её факт.
- **Self-hosting** (NFR-1) — код только читает/детектит/диагностирует (и chown ТОЛЬКО при наличии прав);
не деплоит/не рестартит прод/не трогает `main`. Любое касание `docker-compose.yml`/entrypoint требует
staging-прогона (8501) перед прод-рестартом в окно тишины.
- **Обратимость** — выкл kill-switch → прежнее поведение; миграций/правки схемы нет.
- **Пайплайн-артефакты:** обновляются `01..04` (analysis), `06-adr/`+`07-infra-requirements.md`+`10-tech-risks.md`
(architecture), `12/13/15/14` (review/testing/staging/deploy), `INFRA.md`, `CHANGELOG.md`.

View File

@@ -0,0 +1,99 @@
---
work_item: ORCH-057
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 03 — Критерии приёмки (Acceptance Criteria): ORCH-057 — нормализация legacy root-owned файлов
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: analysis
Формат: каждый критерий имеет **PASS** (что должно быть истинно для приёмки) и **FAIL**
(что считается провалом). Любой машинный/ручной reviewer проверяет их буквально по файлам репозитория.
---
## AC-1 — Конвейер стартует без ручного chown (или внятная блокирующая ошибка)
**Условие:** после миграции контейнера на новый uid первый job не падает сырым git-фаталом на launch.
- **PASS:** при нормализованных правах worktree создаётся и агент стартует; при НЕнормализованных
правах конвейер выдаёт понятную блокирующую ошибку с диагнозом и лечащей командой (НЕ сырой
`fatal: could not create leading directories … Permission denied`).
- **FAIL:** на launch всплывает сырой git-fatal/Permission denied без диагноза причины и инструкции.
---
## AC-2 — `ensure_worktree` даёт actionable-ошибку при отказе доступа
**Условие:** `src/git_worktree.py::ensure_worktree` классифицирует ошибки прав.
- **PASS:** при `Permission denied`/`could not create leading directories`/`insufficient permission`
поднимается `RuntimeError`, текст которого называет причину (legacy root-файлы в `/repos/_wt`/`.git`
после миграции uid) и указывает команду/ссылку на процедуру; ошибки, не связанные с правами,
сохраняют прежний контракт.
- **FAIL:** сырой git stderr пробрасывается без диагноза; либо подменяется смысл не-прав-ошибок;
либо `ensure_worktree` падает необработанно.
---
## AC-3 — Детект несоответствия владельца
**Условие:** новый леаф `src/fs_normalize.py` обнаруживает файлы с `uid != target_uid` в корнях
(`/repos/_wt`, `<repo>/.git/objects`, `<repo>/.git/worktrees`, `data/runs`).
- **PASS:** на среде с root-файлами `scan_ownership` возвращает mismatch=True + затронутые корни;
на чистой (`1000:1000`) среде — mismatch=False (no-op, идемпотентно); леаф never-raise.
- **FAIL:** mismatch не обнаружен на грязной среде / ложный mismatch на чистой / леаф бросает наружу.
---
## AC-4 — Наблюдаемость детекта
**Условие:** результат детекта виден оператору без падения задачи.
- **PASS:** при mismatch — структурный лог-WARNING (число/корни/лечащая команда) и Telegram (если
включён); опц. read-only отражение в `GET /queue`.
- **FAIL:** mismatch обнаружен, но никак не сообщён; оператор узнаёт о проблеме только по упавшей задаче.
---
## AC-5 — Self-hosting безопасность и нулевая регрессия enduro-trails
**Условие:** изменение безопасно для общего инстанса.
- **PASS:** код не рестартит/не роняет прод, не трогает `main`/force-push/прод-образ; chown — только
при наличии прав; при выключенном kill-switch поведение 1:1 как до ORCH-057; при пустом scope-CSV
feature активен только для self-hosting (enduro-trails не затронут); регресс `pytest tests/ -q` зелёный.
- **FAIL:** любой рестарт/деградация прода из кода задачи; ненулевая регрессия enduro-trails;
поведение меняется при выключенном флаге; падение всего регресса.
---
## AC-6 — Инварианты конвейера сохранены
**Условие:** изменение аддитивно.
- **PASS:** `STAGE_TRANSITIONS`, `QG_CHECKS`, `check_*`, machine-verdict-ключи и схема БД —
байт-в-байт прежние; новые флаги аддитивны и обратимы.
- **FAIL:** затронут любой exit/под-гейт, изменён machine-key, добавлена миграция схемы.
---
## AC-7 — Документированная процедура нормализации
**Условие:** процедура воспроизводима.
- **PASS:** `INFRA.md` содержит раздел «Миграция uid: обязательная нормализация legacy root-файлов»
с точными командами (`_wt`, оба `.git`, `data/runs`) как обязательный шаг миграции; ADR ORCH-057
фиксирует решение и ссылается на процедуру.
- **FAIL:** процедура отсутствует/абстрактна (как было в ORCH-040) либо не покрывает все корни.
---
## Сводная матрица AC ↔ FR/BR
| AC | Покрывает |
|----|-----------|
| AC-1 | BR-1 / FR-1, FR-3 |
| AC-2 | BR-1, BR-5 / FR-1 |
| AC-3 | BR-2 / FR-2 |
| AC-4 | BR-4 / FR-3 |
| AC-5 | NFR-1, NFR-2, NFR-5 / FR-4 |
| AC-6 | NFR-5 (инварианты) |
| AC-7 | BR-3 / FR-5 |

View File

@@ -0,0 +1,92 @@
work_item: ORCH-057
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
title: "Нормализация legacy root-owned файлов при миграции на uid 1000 (детект + защита worktree)"
framework: pytest
scope: >
Покрывается: классификация ошибки прав в ensure_worktree (внятная actionable-ошибка),
детект несоответствия владельца (fs_normalize.scan_ownership), идемпотентность на чистой среде,
fail-safe/never-raise, scope/kill-switch (self-hosting only при пустом CSV), опц. self-heal-noop
без прав. ВНЕ покрытия: реальный chown под root (требует привилегий — проверяется на staging
вручную), правка docker-compose/entrypoint (инфра, ручная проверка на 8501).
notes: >
Все FS-зависимые тесты используют tmp_path и monkeypatch os.getuid/os.stat — без реального chown
и без записи в /repos. Telegram/Plane мокаются. Полный регресс tests/ должен оставаться зелёным;
STAGE_TRANSITIONS/QG_CHECKS/схема БД не затрагиваются — отдельные guard-тесты не требуются, но
существующие тесты на инварианты должны пройти без изменений.
tests:
- id: TC-01
type: unit
description: "ensure_worktree при git-fatal 'could not create leading directories / Permission denied' поднимает RuntimeError с диагнозом legacy-root + лечащей командой, а не сырой git stderr"
module: tests/test_git_worktree_perm.py
expected: PASS
- id: TC-02
type: unit
description: "ensure_worktree при ошибке, НЕ связанной с правами (например branch conflict), сохраняет прежний контракт сообщения (не подменяет смысл)"
module: tests/test_git_worktree_perm.py
expected: PASS
- id: TC-03
type: unit
description: "scan_ownership на дереве с файлом uid != target_uid возвращает mismatch=True и список затронутых корней"
module: tests/test_fs_normalize.py
expected: PASS
- id: TC-04
type: unit
description: "scan_ownership на чистом дереве (все файлы target_uid) возвращает mismatch=False (идемпотентный no-op)"
module: tests/test_fs_normalize.py
expected: PASS
- id: TC-05
type: unit
description: "scan_ownership never-raise: при недоступном/несуществующем корне деградирует в WARNING и не бросает наружу"
module: tests/test_fs_normalize.py
expected: PASS
- id: TC-06
type: unit
description: "applies(repo): пустой ORCH_FS_NORMALIZE_REPOS → True только для self-hosting репо (orchestrator), False для enduro-trails; непустой CSV — по списку"
module: tests/test_fs_normalize.py
expected: PASS
- id: TC-07
type: unit
description: "kill-switch ORCH_FS_NORMALIZE_ENABLED=False → scan/normalize инертны (no-op), поведение 1:1 как до ORCH-057"
module: tests/test_fs_normalize.py
expected: PASS
- id: TC-08
type: unit
description: "normalize без прав (uid 1000, чужие root-файлы, ORCH_FS_NORMALIZE_AUTO=True) → no-op + честный лог 'нужна операторская процедура', НЕ исключение"
module: tests/test_fs_normalize.py
expected: PASS
- id: TC-09
type: unit
description: "TTL-кэш детекта: повторный вызов в окне TTL не пере-сканирует дерево (по образцу preflight._cache); force/reset инвалидирует"
module: tests/test_fs_normalize.py
expected: PASS
- id: TC-10
type: integration
description: "startup-хук lifespan при mismatch вызывает send_telegram (мок) и логирует WARNING; при ошибке детекта старт сервиса не падает (never-fatal)"
module: tests/test_fs_normalize_startup.py
expected: PASS
- id: TC-11
type: integration
description: "опц. гейт claim'а: при обнаруженном mismatch без прав исход job внятный (FR-1-сообщение / не-claim) ДО launch, а не сырой git-fatal"
module: tests/test_fs_normalize_startup.py
expected: PASS
- id: TC-12
type: integration
description: "GET /queue (если реализован read-only блок fs_ownership) отдаёт {enabled,target_uid,mismatch,roots,checked_at} и не 5xx-ит при выключенном флаге"
module: tests/test_api_queue.py
expected: PASS

View File

@@ -0,0 +1,210 @@
---
work_item: ORCH-057
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# ADR-001: Нормализация legacy root-owned файлов при миграции на uid 1000 — детект + actionable-ошибка + процедура
Work Item: **ORCH-057** — follow-up ORCH-040 (legacy `root:root` файлы в `/repos` ломают создание worktree под uid 1000)
Стадия: **architecture**
Сквозная регистрация: **`docs/architecture/adr/adr-0031-legacy-ownership-normalization.md`** (новый
leaf-компонент + startup-поведение, затрагивает весь инстанс → кросс-каттинг).
## Статус
Proposed
## Контекст
ORCH-040 перевёл оба контейнера на `user: "1000:1000"`, изменив **только** `docker-compose.yml`.
Смена `user:` не меняет владельца уже существующих файлов, созданных прежним root-контейнером.
Bind-mount `/home/slin/repos → /repos` содержал `root:root` каталоги (`_wt/`, старые worktree,
`.git/objects`, `data/runs` — 37 root-логов).
**Сверено по коду:**
- `src/git_worktree.py::ensure_worktree` (стр. 78 `os.makedirs(os.path.dirname(wt))`, стр. 81/85
`git worktree add`) — точка реального падения. При `root:root` владельце `/repos/_wt/` uid 1000
не может создать рядом новый каталог worktree → `fatal: could not create leading directories …
Permission denied`. Сейчас этот stderr пробрасывается «сырым» в `RuntimeError` (стр. 9093) без
диагноза причины.
- Конвейер приходит сюда из `src/agents/launcher.py::_spawn` и `_materialize_deferred_branch`
(ORCH-088, отложенный срез ветки на момент claim analyst-job). **Агент не стартует** — падает
создание worktree (НЕ код задачи), т.е. это launch-time инфраструктурный сбой.
- Контейнер бежит под numeric uid 1000 **без root** (ORCH-040 P-3, ORCH-058 реальный user `slin`
в образе). Под uid 1000 `chown` чужих (root) файлов **невозможен** без `CAP_CHOWN`. Значит код
физически не может «починить» права сам — ему доступны только **детект + диагностика**, а
фактический `chown` — операторская процедура.
- ADR-001 ORCH-040 упоминал «массовый chown старых root-файлов» лишь абстрактно («вне объёма кода»,
«разовая операция Owner») и не дал конкретной процедуры → deployer её не выполнил → баг проявился
в проде 06.06 на первом запуске ORCH-043. Прод сейчас рабочий (ручной workaround Стрима наложен),
но проблема **воспроизводится** на чистой среде / новом репо / после любого исторического запуска
под root.
Это **закрытие недоделанного AC ORCH-040**, а не новая фича. Существующие гейты/паттерны для опоры:
условный leaf-гейт `coverage_gate`/`serial_gate` (kill-switch + scope + `is_self_hosting_repo`),
best-effort startup-хуки в `main.lifespan` (lease-reclaim, log-rotation — never-fatal),
read-only снимки `GET /queue` (`serial_gate.snapshot()`), TTL-кэш `preflight._cache`.
## Решение
### Сводка
Три аддитивных, обратимых kill-switch'ем слоя, **без** изменения `STAGE_TRANSITIONS` / `QG_CHECKS` /
`check_*` / machine-verdict-ключей / схемы БД:
1. **Actionable-ошибка** в `ensure_worktree` — класс «нет прав на создание worktree» распознаётся и
превращается в диагностируемый `RuntimeError` с причиной + лечащей командой (FR-1).
2. **Детект-леаф** `src/fs_normalize.py` — чистый, never-raise, TTL-кэшируемый обход корней, ищет
файлы с `uid != target_uid` (FR-2); вызывается best-effort на старте сервиса с наблюдаемостью
(FR-3).
3. **Операторская процедура** в `INFRA.md` + forward-breadcrumb из ADR-040 — точные команды разовой
нормализации как обязательный шаг миграции uid (FR-5).
Фактический `chown` остаётся **операторской процедурой** (NFR-1: код под uid 1000 без root его делать
не может и не должен).
### D1 — `ensure_worktree`: классификация отказа доступа (FR-1, AC-1, AC-2)
Оборачиваем **обе** точки сбоя по правам — `os.makedirs(os.path.dirname(wt))` (стр. 78) и оба
`git worktree add` (стр. 81/85). Класс «нет прав» детектируется по маркерам в `stderr`/исключении:
`Permission denied`, `could not create leading directories`, `insufficient permission for adding an
object`, `PermissionError` (errno `EACCES`/`EPERM`). При совпадении — `RuntimeError`, текст которого:
(а) называет корневую причину («legacy root-owned файлы в `/repos/_wt` или `.git` после миграции uid
ORCH-040»); (б) указывает лечащую команду (`chown -R <target_uid>:<gid> /repos/_wt …`) и ссылку на
раздел INFRA.md; (в) **не** является сырым git stderr.
**Инвариант контракта (AC-2 FAIL-условие):** ошибки, **не** связанные с правами (реальный git-конфликт,
отсутствие `origin/main`, таймаут), сохраняют **прежний** текст/смысл — никакой подмены. Классификатор —
чистая функция `classify_worktree_error(stderr_or_exc) -> bool` (или хелпер в `fs_normalize`),
покрытая юнит-тестами на обе ветки. Помощь-сообщение строится только при `True`. Это **меняет лишь
формулировку** ошибки, не её факт (NFR-3): worktree как падал, так и падает — но теперь внятно.
### D2 — Детект-леаф `src/fs_normalize.py` (FR-2, AC-3)
Новый чистый модуль по образцу `serial_gate`/`post_deploy` (импортирует только `config`/`logging`/
`os`/`pwd`; не тянет `stage_engine`/`launcher`). API:
- `scan_ownership(roots: list[str] | None = None, target_uid: int | None = None) -> OwnershipScan`
обходит корни, возвращает `{mismatch: bool, target_uid: int, roots_checked: list, roots_mismatch:
list, sample_path: str | None, count: int | None, checked_at: float}`.
- **`target_uid`** по умолчанию = `os.getuid()` (uid, под которым реально бежит процесс — ровно тот
субъект, что «не может создать файл»); переопределяется `fs_target_uid` (дефолт 1000) для тестов/
нестандартного рантайма.
- **Корни** по умолчанию: `/repos/_wt`, `<repo>/.git/objects`, `<repo>/.git/worktrees` (для репо из
скоупа), `data/runs` (`os.path.dirname(settings.db_path)/runs`). Переопределяемы `fs_scan_roots`
(CSV).
- **Дешевизна (риск стоимости обхода):** **ранний выход при первом mismatch** (для быстрого булева
вердикта `os.lstat(...).st_uid != target_uid`). Полный `count` — опционален/семплирован (отдельный
дешёвый режим, по умолчанию выключен), чтобы не обходить целиком большие `.git/objects`. Результат
**кэшируется по TTL** `fs_scan_cache_ttl_s` (паттерн `preflight._cache`, `force=` обходит кэш).
- **never-raise (NFR-3):** любая ошибка обхода (исчезнувший путь, отказ stat) → деградирует в WARNING
и консервативный вердикт `mismatch=False` (не блокирует и не паникует); идемпотентно (AC-3:
повторный скан на чистой среде — `mismatch=False`, no-op).
- **`applies(repo: str) -> bool`** — `fs_normalize_enabled` (kill-switch) И scope (`fs_normalize_repos`
CSV; пусто → `is_self_hosting_repo(repo)`, как `coverage_gate`); проверяется **ПЕРВЫМ**, дорогой
обход — только при `applies==True` (NFR-2: enduro-trails не сканируется при пустом CSV).
- **`snapshot() -> dict`** — read-only для `GET /queue`.
### D3 — Точка интеграции: startup-наблюдаемость, БЕЗ блокировки claim (FR-3 — разрешение открытого выбора TRZ)
TRZ §2 оставил архитектору выбор «preflight vs queue_worker» для опц. гейта claim'а. **Решение:
claim НЕ блокируем.**
- **Startup (`main.lifespan`):** best-effort вызов `scan_ownership()` рядом с lease-reclaim/log-rotation
(стр. 6390), обёрнут `try/except` (never-fatal). При `mismatch` — структурный WARNING (число/корни/
лечащая команда) + Telegram (если включён). Это даёт оператору **проактивный сигнал заранее**
(AC-4), не дожидаясь падения задачи.
- **«Внятно и заранее» обеспечивает D1, а не claim-гейт.** `ensure_worktree` знает `repo` и падает
до того, как агент потратит хоть один токен (агент не стартует). Это и есть требуемый ранний внятный
исход.
**Почему НЕ блокирующий claim-гейт (отвергнуто):**
- `preflight.check()` **не знает repo** и гейтит claim **всех** репо → при mismatch в общем `/repos/_wt`
заблокировал бы и enduro-trails (нарушение NFR-2 при включённом флаге). Сделать его scope-aware
внутри preflight нельзя без знания репо в точке вызова.
- Гейт в `queue_worker`/`db.claim_next_job` (как `serial_gate`) технически scope-aware, но: (1)
оставил бы задачу «молча висеть» в очереди вместо явного диагноза; (2) добавил бы дорогой FS-обход
в offline hot-path claim'а; (3) дублировал бы исход, который D1 уже даёт внятно. Лишняя поверхность
без выигрыша.
Итог: **детект = наблюдаемость (startup + опц. ручной POST), а внятный отказ = D1 в точке launch.**
### D4 — Опциональная авто-нормализация `normalize()` (FR-4) — не init-контейнер
`fs_normalize.normalize(roots, target_uid)` выполняет `os.chown`/`chown -R` по корням **только если
процесс имеет `CAP_CHOWN`/root**. Под uid 1000 без прав — **no-op + честный лог** «нужна операторская
процедура» (НЕ ошибка). Включается отдельным флагом `fs_normalize_auto` (дефолт `False` — детект-only).
**Init-контейнер/root-entrypoint отвергнут (см. Альтернативы):** он (а) реинтродуцирует root-контекст,
ровно который ORCH-040 убрал ради безопасности; (б) требует правки `docker-compose.yml`/entrypoint →
**self-deploy** с групповым риском (NFR-1) и обязательной staging-страховкой ради разовой задачи;
(в) discretionary по BRD §2 «Опционально». Носитель реальной нормализации — **документированная
операторская процедура** (D5), запускаемая под root **на хосте** один раз при миграции uid.
### D5 — Процедура в INFRA.md + forward-breadcrumb (FR-5, AC-7)
В `docs/operations/INFRA.md` (раздел «Рантайм-uid (ORCH-040)») добавляется подраздел **«Миграция uid:
обязательная нормализация legacy root-файлов»** с точными командами, покрывающими **все** корни
(`_wt`, оба `.git`, `data/runs`), помеченный как **обязательный** шаг миграции uid и пункт чеклиста
деплоя self. Существующий абстрактный буллет (стр. 5051) заменяется ссылкой на новый подраздел.
В ADR-040 — необязательный forward-breadcrumb на ORCH-057 (история ORCH-040 не переписывается, §2 BRD).
### D6 — Конфиг-флаги (TRZ §7) и наблюдаемость
Аддитивно в `src/config.py` (существующие значения не трогаются):
| Флаг (env) | Дефолт | Смысл |
|------------|--------|-------|
| `fs_normalize_enabled` (`ORCH_FS_NORMALIZE_ENABLED`) | `True` | kill-switch; `False` → весь код инертен, поведение 1:1 как до ORCH-057 (D1 тоже гардится — при выкл. контракт ошибки прежний) |
| `fs_normalize_repos` (`ORCH_FS_NORMALIZE_REPOS`) | `""` | scope CSV; пусто → self-hosting only (`is_self_hosting_repo`) |
| `fs_target_uid` (`ORCH_FS_TARGET_UID`) | `1000` | целевой uid (фолбэк, если `os.getuid()` неприменим) |
| `fs_normalize_auto` (`ORCH_FS_NORMALIZE_AUTO`) | `False` | детект-only; `True` → попытка chown при наличии прав (D4) |
| `fs_scan_roots` (`ORCH_FS_SCAN_ROOTS`) | `""` | CSV-переопределение корней |
| `fs_scan_cache_ttl_s` (`ORCH_FS_SCAN_CACHE_TTL_S`) | `300` | TTL детект-кэша |
Наблюдаемость (AC-4): read-only блок `fs_ownership` в `GET /queue` (`snapshot()`:
`{enabled, target_uid, mismatch, roots_checked, roots_mismatch, checked_at}`); опц. ручной триггер
`POST /fs-normalize/check` (форс-пересчёт, по образцу `POST /serial-gate/unfreeze`). Telegram при
mismatch — с кликабельным номером задачи (если в контексте есть `work_item_id`), числом/корнями,
лечащей командой.
## Альтернативы
- **Init-контейнер / root-entrypoint, выполняющий `chown` на буте** — отвергнуто: реинтродуцирует
root-контекст (анти-цель ORCH-040), требует правки `docker-compose.yml`/entrypoint = self-deploy +
групповой риск + обязательная staging-страховка ради одноразовой операции; BRD помечает его
«Опционально». Реальную нормализацию несёт документированная разовая операторская процедура.
- **Блокирующий claim-гейт в `preflight`** — отвергнуто: preflight не знает repo → блокирует claim
ВСЕХ репо, регресс enduro-trails на общем `/repos` (нарушение NFR-2).
- **Блокирующий claim-гейт в `queue_worker`/`claim_next_job`** — отвергнуто: дорогой FS-обход в
offline hot-path, «молчаливое зависание» вместо внятного диагноза, дублирует исход D1.
- **Авто-`chown` из app-кода по умолчанию** — отвергнуто: под uid 1000 невозможен; включение по
умолчанию создавало бы ложное ожидание самолечения. Оставлен как opt-in `fs_normalize_auto` для
сред, где процесс имеет CAP_CHOWN.
- **Жёсткий fail на старте при mismatch** — отвергнуто: нарушает never-raise (NFR-3) и мог бы
застопорить старт сервиса всех проектов из-за грязного `/repos`. Детект — only WARNING/Telegram.
## Последствия
- **+** Класс «сырой git-fatal на launch после миграции uid» закрыт: оператор получает внятный
диагноз + лечащую команду в точке падения (D1) и проактивный сигнал на старте (D3).
- **+** Воспроизводимая процедура в INFRA.md закрывает пробел ADR-040 (AC-7).
- **+** Нулевая регрессия enduro-trails (scope `applies()` first, пустой CSV → self-hosting only);
`STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict/схема БД — байт-в-байт прежние (AC-6).
- **+** Никакого root-контекста, рестарта прода, касания `main`/force-push/прод-образа (NFR-1, AC-5).
- **** Фактический `chown` остаётся **ручным** операторским шагом — на средах, где его забыли, баг
всё ещё проявится, но теперь **внятно** (с инструкцией), а не сырым git-fatal. Митигейшн:
startup-WARNING+Telegram + обязательный пункт чеклиста миграции в INFRA.md.
- **** Ещё один best-effort startup-хук + leaf-модуль (рост поверхности). Митигейшн: чистый
never-raise leaf, TTL-кэш, ранний выход обхода, kill-switch.
- **** `fs_normalize_auto=True` под root реинтродуцирует chown-контекст — поэтому дефолт `False` и
он не для прод-self (прод бежит под uid 1000).
- **Откат:** `fs_normalize_enabled=False` → весь код инертен (D1 контракт ошибки прежний, детект не
запускается); миграций/правки схемы нет → мгновенный обратимый kill-switch.
## Ссылки
- BRD: `docs/work-items/ORCH-057/01-brd.md`
- TRZ: `docs/work-items/ORCH-057/02-trz.md`
- Acceptance: `docs/work-items/ORCH-057/03-acceptance-criteria.md`
- Инфра: `docs/work-items/ORCH-057/07-infra-requirements.md`
- Риски: `docs/work-items/ORCH-057/10-tech-risks.md`
- Сквозной ADR: `docs/architecture/adr/adr-0031-legacy-ownership-normalization.md`
- Сверено по коду: `src/git_worktree.py` (`ensure_worktree` стр. 78/81/85/90), `src/preflight.py`
(TTL-кэш), `src/main.py` (`lifespan` стр. 63114), `src/serial_gate.py` / `src/coverage_gate.py`
(паттерн условного leaf `applies`/scope/`is_self_hosting_repo`).
- Предшественник: `docs/work-items/ORCH-040/06-adr/ADR-001-run-agents-as-host-uid.md`,
`docs/architecture/adr/adr-0005-container-runs-as-host-uid.md`.

View File

@@ -0,0 +1,63 @@
---
work_item: ORCH-057
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 07 — Инфра-требования: ORCH-057 — нормализация legacy root-owned файлов при миграции на uid 1000
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: architecture
> When-applicable. Топология контейнеров **не меняется** (init-контейнер/правка `docker-compose.yml`
> отвергнуты — ADR-001 D4). Файл фиксирует новые env-флаги и **обязательную операторскую процедуру**
> нормализации legacy root-файлов как шаг миграции uid.
## I-1. Топология / окружения
**Без изменений.** Контейнеры `orchestrator` (8500) / `orchestrator-staging` (8501), `user:
"1000:1000"`, bind-mount `/home/slin/repos → /repos`, `network_mode: host` — как есть. Init-контейнер
/ root-entrypoint **сознательно НЕ вводятся** (реинтродуцировали бы root-контекст, убранный ORCH-040,
и потребовали бы self-deploy compose с групповым риском — ADR-001 D4, Альтернативы).
## I-2. Переменные окружения / секреты
Новые env-флаги (аддитивно в `src/config.py`, дефолты сохраняют поведение до ORCH-057). Добавить в
`.env.example` (секретов нет):
| Env | Дефолт | Назначение |
|-----|--------|------------|
| `ORCH_FS_NORMALIZE_ENABLED` | `true` | kill-switch всего слоя ORCH-057 |
| `ORCH_FS_NORMALIZE_REPOS` | `` (пусто) | scope CSV; пусто → self-hosting only (enduro не затронут) |
| `ORCH_FS_TARGET_UID` | `1000` | целевой uid (фолбэк к `os.getuid()`) |
| `ORCH_FS_NORMALIZE_AUTO` | `false` | детект-only; `true` → попытка chown при наличии CAP_CHOWN |
| `ORCH_FS_SCAN_ROOTS` | `` (пусто) | CSV-переопределение корней обхода |
| `ORCH_FS_SCAN_CACHE_TTL_S` | `300` | TTL детект-кэша |
Секреты не вводятся.
## I-3. Деплой / рестарт
- **Self-hosting инвариант (NFR-1):** код задачи **не** рестартит/не роняет прод-контейнер
`orchestrator`, не трогает `main`/force-push/прод-образ. `chown` из кода возможен лишь при наличии
прав (под uid 1000 — no-op).
- Изменение **только** `src/**` + docs → штатный деплой self **через staging-гейт (8501)**, затем
прод-рестарт **в окно тишины** (`GET /status` без активных задач). Правки `docker-compose.yml`/
entrypoint в задаче **нет** → нет дополнительного инфра-риска сверх обычного self-деплоя.
- **Обязательная операторская процедура нормализации (host-prerequisite миграции uid)** — выполняется
**под root на хосте mva154 один раз** при миграции uid / на новой среде, ПЕРЕД стартом app.
Каноничный текст — в `docs/operations/INFRA.md` (раздел «Миграция uid: обязательная нормализация
legacy root-файлов»). Команды покрывают все корни:
```
sudo chown -R 1000:1000 /home/slin/repos/_wt
sudo chown -R 1000:1000 /home/slin/repos/orchestrator/.git \
/home/slin/repos/enduro-trails/.git
sudo chown -R 1000:1000 /home/slin/repos/orchestrator # incl. data/runs/*.log
# Проверка: find /home/slin/repos/_wt ! -uid 1000 -print -quit (пусто = ок)
```
Идемпотентна (повтор на корректной среде — no-op). Помечена обязательным пунктом чеклиста
деплоя/миграции self.
## I-4. CI/CD
Без изменений в `.gitea/workflows/`. Новые юнит-тесты (`tests/test_fs_normalize.py`,
`tests/test_git_worktree_perm_error.py` — см. `04-test-plan.yaml`) гоняются существующим
`pytest tests/ -q`. Новых системных зависимостей образа нет.

View File

@@ -0,0 +1,37 @@
---
work_item: ORCH-057
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 10 — Технические риски: ORCH-057 — нормализация legacy root-owned файлов при миграции на uid 1000
Work Item: **ORCH-057** · Repo: **orchestrator** · Стадия: architecture
> Информационный (гейтом не парсится). Перечисляет риски реализации и их митигейшн.
## Реестр рисков
| ID | Риск | Вер. | Влия. | Митигейшн |
|----|------|------|-------|-----------|
| TR-1 | **Ложная классификация ошибки worktree** (D1): не-прав-ошибка распознана как «нет прав» → подмена смысла (FAIL AC-2). | Низ. | Сред. | Узкий набор маркеров (`Permission denied`/`could not create leading directories`/`insufficient permission`/`EACCES`/`EPERM`); классификатор — чистая функция с юнит-тестами на обе ветки; не-совпадение → прежний сырой текст без изменений. |
| TR-2 | **Дорогой рекурсивный обход** больших `.git/objects` / `_wt` тормозит старт сервиса. | Сред. | Сред. | Ранний выход при первом mismatch (булев вердикт); полный `count` опционален/семплирован; TTL-кэш (`fs_scan_cache_ttl_s`); вызов best-effort на старте, не в hot-path claim'а; `applies()` first → обход только при applies. |
| TR-3 | **Ложно-блокирующий эффект на enduro-trails** через общий `/repos`. | Низ. | Выс. | Claim НЕ блокируется (D3 — только наблюдаемость); scope `applies()` first, пустой CSV → self-hosting only → enduro не сканируется; детект never-raise. |
| TR-4 | **Забытый ручной `chown`**: на среде без выполненной процедуры баг всё ещё проявится. | Сред. | Сред. | Теперь проявляется **внятно** (D1 actionable-ошибка + startup WARNING/Telegram, не сырой git-fatal); процедура — обязательный пункт чеклиста миграции в INFRA.md; идемпотентна. Остаточный риск принят (код под uid 1000 не может chown). |
| TR-5 | **`fs_normalize_auto=True` под root** реинтродуцирует chown-контекст / неожиданный массовый chown. | Низ. | Сред. | Дефолт `False`; прод-self бежит под uid 1000 (chown = no-op); auto-режим — opt-in для сред с CAP_CHOWN; init-контейнер отвергнут (ADR-001 D4). |
| TR-6 | **never-raise дыра**: необработанное исключение детекта роняет старт сервиса всех проектов. | Низ. | Выс. | Леаф never-raise (паттерн `serial_gate`/`post_deploy`); startup-вызов в `try/except` (как lease-reclaim/log-rotation); ошибка → WARNING + консервативный `mismatch=False`. |
| TR-7 | **`os.getuid()` неприменим** в нестандартном рантайме → неверный target_uid → ложный mismatch. | Низ. | Низ. | Фолбэк `fs_target_uid` (дефолт 1000); идемпотентность скана; вердикт only-наблюдательный (не блокирует). |
| TR-8 | **Кэш устарел** после выполнения нормализации → stale `mismatch=True` в `GET /queue`. | Низ. | Низ. | TTL-инвалидизация; ручной `POST /fs-normalize/check` (`force=True`) для немедленного пересчёта. |
## Сводный вывод
Доминирующий класс — **операционные риски разовой нормализации**, а не алгоритмические: код только
читает/детектит/диагностирует (chown — операторская процедура под root на хосте). Самостоятельный
техдолг (TR-4) — остаточный и **принят**: контейнер без root физически не может починить права сам;
решение гарантирует **внятность** отказа, а не его отсутствие. Self-hosting-безопасность соблюдена
(никакого рестарта прода / касания `main` / root-контекста в коде). Изменение аддитивно и обратимо
kill-switch'ем → **эскалация `arch:major-change` НЕ требуется** (нет новой стадии/QG/таблицы/смены
топологии). Возврат в анализ не нужен — ТЗ удовлетворяется без нарушения принципов архитектуры.
Остаточный риск для прод-конвейера — **низкий**.

View File

@@ -0,0 +1,105 @@
---
verdict: APPROVED
work_item: ORCH-057
stage: review
author_agent: reviewer
status: approved
created_at: 2026-06-10
model_used: claude-opus-4-8
type: review
work_item_id: ORCH-057
version: 1
---
# Review ORCH-057
## Summary
Follow-up ORCH-040: закрыт недоделанный AC по legacy `root:root` файлам, ломавшим создание
worktree под uid 1000. Реализованы три аддитивных, обратимых kill-switch'ем слоя ровно по ADR-001:
**D1** actionable-ошибка в `ensure_worktree`, **D2** детект-леаф `src/fs_normalize.py`
(never-raise, TTL-кэш, scope-aware), **D3** best-effort startup-наблюдаемость в `main.lifespan`
(WARNING + Telegram, claim не блокируется), плюс `GET /queue` блок `fs_ownership` и
`POST /fs-normalize/check`. Документация (INFRA.md процедура, architecture/README.md, сквозной
adr-0031, CHANGELOG, .env.example) обновлена в том же PR.
Проверено по 4 осям; все 7 AC выполнены, P0/P1 findings нет. Регресс `pytest tests/ -q`
**1507 passed**; целевые модули (`test_fs_normalize`, `test_fs_normalize_startup`,
`test_git_worktree_perm`, `test_api_queue`) — **25 passed**, покрывают TC-01…TC-12.
## Соответствие ТЗ (02-trz) и AC (03-acceptance-criteria)
- **FR-1 / AC-1, AC-2** ✓ — `git_worktree._raise_if_permission` + `fs_normalize.is_permission_failure`/
`build_worktree_help`: класс «нет прав» (`Permission denied`/`could not create leading directories`/
`insufficient permission`/`PermissionError`/`EACCES`/`EPERM`) → actionable `RuntimeError` с причиной,
`chown`-командой и ссылкой на INFRA.md. Обе точки сбоя обёрнуты (`os.makedirs` + оба `worktree add`).
Не-прав-ошибки сохраняют прежний raw-контракт (TC-02 PASS). Под kill-switch — no-op, контракт 1:1.
- **FR-2 / AC-3** ✓ — `scan_ownership` обходит `/repos/_wt`, `<repo>/.git/{objects,worktrees}`,
`data/runs`; ранний выход на первом `lstat.st_uid != target_uid`; чистая среда → `mismatch=False`
идемпотентно; never-raise → консервативный `mismatch=False` (TC-03/04/05).
- **FR-3 / AC-4** ✓ — startup-хук never-fatal: WARNING + Telegram при mismatch; claim не блокируется
(D3, преднамеренно — внятный ранний отказ даёт D1, знающий repo). Read-only блок `fs_ownership` в
`GET /queue` (TC-10/TC-12).
- **FR-4** ✓ — `normalize()` chown только при `_is_privileged()` (geteuid==0); под uid 1000 — no-op +
честный лог, НЕ ошибка; gated `fs_normalize_auto` (дефолт False) (TC-08).
- **FR-5 / AC-7** ✓ — INFRA.md: блокер P-5 + подраздел «Миграция uid: обязательная нормализация»
со всеми корнями; work-item ADR + сквозной adr-0031.
- **§7 совместимость / AC-5** ✓ — `applies(repo)` first (kill-switch + scope; пустой CSV →
self-hosting only через `is_self_hosting_repo`); enduro-trails не сканируется при дефолте.
TTL-кэш (`fs_scan_cache_ttl_s`). Регресс зелёный (1507 passed).
## Соответствие ADR
- Реализация совпадает с ADR-001 D1D6 (включая сознательный отказ от блокирующего claim-гейта и
init-контейнера — обоснование в «Альтернативах»). Сквозная регистрация adr-0031 присутствует и
отражена в architecture/README.md.
- **Трассировка (AC-6 / TRACEABILITY):** инварианты конвейера не тронуты — commit `9852871` НЕ
затрагивает `src/stages.py`, `src/qg/checks.py`, `src/db.py`, `src/stage_engine.py`. Маркеры
ORCH-040/088 в `git_worktree`/`main` читаются, зафиксированные инварианты (never-fatal startup,
отложенный срез ветки) не сломаны. `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict/схема
БД — байт-в-байт прежние.
## Качество кода
- `src/fs_normalize.py` — чистый leaf (импортирует только `config`/`logging`/`os`/`time`,
лениво `qg.checks`/`notifications`); строгий never-raise на каждой публичной функции; docstrings
на всех публичных символах; `os.lstat` (не `stat`) для честной оценки симлинков. Зависимость
односторонняя (`git_worktree``fs_normalize`).
- Узкий `_PERM_MARKERS` сознательно не реклассифицирует не-прав-ошибки (защита AC-2).
- Тесты содержательны (214/136/139/68 строк), используют `tmp_path`/monkeypatch, без реального
chown и записи в `/repos`; покрывают обе ветки классификатора, идемпотентность, scope, kill-switch,
TTL-кэш, startup-never-fatal.
- Утечек/секретов/security-дыр не выявлено; chown физически возможен только под root (`_is_privileged`).
## Findings
### P0 — Blocker
- Нет.
### P1 — Must fix
- Нет.
### P2 — Should fix
- Нет.
### P3 — Nice-to-have (не блокирует)
- [ ] `snapshot()` в `GET /queue` на холодном кэше инициирует реальный обход `.git/objects` синхронно
в обработчике запроса. На практике кэш прогрет startup-хуком и TTL=300s, обход только для
self-hosting — латентность пренебрежима, паттерн зеркалит `coverage_gate`. Можно при желании
отдавать в `/queue` только кэш без форс-скана. Информационно.
## Документация
Обновлена в том же PR — golden source синхронен с кодом:
- `docs/operations/INFRA.md` — P-5 (блокер миграции uid) + подраздел процедуры со всеми корнями ✓
- `docs/architecture/README.md` — компонент «FS ownership detect» (D1D3, условность, наблюдаемость) ✓
- `docs/architecture/adr/adr-0031-legacy-ownership-normalization.md` — сквозной ADR (tracked) ✓
- `docs/work-items/ORCH-057/06-adr/ADR-001-…md` — work-item ADR ✓
- `CHANGELOG.md` — запись ORCH-057 ✓
- `.env.example` — 6 флагов `ORCH_FS_*`
`README.md` «Известные ограничения» (ORCH-079): пункт про legacy-ownership/uid-миграцию там
отсутствует — закрывать/снимать нечего, обзорная витрина в обновлении не нуждается.
**Вывод:** изменение `src/` сопровождено обновлением документации → требование правила 6
выполнено.

View File

@@ -0,0 +1,94 @@
---
result: PASS # PASS | FAIL — машинный вердикт, UPPERCASE
work_item: ORCH-057
stage: testing
author_agent: tester
status: pass
created_at: 2026-06-10
model_used: claude-opus-4-8
type: test-report
work_item_id: ORCH-057
---
# Test Report — ORCH-057
Нормализация legacy root-owned файлов при миграции на uid 1000 (детект + защита worktree).
Review-вердикт `12-review.md`**APPROVED**, P0/P1 findings нет.
## Окружение
- Python: 3.12.13
- pytest: 8.3.3 (plugins: cov-5.0.0, anyio-4.13.0, asyncio-0.23.8)
- Дата: 2026-06-10
- Worktree: `/repos/_wt/orchestrator/feature_ORCH-057-bug-follow-up-orch-040-normali`
(ветка `feature/ORCH-057-bug-follow-up-orch-040-normali`, тесты прогнаны из рабочего дерева
именно этой задачи, НЕ из общего `/repos/orchestrator`)
## Smoke API (read-only, прод-контейнер 8500 не тронут)
| Эндпоинт | Результат |
|----------|-----------|
| `GET /health` | `{"status":"ok","service":"orchestrator"}` — OK |
| `GET /status` | OK — задача ORCH-057 (id 83) видна на стадии `testing` |
| `GET /queue` | OK — присутствуют блоки `serial_gate` (ORCH-088) ✓ и `auto_labels` (ORCH-089) ✓ |
> Примечание: блок `fs_ownership` (ORCH-057) на прод-контейнере 8500 **отсутствует** —
> это ожидаемо: ORCH-057 ещё не задеплоен, прод исполняет предыдущий образ. Read-only блок
> `fs_ownership` присутствует и протестирован в коде ветки (TC-12, `test_api_queue.py` PASS).
> Это НЕ регресс смока: обязательные блоки `serial_gate` + `auto_labels` на месте.
## Результаты
### Полный регресс
`pytest tests/ -q`**1507 passed, 1 warning in 52.22s** (warning — Pydantic V2 deprecation,
предсуществующий, не относится к ORCH-057). Прод-контейнер не трогался.
### Профильные сюиты
`pytest tests/test_git_worktree_perm.py tests/test_fs_normalize.py tests/test_fs_normalize_startup.py tests/test_api_queue.py -v`
**25 passed** — покрывают TC-01…TC-12.
### Сопоставление с тест-планом (04-test-plan.yaml)
| TC ID | Описание | Тест-функция | Результат |
|-------|----------|--------------|-----------|
| TC-01 | `ensure_worktree` на git-fatal Permission denied → actionable RuntimeError | `test_git_worktree_perm::test_tc01_permission_git_fatal_becomes_actionable`, `test_tc01_makedirs_permission_error_becomes_actionable` | PASS |
| TC-02 | не-прав-ошибка сохраняет прежний raw-контракт | `test_git_worktree_perm::test_tc02_non_permission_error_keeps_prior_contract`, `test_tc02_killswitch_off_keeps_raw_contract_even_for_permission` | PASS |
| TC-03 | `scan_ownership` на дереве с uid≠target → mismatch=True + корни | `test_fs_normalize::test_tc03_scan_detects_mismatch` | PASS |
| TC-04 | `scan_ownership` на чистом дереве → mismatch=False (идемпотентно) | `test_fs_normalize::test_tc04_clean_tree_no_mismatch` | PASS |
| TC-05 | never-raise при недоступном/несуществующем корне → WARNING | `test_fs_normalize::test_tc05_never_raise_on_missing_root`, `test_tc05_never_raise_on_walk_error` | PASS |
| TC-06 | `applies(repo)`: пустой CSV → self-hosting only; непустой — по списку | `test_fs_normalize::test_tc06_applies_empty_csv_self_hosting_only`, `test_tc06_applies_explicit_csv` | PASS |
| TC-07 | kill-switch OFF → scan/normalize инертны (1:1 как до ORCH-057) | `test_fs_normalize::test_tc07_killswitch_off_scan_inert`, `test_tc07_killswitch_off_normalize_inert` | PASS |
| TC-08 | `normalize` без прав → no-op + честный лог, НЕ исключение | `test_fs_normalize::test_tc08_normalize_without_rights_is_noop_not_error` | PASS |
| TC-09 | TTL-кэш: повтор в окне TTL не пере-сканирует; ключ по roots+uid | `test_fs_normalize::test_tc09_ttl_cache_avoids_rescan`, `test_tc09_cache_keyed_by_roots_and_uid` | PASS |
| TC-10 | startup-хук: mismatch → send_telegram + WARNING; ошибка детекта never-fatal | `test_fs_normalize_startup::test_tc10_startup_mismatch_warns_and_telegrams`, `test_tc10_startup_detect_error_never_fatal`, `test_tc10_startup_clean_no_telegram` | PASS |
| TC-11 | гейт claim'а: mismatch без прав → внятный исход ДО launch, не сырой git-fatal | `test_fs_normalize_startup::test_tc11_launch_permission_failure_is_actionable_not_raw` | PASS |
| TC-12 | `GET /queue` блок `fs_ownership` отдаёт поля и не 5xx-ит при выключенном флаге | `test_api_queue::test_tc12_queue_exposes_fs_ownership_block`, `test_tc12_queue_no_5xx_when_disabled`, `test_fs_normalize_check_endpoint` | PASS |
Доп. целевые тесты (сверх плана, усиливают покрытие): `test_classify_worktree_error_markers`,
`test_is_permission_failure_from_exc`, `test_snapshot_shape` — PASS.
### Сопоставление с критериями приёмки (03-acceptance-criteria.md)
| AC | Покрыто | Результат |
|----|---------|-----------|
| AC-1 — конвейер стартует без ручного chown / внятная блокирующая ошибка | TC-01, TC-11 | PASS |
| AC-2 — `ensure_worktree` actionable-ошибка при отказе доступа, не-прав сохраняет контракт | TC-01, TC-02 | PASS |
| AC-3 — детект несоответствия владельца (mismatch на грязной, no-op на чистой) | TC-03, TC-04, TC-05 | PASS |
| AC-4 — наблюдаемость детекта (WARNING + Telegram + `GET /queue`) | TC-10, TC-12 | PASS |
| AC-5 — self-hosting безопасность, нулевая регрессия enduro, зелёный регресс | TC-06, TC-07, TC-08 + 1507 passed | PASS |
| AC-6 — инварианты конвейера (STAGE_TRANSITIONS/QG_CHECKS/check_*/machine-key/схема БД) | полный регресс зелёный, guard-тесты пройдены | PASS |
| AC-7 — документированная процедура нормализации (INFRA.md + ADR) | проверено reviewer (12-review.md), вне scope pytest | PASS (док.) |
## Вывод pytest
```
============================= test session starts ==============================
platform linux -- Python 3.12.13, pytest-8.3.3, pluggy-1.6.0
rootdir: /repos/_wt/orchestrator/feature_ORCH-057-bug-follow-up-orch-040-normali
plugins: cov-5.0.0, anyio-4.13.0, asyncio-0.23.8
collected 25 items (профильные сюиты)
... 25 passed, 1 warning in 2.19s
Полный регресс:
1507 passed, 1 warning in 52.22s
```
## Итог
**PASS** — все 12 TC выполнены и сопоставлены с тест-планом и критериями приёмки; профильные
сюиты 25 passed; полный регресс 1507 passed; smoke (`/health`, `/status`, `/queue` c блоками
`serial_gate` + `auto_labels`) — зелёный. Задача переходит на `deploy-staging`.

View File

@@ -0,0 +1,12 @@
---
deploy_status: SUCCESS
work_item: ORCH-057
hook_exit_code: 0
deployed_by: deploy-finalizer
---
# Deploy log — ORCH-036 executable self-deploy
Прод-деплой завершён хост-хуком с exit-code `0` -> `deploy_status: SUCCESS`.
Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.

View File

@@ -0,0 +1,33 @@
---
staging_status: SUCCESS
work_item: ORCH-057
stage: deploy-staging
author_agent: deployer
status: success
created_at: 2026-06-10
model_used: claude-opus-4-8
timestamp: 2026-06-10T00:02:11Z
base_url: http://localhost:8501
---
# Staging Gate Log
> Машинный вердикт читается ТОЛЬКО из `staging_status:` во frontmatter. `SUCCESS` → дальше; `FAILED` → откат.
Staging test suite завершён против живого стенда `orchestrator-staging` (8501). Запуск канонический —
`docker exec orchestrator-staging python3 /repos/orchestrator/scripts/staging_check.py --base-url http://localhost:8501 --mode stub`
(ORCH-048, ADR-001). Скрипт завершился с **exit code 0**`staging_status: SUCCESS`.
Итог: **8/10 checks PASS**. Все REAL-проверки зелёные; два FAIL — известные sandbox-infra-проверки
(C9a/C9b), waived согласно ORCH-061 (зависят от членства SANDBOX bot-аккаунтов в проекте, не от
конвейера). Exit-code → вердикт не меняется: trust the exit code, REAL failed = none.
INFRA-WAIVED: C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue (known sandbox-infra; real checks green)
VERDICT: SUCCESS (exit 0) — SUCCESS (infra-waived): ['C9a Branch appears in orchestrator-sandbox', 'C9b Analyst job enqueued in staging queue'] are known sandbox-infra checks; all real checks green
## Results
- **Block A (SMOKE)**: PASS — A1 `/health` → 200 `status=ok`; A2 `/queue` → 200 с counts/max_concurrency/resilience; A3 `ORCH_STAGING=true` (не прод).
- **Block B (ACCESS)**: PASS — B4 Plane sandbox доступен (5 projects, sandbox=YES); B5 Gitea `orchestrator-sandbox` доступен, push=true; B6 Registry изолирован (sandbox present, prod ET/ORCH absent).
- **Block C (E2E, mode=stub)**: C7 создать issue в Plane SANDBOX → PASS; C8 триггер конвейера `/webhook/plane` → PASS; C9a (branch в sandbox) и C9b (analyst job в очереди) → FAIL, **INFRA-WAIVED** (sandbox bot-accounts не члены проекта). Cleanup: Plane issue удалён (HTTP 204).
REAL failed: none.

View File

@@ -0,0 +1,7 @@
# Business Request: FND: машинный журнал уроков — структурированная база отклонений (топливо петли)
Work Item ID: ORCH-098
## Description
TBD

View File

@@ -0,0 +1,143 @@
---
work_item: ORCH-098
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 01 — BRD (бизнес-требования): ORCH-098 — FND: машинный журнал уроков (структурированная база отклонений)
Work Item: **ORCH-098** · Repo: **orchestrator** · Стадия: analysis
## 1. Бизнес-контекст и проблема
Оркестратор уже автономно проводит задачи через конвейер (ORCH-54), но **развивает** платформу
по-прежнему вручную связка Слава+Стрим: ловим инциденты → формулируем уроки → заводим задачи.
Уроки сегодня живут **свободным текстом** в `memory/` — они не машиночитаемы, по ним нельзя
считать паттерны, нельзя приоритизировать, нельзя автоматически предлагать улучшения.
ORCH-098 — шаг 1 эпика саморазвития (`docs/epics/self-evolution.md`, **домен 0 «Фундамент», F2**,
ORCH-8). Это **«топливо» вертикали-двигателя** (петля самообучения 8A): формализовать свободный
текст в **машинную структурированную таблицу отклонений конвейера**. Каждый урок — запись с
полями для машинного анализа паттернов. Журнал — фундамент, на котором позже встанут
ретроспективщик (E2), приоритизатор RICE (E3) и Стрим как потребители.
**Установленные факты-источники сигналов («уроков»)** — из памяти орка (инциденты 0609.06) и §8A
эпика:
- Провал гейта (BLOCKED / FAILED / REQUEST_CHANGES).
- **Ручное вмешательство человека — самый ценный сигнал** (каждый ручной пинок = дыра автономности).
- Ретраи, откаты деплоя, таймауты агентов.
- Ложные срабатывания гейтов (исторический пример: substring `PASS` в `check_tests_passed`).
- «Деплой SUCCESS, а прод не работает» (урок ET-8); транзиенты (Gitea `405`, Anthropic `Overloaded`).
**Решение Славы 10.06 (ОБЯЗАТЕЛЬНО учесть на этапе схемы):** схема журнала ДОЛЖНА **с самого
начала** нести поля для будущей **АТРИБУЦИИ** урока (иначе потом переделывать схему на живой
общей прод-БД). Атрибуция (`platform-level` / `project-level` / `both` / `unknown`), целевой
проект и целевой домен улучшения — это §8A эпика «platform-level vs project-level». При автозаписи
поля атрибуции могут быть пустыми/`unknown` (классификацию позже ставит ретроспективщик/Стрим), но
**колонки в схеме должны существовать сразу** — аддитивные, нуллабельные.
**Связь со слоями наблюдения (§2 эпика):** деградация продукта (слой 3, урок ET-8) — один из типов
урока; журнал должен уметь его хранить с атрибуцией `platform`/`project`.
## 2. Объём (scope)
### В объёме
- Аддитивная идемпотентная таблица БД `lessons` для структурированных уроков со всеми полями
контекста, анализа, статуса **и атрибуции** (колонки атрибуции — сразу, нуллабельные).
- Leaf-модуль `src/lessons.py` (never-raise, kill-switch) + helper записи урока.
- **Автозапись** ≥23 типов отклонений из кода через best-effort точки врезки в
`stage_engine.py` / `merge_gate.py` / `launcher.py` (провал гейта/откат, HOLD, транзиент-ретрай).
- **Read-only выборка** уроков (HTTP-эндпоинт + блок в `GET /queue`) — для будущего
ретроспективщика и Стрим.
- **Ручная запись** урока (HTTP-эндпоинт / helper) — Стрим/оператор кладёт урок руками.
- Доки (CLAUDE.md / architecture README / ADR) + `CHANGELOG.md`.
### Вне объёма
- **Анализ паттернов / ретроспективщик (E2)** — отдельная задача-потребитель журнала.
- **Приоритизатор RICE (E3)** — отдельная задача.
- **Автоматическая классификация атрибуции** — её ставит ретроспективщик/человек позже; здесь —
только колонки и возможность проставить значение руками/через update.
- **Банк идей (D4 / идеатор, E5)** — отдельный реестр, НЕ путать с журналом уроков.
- **Слой-3 детекция здоровья продукта** (мониторинг задеплоенного приложения) — отдельная
D4/D5-способность; журнал лишь умеет **хранить** такой урок, когда детектор появится.
- Изменение `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict-ключей / любых
существующих таблиц.
- Миграция исторических уроков из `memory/` (ручной разовый импорт — вне объёма).
## 3. Заинтересованные стороны
- **Заказчик:** Слава (требование атрибуции 10.06 — нормативно).
- **Прямой потребитель (будущее):** агент-ретроспективщик E2, приоритизатор E3, Стрим (ручной
разбор).
- **Затрагивается:** self-hosting прод-инстанс orchestrator (общая БД и очередь с enduro-trails) —
enduro **не должен быть затронут** (аддитивность, never-raise).
- **Принимает результат:** reviewer/tester конвейера + Слава.
## 4. Бизнес-требования (BR)
- **BR-1 — Структурированная таблица уроков.** Аддитивная, идемпотентная (`CREATE TABLE IF NOT
EXISTS`) таблица `lessons` на общей прод-БД с полями: тип отклонения; контекст
(work_item/task/стадия/агент/repo); корневая причина (если известна); предложенное улучшение
(если есть); статус (`new`/`in_progress`/`closed`/`linked`) + связанная задача; timestamp.
- **BR-2 — Поля атрибуции с самого начала.** Схема несёт **сразу** нуллабельные колонки:
`attribution` (`platform`/`project`/`both`/`unknown`), `target_repo` (кого касается:
`orchestrator`/`enduro-trails`/др.), `target_domain` (домен улучшения:
`reliability`/`quality`/`economy`/`features`/`scale`). При автозаписи допустимо пусто/`unknown`.
- **BR-3 — Автозапись ≥23 типов отклонений.** Из кода, best-effort, в детерминированных
choke-point: (а) провал гейта / откат на `development` (reviewer REQUEST_CHANGES, tester FAIL,
staging/deploy FAILED), (б) HOLD merge-актора / regression-guard HOLD, (в) транзиент-ретрай
(Gitea-merge `405`/`5xx`, Anthropic `Overloaded`/agent-timeout requeue). Дополнительно желательно
(г) post-deploy `DEGRADED` (урок «деплой OK / прод сломан», слой-3, ET-8) с атрибуцией.
- **BR-4 — Read-only выборка.** HTTP-эндпоинт `GET /lessons` (фильтры: тип/статус/repo/work_item,
лимит) + read-only блок `lessons` в `GET /queue` (сводка). Только чтение.
- **BR-5 — Ручная запись.** HTTP-эндпоинт `POST /lessons` (+ публичный helper) — оператор/Стрим
кладёт урок руками, в т.ч. с проставленной атрибуцией.
- **BR-6 — Обновление урока.** Возможность сменить статус / проставить атрибуцию / привязать
задачу после создания (helper/эндпоинт `POST /lessons/{id}` или поля в `POST /lessons`) — чтобы
ретроспективщик/человек позже классифицировал автозаписанный `unknown`.
## 5. Нефункциональные требования (NFR)
- **NFR-1 — never-raise (критично, self-hosting).** Сбой записи/чтения урока **никогда** не роняет
и не тормозит конвейер. Любая ошибка детектора/записи → лог WARNING + продолжение основного
потока. Журнал — наблюдатель, не участник пайплайна.
- **NFR-2 — Kill-switch.** Флаг `lessons_enabled` (env `ORCH_LESSONS_ENABLED`). `False` →
автозапись и эндпоинты инертны (нулевая регрессия, поведение конвейера байт-в-байт прежнее).
- **NFR-3 — Аддитивность / изоляция enduro.** Только новая таблица + новый leaf + новые эндпоинты +
тонкие врезки. `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / machine-verdict-ключи / схема
существующих таблиц — **байт-в-байт не тронуты**. Общая БД: enduro-trails не затронут.
- **NFR-4 — Restart-safe / идемпотентность таблицы.** `CREATE TABLE IF NOT EXISTS` + `_ensure_column`
(паттерн `repo_freeze`/`coverage_baseline`) — безопасно на живой БД, повторный старт без эффекта.
- **NFR-5 — Лёгкость.** Запись — один `INSERT`, чтение — простые `SELECT` (общий хост впритык:
RAM 171Mi free, диск 92%). Никаких фоновых потоков/сканов.
- **NFR-6 — Схема-forward-proof.** Колонки атрибуции добавлены сразу (BR-2), чтобы не
переделывать схему на живой БД, когда появится ретроспективщик.
- **NFR-7 — Self-hosting безопасность.** Модуль только пишет/читает БД и отдаёт JSON — не
деплоит, не рестартит прод, не трогает `main`, не порождает процессы/сеть.
## 6. Допущения и ограничения
- Журнал уроков — **исключение** из правила «наблюдатель отделён от наблюдаемого» (§2 эпика): это
историческая память петли, не realtime-мониторинг → допустимо в БД орка; запись best-effort.
- Точки автозаписи привязаны к существующим choke-point: `stage_engine._handle_qg_failure_rollbacks`
(откаты), `merge_gate` (HOLD/transient-классификатор ORCH-093), `launcher` (timeout/requeue
транзиентов). Архитектор уточняет точный набор и сигнатуры врезок.
- Набор значений `lesson_type` / `attribution` / `target_domain` — конвенция (строковые слаги),
не enum-констрейнт БД (forward-compatible; новый тип не требует миграции).
- Общая прод-БД с enduro: любое поле repo-scoped, фильтрация на уровне выборки.
## 7. Критерии успеха
Таблица `lessons` создаётся идемпотентно на старте; автозаписаны ≥23 типа отклонений из реального
прогона; `GET /lessons` и `POST /lessons` работают; атрибутивные колонки присутствуют и
проставляемы; kill-switch выключает всё без регрессии; `pytest tests/ -q` зелёный; доки+CHANGELOG
обновлены. Детальные PASS/FAIL — `03-acceptance-criteria.md`.
## 8. Риски
- Врезка детектора в горячий путь конвейера → риск регрессии при сбое записи. Митигация: NFR-1
never-raise + kill-switch.
- Рост таблицы со временем (автозапись на каждом откате/ретрае). Митигация: лёгкие строки;
будущая ретенция — вне объёма, отметить в `10-tech-risks.md` (архитектор).
- Недооформленная схема атрибуции → переделка на живой БД. Митигация: BR-2/NFR-6 (колонки сразу).
- Детали и архитектурные развилки (точные точки врезки, индексы, дедуп автозаписей) — задача
архитектора (`06-adr/`, `10-tech-risks.md`).

View File

@@ -0,0 +1,163 @@
---
work_item: ORCH-098
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 02 — ТЗ (TRZ): ORCH-098 — FND: машинный журнал уроков
Work Item: **ORCH-098** · Repo: **orchestrator** · Стадия: analysis
> ТЗ описывает **конкретные изменения к реализации**, выведенные из BRD и фактического кода.
> Архитектурное обоснование/решения (точные сигнатуры врезок, индексы, дедуп, ретенция) — задача
> архитектора (`06-adr`).
## 1. Сводка изменения
Ввести **машинный журнал уроков** — аддитивную таблицу `lessons` + чистый leaf-модуль
`src/lessons.py` (never-raise, kill-switch) по образцу `serial_gate.py` / `coverage_gate.py` /
`metrics.py`. Модуль несёт: helper записи урока (`record`), read-only выборку (`get_lessons`),
обновление (`update_lesson`), `snapshot()` для `GET /queue`. Автозапись ≥23 типов отклонений —
тонкими best-effort врезками в существующие choke-point `stage_engine.py` / `merge_gate.py` /
`launcher.py`. Два новых HTTP-эндпоинта (`GET /lessons`, `POST /lessons`) в `main.py`. Схема несёт
**сразу** нуллабельные колонки атрибуции (требование Славы 10.06). Конвейер (`STAGE_TRANSITIONS` /
`QG_CHECKS` / `check_*` / machine-verdict) — **не тронут**; enduro — не затронут.
## 2. Задействованные модули / пути
| Путь | Действие |
|------|----------|
| `src/db.py` | изменить — `CREATE TABLE IF NOT EXISTS lessons` в `init_db()`; helper'ы `record_lesson` / `get_lessons` / `update_lesson` / `lessons_snapshot` |
| `src/lessons.py` | **создать** — leaf: `record(...)`, `get(...)`, `update(...)`, `snapshot()`, константы `LessonType`/`Attribution`/`Domain`, `applies()`, never-raise |
| `src/config.py` | изменить — флаг `lessons_enabled` (env `ORCH_LESSONS_ENABLED`, дефолт `True`) + опц. `lessons_query_limit_default` |
| `src/stage_engine.py` | изменить — best-effort врезка `lessons.record(...)` в `_handle_qg_failure_rollbacks` (откаты gate-fail) и в ветку post-deploy `DEGRADED` → freeze |
| `src/merge_gate.py` | изменить — best-effort врезка в HOLD/regression-guard HOLD и в транзиент-классификатор (`_classify_merge_response == "transient"` / merge-retry-исчерпан) |
| `src/agents/launcher.py` | изменить — best-effort врезка при timeout-kill / транзиент-requeue агента |
| `src/main.py` | изменить — эндпоинты `GET /lessons`, `POST /lessons` (+опц. `POST /lessons/{id}`); блок `lessons` в `GET /queue` |
| `tests/test_lessons.py` | **создать** — unit + integration (см. `04-test-plan.yaml`) |
| `CLAUDE.md`, `docs/architecture/README.md`, `CHANGELOG.md` | изменить — документация |
## 3. Функциональные требования
### FR-1 — Таблица `lessons` (BR-1, BR-2)
Аддитивная идемпотентная таблица в `db.init_db()` (паттерн `repo_freeze`/`coverage_baseline`):
```sql
CREATE TABLE IF NOT EXISTS lessons (
id INTEGER PRIMARY KEY AUTOINCREMENT,
created_at TEXT NOT NULL DEFAULT (datetime('now')),
updated_at TEXT,
-- тип отклонения (slug-конвенция, не enum-констрейнт)
lesson_type TEXT NOT NULL,
-- контекст
work_item_id TEXT,
task_id INTEGER,
stage TEXT,
agent TEXT,
repo TEXT,
-- анализ
root_cause TEXT,
suggestion TEXT,
-- статус
status TEXT NOT NULL DEFAULT 'new', -- new|in_progress|closed|linked
related_task TEXT,
-- АТРИБУЦИЯ (BR-2, Слава 10.06) — нуллабельные, заполняются позже
attribution TEXT, -- platform|project|both|unknown
target_repo TEXT, -- кого касается (orchestrator|enduro-trails|…)
target_domain TEXT, -- reliability|quality|economy|features|scale
-- учёт
source TEXT, -- auto|manual
detail TEXT -- свободный JSON/текст (payload детектора)
);
CREATE INDEX IF NOT EXISTS idx_lessons_type_status ON lessons (lesson_type, status);
CREATE INDEX IF NOT EXISTS idx_lessons_repo ON lessons (repo);
```
Колонки атрибуции создаются **сразу** и нуллабельны (NFR-6). На уже созданной таблице новые
колонки добавляются `_ensure_column` (forward-safe). Никакого `enum`-констрейнта — значения суть
конвенция строковых слагов (forward-compatible).
### FR-2 — Helper записи `lessons.record(...)` (BR-3, BR-5; NFR-1)
Сигнатура (уточняет архитектор), напр.:
`record(lesson_type, *, work_item_id=None, task_id=None, stage=None, agent=None, repo=None,
root_cause=None, suggestion=None, status="new", related_task=None, attribution=None,
target_repo=None, target_domain=None, source="auto", detail=None) -> int | None`.
- При `lessons_enabled is False` → немедленный no-op (`None`), без обращения к БД.
- Оборачивает `db.record_lesson` в `try/except` → при любой ошибке `logger.warning` + `None`
(**never-raise**, NFR-1). Возвращает `id` вставленной строки при успехе.
- `source="auto"` для детекторов, `source="manual"` для ручной записи.
### FR-3 — Автозапись отклонений (BR-3)
Минимум 23 типа, best-effort (каждая врезка обёрнута/делегирует в never-raise `record`):
- **FR-3a — gate-fail / rollback** — в `stage_engine._handle_qg_failure_rollbacks`: при откате на
`development` (reviewer `REQUEST_CHANGES`, tester `check_tests_passed` FAIL, staging FAILED,
deploy FAILED) → `record("gate_failure", stage=…, agent=…, work_item_id=…, repo=…,
root_cause=reason)`. Тип откатной причины → в `detail`/`root_cause`.
- **FR-3b — merge HOLD / regression-guard HOLD** — в `merge_gate` (путь HOLD `_handle_merge_verify`
/ `main_regressed_alerts_total` инкремент) → `record("merge_hold", …, root_cause=…)`.
- **FR-3c — транзиент-ретрай** — в `merge_gate._classify_merge_response`-ветке `"transient"`
(Gitea `405`/`5xx`) и/или `launcher` timeout-kill / транзиент-requeue (Anthropic `Overloaded`) →
`record("transient_retry", …, detail=<код/причина>)`.
- **FR-3d (желательно) — post-deploy DEGRADED** — в ветке `stage_engine`, где post-deploy
`DEGRADED`/rollback ведёт к `set_repo_freeze` (ORCH-088/021) → `record("deploy_degraded", …,
attribution=None|"unknown", target_repo=repo)` — урок «деплой OK / прод сломан» (слой-3, ET-8),
атрибуцию проставит ретроспективщик/человек позже.
Дедуп/частота автозаписи (чтобы не плодить дубли на ретраях) — решение архитектора (например,
ключ `work_item_id+stage+lesson_type` в окне); если не реализуется в v1 — отметить в `10-tech-risks.md`.
### FR-4 — Read-only выборка (BR-4)
`db.get_lessons(*, lesson_type=None, status=None, repo=None, work_item_id=None, limit=N) ->
list[dict]` (параметризованный `SELECT … ORDER BY id DESC LIMIT ?`). `lessons.get(...)`
never-raise обёртка → `[]` при ошибке. `lessons.snapshot()` — лёгкая сводка (счётчики по
типу/статусу, последние N) для `GET /queue`, never-raise → `{}`.
### FR-5 — Ручная запись + обновление (BR-5, BR-6)
- `POST /lessons` (тело JSON) → `lessons.record(..., source="manual")`. Возвращает `{id}`.
- `POST /lessons/{id}` (или поля в `POST /lessons`) → `lessons.update(id, status=…,
attribution=…, target_repo=…, target_domain=…, related_task=…, root_cause=…, suggestion=…)` →
`db.update_lesson` (`UPDATE … SET … updated_at=datetime('now')`). Позволяет ретроспективщику/
человеку классифицировать автозаписанный `unknown`. never-raise.
### FR-6 — Kill-switch + изоляция (NFR-2, NFR-3)
`lessons_enabled=False` → `record`/`get`/`update`/`snapshot` инертны, эндпоинты возвращают
`{"enabled": false}` (паттерн `metrics_endpoint_enabled`), врезки no-op. Поведение конвейера —
байт-в-байт прежнее. enduro не затронут (общая БД, аддитивная таблица).
## 4. Изменения API
Новые эндпоинты в `src/main.py` (стиль `GET /queue` / `POST /coverage/baseline`):
- **`GET /lessons`** — read-only выборка. Query: `type`, `status`, `repo`, `work_item`, `limit`
(дефолт из конфига). Ответ: `{"enabled": bool, "lessons": [ {…строка…} ]}`. Всегда `200`.
- **`POST /lessons`** — ручная запись. Тело: `lesson_type` (обяз.) + опциональные поля контекста/
анализа/атрибуции. Ответ: `{"id": <int>}` или `{"enabled": false}`.
- **(опц.) `POST /lessons/{id}`** — обновление статуса/атрибуции/привязки задачи. Ответ `{"ok": bool}`.
- `GET /queue` — добавить read-only ключ `"lessons": lessons.snapshot()` (рядом с `serial_gate`/
`coverage`/`bug_fast_track`). Существующие ключи — без изменений.
`GET /health` / `GET /status` / `GET /metrics` / прочие эндпоинты — **байт-в-байт прежние**.
## 5. Изменения схемы БД
**Новая аддитивная таблица `lessons`** (FR-1) + два индекса, всё `IF NOT EXISTS` / `_ensure_column`.
Существующие таблицы (`tasks`/`jobs`/`agent_runs`/`events`/`job_deps`/`repo_freeze`/
`coverage_baseline`/`tracker_messages`) — **не тронуты**. Колонки атрибуции — сразу, нуллабельные
(BR-2/NFR-6). Restart-safe, идемпотентно, безопасно на живой общей прод-БД (enduro не затронут).
## 6. Требования к новым/изменённым QG checks
**Нет.** Журнал уроков — наблюдатель, **не** Quality Gate. `QG_CHECKS` / `check_*` /
machine-verdict-ключи (`verdict:`/`result:`/`staging_status:`/`deploy_status:`/`security_status:`/
`coverage_status:`) — байт-в-байт не тронуты. Журнал не влияет на продвижение по стадиям.
## 7. Совместимость / регресс
- **Kill-switch** `lessons_enabled` (env `ORCH_LESSONS_ENABLED`, дефолт `True`): `False` → полная
инертность, нулевая регрессия.
- **never-raise** на всех публичных функциях и врезках (NFR-1) — сбой журнала не роняет конвейер.
- **Аддитивно**: только новая таблица + leaf + эндпоинты + тонкие врезки; ничего существующего не
переписывается.
- **Изоляция enduro**: общая БД, новая таблица; репо-скоуп через поле/фильтр выборки.
- **Обратимость**: выключение флага возвращает прод к доресурсному поведению мгновенно.
- **Self-hosting безопасность** (NFR-7): модуль не деплоит/не рестартит прод/не трогает `main`/без
процессов/сети.
- **Артефакты pipeline:** задача создаёт/обновляет стандартный пакет (`01``04` + `06-adr` от
архитектора, `12`/`13`/`14`/`15`/`17`/`18` по ходу конвейера). Сам журнал — БД-сущность, не
номерной артефакт.

View File

@@ -0,0 +1,123 @@
---
work_item: ORCH-098
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 03 — Критерии приёмки (Acceptance Criteria): ORCH-098 — FND: машинный журнал уроков
Work Item: **ORCH-098** · Repo: **orchestrator** · Стадия: analysis
Формат: каждый критерий имеет **PASS** (что должно быть истинно для приёмки) и **FAIL** (что
считается провалом). Reviewer/tester проверяет их буквально по файлам репозитория и тестам.
---
## AC-1 — Аддитивная таблица уроков
**Условие:** `db.init_db()` создаёт таблицу `lessons` идемпотентно.
- **PASS:** в `src/db.py` есть `CREATE TABLE IF NOT EXISTS lessons (...)` со всеми полями
(`lesson_type`, контекст `work_item_id/task_id/stage/agent/repo`, `root_cause`, `suggestion`,
`status`+`related_task`, `created_at`); повторный `init_db()` не падает и не дублирует; таблица
создаётся на общей прод-БД без изменения существующих таблиц.
- **FAIL:** таблицы нет / создаётся не идемпотентно / отсутствует любое поле из BR-1 / меняется
схема существующей таблицы.
---
## AC-2 — Поля атрибуции присутствуют с самого начала
**Условие:** схема `lessons` несёт нуллабельные колонки атрибуции (требование Славы 10.06).
- **PASS:** колонки `attribution` (`platform`/`project`/`both`/`unknown`), `target_repo`,
`target_domain` существуют сразу, нуллабельны, допускают пустое/`unknown` при автозаписи и
проставляются позже через update.
- **FAIL:** хотя бы одной из трёх колонок нет в исходной схеме / колонка `NOT NULL` без дефолта /
атрибуцию нельзя проставить после создания записи.
---
## AC-3 — Автозапись ≥23 типов отклонений
**Условие:** из кода автоматически (best-effort, `source="auto"`) пишутся минимум 23 типа уроков.
- **PASS:** есть врезки `lessons.record(...)` минимум в двух-трёх точках из:
`stage_engine._handle_qg_failure_rollbacks` (gate-fail/откат), `merge_gate` (HOLD/transient),
`launcher` (timeout/transient-requeue); интеграционный тест подтверждает появление строки в
`lessons` после смоделированного отклонения.
- **FAIL:** автозаписи нет / реализован <2 типов / врезка может бросить исключение в горячий путь.
---
## AC-4 — Read-only выборка
**Условие:** уроки можно прочитать через эндпоинт и сводку в `GET /queue`.
- **PASS:** `GET /lessons` возвращает `200` с массивом уроков, поддерживает фильтры
(type/status/repo/work_item/limit); `GET /queue` содержит read-only блок `lessons`; ни один
путь чтения не мутирует данные.
- **FAIL:** эндпоинта нет / не фильтрует / чтение мутирует данные / блока в `/queue` нет.
---
## AC-5 — Ручная запись и обновление
**Условие:** оператор/Стрим кладёт урок руками и может его доклассифицировать.
- **PASS:** `POST /lessons` создаёт урок (`source="manual"`, можно задать атрибуцию); обновление
(`POST /lessons/{id}` или поля) меняет `status`/`attribution`/`target_*`/`related_task` и
стампит `updated_at`.
- **FAIL:** ручной записи нет / нельзя проставить атрибуцию / нельзя обновить автозаписанный урок.
---
## AC-6 — never-raise (сбой журнала не роняет конвейер)
**Условие:** любая ошибка записи/чтения урока изолирована от пайплайна.
- **PASS:** все публичные функции `src/lessons.py` и все врезки обёрнуты так, что исключение БД/
любого источника → `logger.warning` + безопасный дефолт (`None`/`[]`/`{}`); юнит-тест с
замоканной падающей БД подтверждает, что вызывающий код (откат/HOLD/retry) не падает.
- **FAIL:** исключение из журнала пробивается в `stage_engine`/`merge_gate`/`launcher`/эндпоинт.
---
## AC-7 — Kill-switch и нулевая регрессия
**Условие:** `lessons_enabled=False` делает функционал инертным.
- **PASS:** при `False` `record`/`get`/`update`/`snapshot` — no-op (без обращения к БД), эндпоинты
отдают `{"enabled": false}`, врезки не пишут; поведение конвейера и `GET /queue` (помимо нового
блока) — байт-в-байт прежнее; enduro-trails не затронут.
- **FAIL:** при `False` журнал что-то пишет/ломает / меняется поведение конвейера / затронут enduro.
---
## AC-8 — Инварианты конвейера не тронуты
**Условие:** изменение не касается машины стадий и гейтов.
- **PASS:** `STAGE_TRANSITIONS`, реестр `QG_CHECKS`, функции `check_*`, machine-verdict-ключи и
схема существующих таблиц — **диффом не затронуты**; журнал не влияет на продвижение по стадиям.
- **FAIL:** изменён любой из перечисленных артефактов / журнал участвует в решении гейта.
---
## AC-9 — Тесты, документация, CHANGELOG
**Условие:** изменение проверено и задокументировано.
- **PASS:** `pytest tests/ -q` зелёный (включая новый `tests/test_lessons.py` с unit+integration);
обновлены `CLAUDE.md` + `docs/architecture/README.md`; в задаче есть `06-adr/` (архитектор);
`CHANGELOG.md` дополнен.
- **FAIL:** тесты падают / нет покрытия новой логики / документация или CHANGELOG не обновлены.
---
## Сводная матрица AC ↔ FR/BR
| AC | Покрывает |
|----|-----------|
| AC-1 | BR-1 / FR-1 |
| AC-2 | BR-2 / FR-1 / NFR-6 |
| AC-3 | BR-3 / FR-2 / FR-3 |
| AC-4 | BR-4 / FR-4 |
| AC-5 | BR-5 / BR-6 / FR-5 |
| AC-6 | NFR-1 / FR-2 |
| AC-7 | NFR-2 / NFR-3 / FR-6 |
| AC-8 | NFR-3 / FR-6 |
| AC-9 | NFR-1…NFR-7 (верификация) |

View File

@@ -0,0 +1,91 @@
work_item: ORCH-098
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
title: "Журнал уроков: таблица, автозапись отклонений, выборка, ручная запись, never-raise"
framework: pytest
scope: >
Покрывается: создание аддитивной таблицы lessons (идемпотентность, поля атрибуции),
helper записи record(), автозапись из choke-point (gate-fail/HOLD/transient), read-only
выборка get_lessons + snapshot, ручная запись/обновление, kill-switch, never-raise.
Вне покрытия: ретроспективщик (E2), приоритизатор (E3), автоклассификация атрибуции,
слой-3 детекция здоровья продукта.
notes: >
Тесты используют изолированную временную SQLite-БД (фикстура init_db во временном файле).
Полный регресс tests/ должен оставаться зелёным. Self-hosting: журнал never-raise — ни один
тест не должен показать, что сбой записи урока роняет конвейер.
tests:
- id: TC-01
type: unit
description: "init_db() создаёт таблицу lessons идемпотентно (двойной вызов не падает, нет дублей); присутствуют все поля BR-1."
module: tests/test_lessons.py
expected: PASS
- id: TC-02
type: unit
description: "Схема lessons несёт нуллабельные колонки атрибуции attribution/target_repo/target_domain; запись без них проходит (NULL/unknown), update проставляет их позже."
module: tests/test_lessons.py
expected: PASS
- id: TC-03
type: unit
description: "lessons.record() вставляет строку с переданными полями (source=auto/manual), возвращает id; created_at заполняется."
module: tests/test_lessons.py
expected: PASS
- id: TC-04
type: unit
description: "never-raise: при замоканной падающей БД record/get/update/snapshot возвращают None/[]/{} и не бросают исключение (logger.warning)."
module: tests/test_lessons.py
expected: PASS
- id: TC-05
type: unit
description: "kill-switch: при lessons_enabled=False record/get/update/snapshot инертны (no-op, без обращения к БД)."
module: tests/test_lessons.py
expected: PASS
- id: TC-06
type: unit
description: "get_lessons фильтрует по type/status/repo/work_item и соблюдает limit; порядок ORDER BY id DESC."
module: tests/test_lessons.py
expected: PASS
- id: TC-07
type: unit
description: "update_lesson меняет status/attribution/target_*/related_task и стампит updated_at; несуществующий id безопасен."
module: tests/test_lessons.py
expected: PASS
- id: TC-08
type: integration
description: "Автозапись gate-fail: смоделированный откат на development в _handle_qg_failure_rollbacks создаёт строку lessons type=gate_failure с контекстом (stage/agent/work_item/repo)."
module: tests/test_lessons.py
expected: PASS
- id: TC-09
type: integration
description: "Автозапись transient/HOLD: транзиент-ветка merge_gate (или timeout/requeue launcher) пишет урок type=transient_retry/merge_hold; сбой записи не ломает основной путь (never-raise в горячем пути)."
module: tests/test_lessons.py
expected: PASS
- id: TC-10
type: integration
description: "GET /lessons возвращает 200 с массивом и фильтрами; GET /queue содержит read-only блок lessons; чтение не мутирует данные."
module: tests/test_lessons.py
expected: PASS
- id: TC-11
type: integration
description: "POST /lessons создаёт ручной урок (source=manual, с атрибуцией); POST /lessons/{id} обновляет его; при lessons_enabled=False эндпоинты отдают {enabled:false}."
module: tests/test_lessons.py
expected: PASS
- id: TC-12
type: unit
description: "Инварианты конвейера не тронуты: STAGE_TRANSITIONS/QG_CHECKS/machine-verdict-ключи неизменны (структурный анти-регресс по составу реестра)."
module: tests/test_lessons.py
expected: PASS

View File

@@ -0,0 +1,244 @@
---
work_item: ORCH-098
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# ADR-001: Машинный журнал уроков `lessons` — аддитивная таблица + observer-leaf
Work Item: **ORCH-098** — FND: машинный журнал уроков (структурированная база отклонений конвейера)
Стадия: **architecture**
Сквозная регистрация: **`docs/architecture/adr/adr-0034-lessons-journal.md`** (решение
кросс-каттинговое: новый компонент + новая таблица на общей прод-БД + фундамент эпика
саморазвития).
## Статус
Proposed
## Контекст
ORCH-098 — шаг 1 («Фундамент», F2) эпика саморазвития: формализовать свободнотекстовые «уроки»
из `memory/` в **машинную структурированную таблицу отклонений конвейера**, на которой позже
встанут ретроспективщик (E2), приоритизатор RICE (E3) и Стрим. BRD/TRZ уже зафиксировали состав
полей, набор эндпоинтов и структуру leaf-модуля; нормативное требование Славы 10.06 — колонки
**атрибуции** в схеме **с самого начала** (нуллабельные), чтобы не переделывать схему на живой
общей прод-БД.
Сверено по коду (recon):
- **Образец observer-leaf**: `src/serial_gate.py`, `src/coverage_gate.py`, `src/metrics.py`
чистые leaf'ы, импортируют только `config`+`db`, `applies(repo)`-first, never-raise, `snapshot()`
для `GET /queue`.
- **БД-паттерн**: `db.get_db() -> sqlite3.Connection` (`row_factory=sqlite3.Row`, `.close()` в
`finally`); `db.init_db()``executescript` с `CREATE TABLE IF NOT EXISTS …`; идемпотентные
миграции `_ensure_column(conn, table, column, decl)` (`src/db.py:341`). Эталон аддитивной таблицы
`repo_freeze`, `coverage_baseline`; атомарный helper — `ratchet_coverage_baseline` (`db.py:251`).
- **Choke-point'ы автозаписи** (точные сигнатуры):
- `stage_engine._handle_qg_failure_rollbacks(task_id, current_stage, repo, work_item_id, branch,
agent, qg_name, reason, result)` (`src/stage_engine.py:728`) — все нужные поля контекста
локально доступны.
- post-deploy `DEGRADED → set_repo_freeze` (`src/stage_engine.py:~1993`) — доступны `repo`,
`work_item_id`, `branch`, локально собранный `reason`.
- `merge_gate._handle_merge_verify(task_id, repo, work_item_id, branch, result)`
(`src/merge_gate.py:1588`); ветка HOLD ставит `result.note="merge-not-verified-hold"` (~`:1695`).
- `merge_gate._classify_merge_response(repo, branch, index, status_code) -> "transient"|"terminal"`
(`src/merge_gate.py:811`).
- `launcher._watchdog`/`stop_process` (timeout-kill) и `launcher._finalize_transient(job_id, agent,
run_id, exit_code, job, retry_after)` (`src/agents/launcher.py:997`) — транзиент-requeue с
бюджетом `transient_attempts`.
- **Конфиг-паттерн**: pydantic `BaseSettings` с авто-биндингом `ORCH_*`; пары `*_enabled` (bool) +
`*_repos` (CSV); `is_self_hosting_repo(repo)` (`src/qg/checks.py:520`).
«Как есть» не годится: уроки в `memory/` не машиночитаемы — нельзя считать паттерны, нельзя
приоритизировать. Нужна структурированная таблица, но врезанная в **горячий путь** конвейера, что
на self-hosting прод-инстансе с общей БД (enduro-trails) требует жёсткой изоляции.
## Решение
### Сводка
Ввести **аддитивную идемпотентную таблицу `lessons`** + **чистый observer-leaf `src/lessons.py`**
(never-raise, kill-switch) по образцу `serial_gate`/`coverage_gate`/`metrics`. Leaf несёт
`record()` / `get()` / `update()` / `snapshot()`. Автозапись 4 типов отклонений — тонкими
best-effort врезками в существующие choke-point. Два-три HTTP-эндпоинта в `main.py`. Колонки
атрибуции — в схеме сразу, нуллабельные. **Конвейер (`STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/
machine-verdict) и схемы существующих таблиц — байт-в-байт не тронуты; enduro не затронут.**
### D1 — Таблица `lessons`: аддитивная, идемпотентная, forward-proof (BR-1, BR-2; AC-1, AC-2)
`CREATE TABLE IF NOT EXISTS lessons (…)` в `db.init_db()` (паттерн `repo_freeze`):
```sql
CREATE TABLE IF NOT EXISTS lessons (
id INTEGER PRIMARY KEY AUTOINCREMENT,
created_at TEXT NOT NULL DEFAULT (datetime('now')),
updated_at TEXT,
lesson_type TEXT NOT NULL, -- slug-конвенция, НЕ enum-констрейнт
work_item_id TEXT,
task_id INTEGER,
stage TEXT,
agent TEXT,
repo TEXT,
root_cause TEXT,
suggestion TEXT,
status TEXT NOT NULL DEFAULT 'new', -- new|in_progress|closed|linked
related_task TEXT,
attribution TEXT, -- platform|project|both|unknown (NULLABLE)
target_repo TEXT, -- orchestrator|enduro-trails|… (NULLABLE)
target_domain TEXT, -- reliability|quality|economy|features|scale (NULLABLE)
source TEXT, -- auto|manual
detail TEXT -- свободный JSON/текст (payload детектора)
);
CREATE INDEX IF NOT EXISTS idx_lessons_type_status ON lessons (lesson_type, status);
CREATE INDEX IF NOT EXISTS idx_lessons_repo ON lessons (repo);
CREATE INDEX IF NOT EXISTS idx_lessons_wi_type ON lessons (work_item_id, lesson_type);
```
**Инварианты:**
- Все три колонки **атрибуции создаются сразу и нуллабельны** (NFR-6, требование Славы 10.06): на
живой уже-существующей таблице добавляются через `_ensure_column(conn, "lessons", "<col>",
"TEXT")` — forward-safe, restart-safe, без миграции данных.
- **Нет `enum`/`CHECK`-констрейнта** на `lesson_type`/`attribution`/`target_domain` — значения суть
конвенция строковых слагов (новый тип урока не требует миграции схемы; §6 допущений BRD).
- **Третий индекс `idx_lessons_wi_type`** добавлен сверх двух из TRZ — обслуживает дедуп-запрос
автозаписи (D4) одним indexed-lookup'ом (NFR-5).
DDL-хелперы в `db.py` (стиль `coverage_baseline`): `record_lesson(...) -> int|None`,
`get_lessons(...) -> list[dict]`, `update_lesson(id, **fields) -> bool`, `lessons_snapshot() -> dict`.
Каждый открывает `get_db()` и закрывает в `finally`.
### D2 — Observer-leaf `src/lessons.py`: scope **kill-switch only**, НЕ repo-gated (BR-3/4/5/6; NFR-1/2/7)
Чистый leaf, импортирует только `config`+`db` (lazy `notifications` при необходимости); **никогда
не импортирует `stage_engine`/`merge_gate`/`launcher`** (анти-цикл). Публичный контракт:
```python
def record(lesson_type, *, work_item_id=None, task_id=None, stage=None, agent=None, repo=None,
root_cause=None, suggestion=None, status="new", related_task=None, attribution=None,
target_repo=None, target_domain=None, source="auto", detail=None) -> int | None
def get(*, lesson_type=None, status=None, repo=None, work_item_id=None, limit=None) -> list[dict]
def update(lesson_id, **fields) -> bool
def snapshot() -> dict
```
**Ключевое решение D2 — расхождение с шаблоном гейт-leaf'ов: журнал НЕ скоупится по repo.**
В отличие от `serial_gate`/`coverage_gate`/`bug_fast_track` (которые *действуют* на конкретный репо
и потому имеют пару `*_repos`), журнал — **observer-only**: запись строки никогда не влияет на
пайплайн ни одного репо. Поэтому:
- единственный регулятор — глобальный kill-switch `lessons_enabled` (env `ORCH_LESSONS_ENABLED`,
дефолт `True`); **`lessons_repos` НЕ вводится**;
- recorder пишет уроки про **любой** репо (включая enduro-trails) — урок про деградацию деплоя
enduro ценен для петли самообучения; репо-скоуп терял бы этот сигнал;
- `repo`-разрез — на уровне **выборки** (`get(repo=…)`, фильтр `snapshot()`), как зафиксировано в
§6 BRD «репо-скоуп через поле/фильтр выборки».
- **enduro не затронут (NFR-3):** запись observer-строки про enduro не меняет ни одной стадии/гейта
enduro — это чистая память орка.
**never-raise (NFR-1, AC-6):** при `lessons_enabled is False` каждая функция — немедленный no-op
(`record→None`, `get→[]`, `update→False`, `snapshot→{}`) **без обращения к БД**. При `True` — тело в
`try/except Exception → logger.warning(...) + безопасный дефолт`. Журнал **не** деплоит, **не**
рестартит прод, **не** трогает `main`, **не** порождает процессов/сети (NFR-7).
### D3 — Точки автозаписи: 4 детектора, тонкая врезка одним вызовом (BR-3; FR-3; AC-3)
Каждая врезка = локальный импорт + один вызов `lessons.record(...)`, обёрнутый в защитный
`try/except` (паттерн post-deploy-freeze-врезки `stage_engine.py:~1993`), чтобы даже ошибка импорта
не пробилась в горячий путь:
| Тип (`lesson_type`) | Choke-point | Контекст врезки |
|---|---|---|
| `gate_failure` | `stage_engine._handle_qg_failure_rollbacks` (после решения об откате на `development`) | `work_item_id, task_id, stage=current_stage, agent, repo, root_cause=reason, detail=qg_name` |
| `merge_hold` | `merge_gate._handle_merge_verify` (ветка HOLD, `result.note="merge-not-verified-hold"`) | `work_item_id, task_id, repo, stage="deploy", root_cause="merge-not-verified-hold"` |
| `transient_retry` | **budget-exhaustion**: `merge_gate` (merge-retry исчерпан) и/или `launcher._finalize_transient` (исчерпан `transient_attempts`) | `work_item_id?, repo, agent?, stage?, detail=<код/причина>` |
| `deploy_degraded` | `stage_engine` post-deploy `DEGRADED → set_repo_freeze` | `work_item_id, repo, stage="deploy", root_cause=reason, attribution="unknown", target_repo=repo, target_domain="reliability"` |
Все врезки — `source="auto"`. Это **4 типа > минимума 23** (BR-3). `(г) deploy_degraded` (желаемый
по TRZ) включён как полноценный детектор: это урок слоя-3 «деплой OK / прод сломан» (ET-8),
ради которого Слава и потребовал атрибуцию.
### D4 — Дедуп автозаписи: один indexed-SELECT в окне (BR-3; FR-3 «решение архитектора»; NFR-5)
Риск: транзиент-ретраи/повторные откаты плодят дубли. Решение — **дешёвый дедуп только для
`source="auto"`** внутри `record()`: перед `INSERT` — один indexed-lookup
```sql
SELECT 1 FROM lessons
WHERE work_item_id = ? AND lesson_type = ? AND (stage IS ? OR ?) -- stage-match
AND created_at > datetime('now', ?) -- '-<window> seconds'
LIMIT 1;
```
по индексу `idx_lessons_wi_type` (D1). Найдено → no-op (`return None`, лог DEBUG). Окно —
`lessons_dedup_window_s` (env `ORCH_LESSONS_DEDUP_WINDOW_S`, дефолт `3600`). **`source="manual"`
дедуп НЕ проходит** (оператор/Стрим всегда может записать). Это один лёгкий `SELECT` (NFR-5), без
фоновых сканов.
**Доп. контроль флуда на самом шумном детекторе:** `transient_retry` пишется **только на исчерпании
бюджета ретраев** (а не на каждом backoff) — это и есть ценный сигнал «транзиенты исчерпаны», а не
шум каждой попытки. Так флуд гасится в источнике до дедупа.
### D5 — Эндпоинты `main.py`: read-only выборка + ручная запись/обновление (BR-4/5/6; FR-4/5; AC-4/5)
Стиль `GET /queue` / `POST /coverage/baseline`, все never-raise, при выключенном флаге →
`{"enabled": false}`:
- **`GET /lessons`** — query `type/status/repo/work_item/limit` (дефолт `lessons_query_limit_default`,
напр. 100) → `{"enabled": bool, "lessons": [...]}`, всегда `200`, только чтение.
- **`POST /lessons`** — тело JSON, `lesson_type` обязателен → `lessons.record(..., source="manual")`
→ `{"id": <int>}`.
- **`POST /lessons/{id}`** — `lessons.update(id, status=…, attribution=…, target_repo=…,
target_domain=…, related_task=…, root_cause=…, suggestion=…)` → `{"ok": bool}`; стампит
`updated_at=datetime('now')`. Позволяет ретроспективщику/человеку доклассифицировать
автозаписанный `unknown`.
- **`GET /queue`** — добавить read-only ключ `"lessons": lessons.snapshot()` рядом с
`serial_gate`/`coverage`. `snapshot()` — лёгкие `GROUP BY`-счётчики (по типу/статусу) + последние
N. Существующие ключи `/queue` и эндпоинты `/health|/status|/metrics` — **байт-в-байт прежние**.
### D6 — Изоляция от конвейера и гейтов (NFR-3; AC-8)
`STAGE_TRANSITIONS`, реестр `QG_CHECKS`, функции `check_*`, machine-verdict-ключи
(`verdict:`/`result:`/`staging_status:`/`deploy_status:`/`security_status:`/`coverage_status:`) и
схемы существующих таблиц — **диффом не затрагиваются**. Журнал — наблюдатель, **не** Quality Gate;
он не участвует в решении о продвижении по стадиям. Никаких новых/изменённых QG-checks (FR-6).
## Альтернативы
- **Repo-скоуп `lessons_repos` (как у гейтов)** — отвергнуто: журнал observer-only, не действует на
репо; скоуп терял бы ценные enduro-уроки. Скоуп — на выборке (D2).
- **Без дедупа в v1 (TRZ это допускает)** — отвергнуто как дефолт: транзиент-ретраи реально
флудят таблицу; дешёвый indexed-дедуп (D4) дешевле, чем последующая чистка. Бюджет-exhaustion +
окно дают двойную защиту при одном `SELECT`.
- **Запись `transient_retry` на каждом backoff** — отвергнуто: шум; ценен факт исчерпания бюджета.
- **Отдельная БД/файл для журнала** — отвергнуто: лишняя зависимость; общая SQLite-БД с аддитивной
таблицей соответствует принципу «минимум зависимостей» и паттерну `repo_freeze`/`coverage_baseline`.
- **Фоновый агрегатор/ретенция-крон в v1** — отвергнуто: NFR-5 (без фоновых потоков/сканов);
ретенция — будущая задача (см. `10-tech-risks.md` TR-2).
- **ORM** — отвергнуто: raw SQL достаточно (принцип «без ORM, если хватает raw SQL»).
## Последствия
- **+** Уроки становятся машиночитаемыми — фундамент для E2/E3/Стрим; атрибуция forward-proof
(колонки сразу, переделки живой БД не будет).
- **+** Нулевая регрессия: kill-switch + never-raise + чистая аддитивность; enduro не затронут;
конвейер байт-в-байт прежний.
- **+** Следует проверенному additive-observer-leaf шаблону (`serial_gate`/`coverage_gate`/`metrics`/
`cancel`/`bug_fast_track`) — низкий архитектурный риск, не требует `arch:major-change` (см.
`10-tech-risks.md` сводный вывод).
- **** Рост таблицы со временем (автозапись на отклонениях). Митигейшн: лёгкие строки + дедуп (D4) +
budget-exhaustion-only для транзиентов; ретенция — TR-2 (будущее).
- **** Лёгкое усложнение `record()` дедуп-запросом. Митигейшн: один indexed-SELECT, только для
`auto`, под окном; для `manual` пропускается.
- **Откат:** `ORCH_LESSONS_ENABLED=false` → весь функционал инертен мгновенно (no-op, нулевая
регрессия). Полный откат — revert диффа; таблица `lessons` остаётся пустой/неиспользуемой,
существующих таблиц не касается.
## Ссылки
- BRD: `docs/work-items/ORCH-098/01-brd.md`
- TRZ: `docs/work-items/ORCH-098/02-trz.md`
- Acceptance: `docs/work-items/ORCH-098/03-acceptance-criteria.md`
- Data: `docs/work-items/ORCH-098/08-data-requirements.md`
- Infra: `docs/work-items/ORCH-098/07-infra-requirements.md`
- Risks: `docs/work-items/ORCH-098/10-tech-risks.md`
- Сквозной ADR: `docs/architecture/adr/adr-0034-lessons-journal.md`
- Сверено по коду: `src/serial_gate.py`, `src/coverage_gate.py`, `src/metrics.py`, `src/db.py:251,341`,
`src/stage_engine.py:728,~1993`, `src/merge_gate.py:811,1588`, `src/agents/launcher.py:997`,
`src/main.py` (`GET /queue`, `POST /coverage/baseline`), `src/qg/checks.py:520`.

View File

@@ -0,0 +1,45 @@
---
work_item: ORCH-098
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 07 — Инфра-требования: ORCH-098 — машинный журнал уроков `lessons`
Work Item: **ORCH-098** · Repo: **orchestrator** · Стадия: architecture
> When-applicable. Топология **не меняется**; файл создан для аудитопригодности (новая env-переменная).
## I-1. Топология / окружения
**N/A.** Новых контейнеров/портов/сети/томов нет. Таблица `lessons` живёт в существующей общей
SQLite-БД (тот же том `./data`), эндпоинты обслуживаются текущим процессом `orchestrator` (8500) /
`orchestrator-staging` (8501). Принцип «всё в Docker на одном сервере mva154» — соблюдён.
## I-2. Переменные окружения / секреты
Новые env (pydantic `BaseSettings`, авто-биндинг `ORCH_*`), все с безопасными дефолтами:
| Env | Дефолт | Назначение |
|---|---|---|
| `ORCH_LESSONS_ENABLED` | `true` | kill-switch журнала (NFR-2); `false` → полная инертность |
| `ORCH_LESSONS_DEDUP_WINDOW_S` | `3600` | окно дедупа автозаписи (ADR-001 D4) |
| `ORCH_LESSONS_QUERY_LIMIT_DEFAULT` | `100` | дефолтный `limit` для `GET /lessons` |
**`lessons_repos` СОЗНАТЕЛЬНО не вводится** — журнал observer-only и не скоупится по репо
(ADR-001 D2). Секретов нет. `.env.example` дополнить тремя ключами для документируемости (значения —
дефолтные, не секреты).
## I-3. Деплой / рестарт
- Изменение применяется штатным конвейером: **обязательный staging-гейт (8501) перед прод-деплоем**
орка (self-hosting инвариант). Прод-контейнер **не рестартить вне процедуры деплоя стадии**
`deploy`/`Confirm Deploy` (ORCH-059) — конвейер всех проектов встанет.
- Таблица `lessons` создаётся идемпотентно при старте (`init_db()`) — на первом штатном запуске
нового образа, **без отдельной ручной миграции** (restart-safe, NFR-4). На живой БД enduro не
затронут.
- Откат — `ORCH_LESSONS_ENABLED=false` (мгновенная инертность) либо revert образа.
## I-4. CI/CD
**Без изменений** в `.gitea/workflows/`. Новые тесты `tests/test_lessons.py` исполняются штатным
шагом `pytest tests/ -q`. Новых системных/pip-зависимостей нет (raw SQL на stdlib `sqlite3`).

View File

@@ -0,0 +1,76 @@
---
work_item: ORCH-098
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 08 — Требования к данным: ORCH-098 — машинный журнал уроков `lessons`
Work Item: **ORCH-098** · Repo: **orchestrator** · Стадия: architecture
> When-applicable: задача **добавляет** одну таблицу на общую прод-БД. Схемы существующих таблиц —
> не затрагиваются.
## Изменения схемы БД
**Новая аддитивная таблица `lessons`** + три индекса, создаются идемпотентно в `db.init_db()`
(`CREATE TABLE IF NOT EXISTS` / `CREATE INDEX IF NOT EXISTS`), restart-safe (паттерн `repo_freeze`,
`coverage_baseline`). На уже существующей таблице новые/будущие колонки добавляются через
`_ensure_column(conn, "lessons", "<col>", "<decl>")` (`src/db.py:341`) — forward-safe, без миграции
данных. DDL — см. ADR-001 D1.
Существующие таблицы (`tasks`/`jobs`/`agent_runs`/`events`/`job_deps`/`repo_freeze`/
`coverage_baseline`/`tracker_messages`) — **байт-в-байт не тронуты** (NFR-3, AC-8).
## Новые/изменённые сущности
Сущность **`lesson`** — одна запись структурированного отклонения конвейера. Колонки:
| Колонка | Тип | Null | Назначение |
|---|---|---|---|
| `id` | INTEGER PK AUTOINCREMENT | — | суррогатный ключ |
| `created_at` | TEXT `DEFAULT datetime('now')` | NOT NULL | момент записи |
| `updated_at` | TEXT | NULL | момент последнего `update` |
| `lesson_type` | TEXT | NOT NULL | slug-тип (`gate_failure`/`merge_hold`/`transient_retry`/`deploy_degraded`/…) |
| `work_item_id` | TEXT | NULL | контекст: задача (`ORCH-NNN`/`ET-NNN`) |
| `task_id` | INTEGER | NULL | контекст: внутренний id задачи |
| `stage` | TEXT | NULL | контекст: стадия конвейера |
| `agent` | TEXT | NULL | контекст: агент-роль |
| `repo` | TEXT | NULL | контекст: репозиторий, **разрез выборки** |
| `root_cause` | TEXT | NULL | анализ: корневая причина (если известна) |
| `suggestion` | TEXT | NULL | анализ: предложенное улучшение (если есть) |
| `status` | TEXT `DEFAULT 'new'` | NOT NULL | `new`/`in_progress`/`closed`/`linked` |
| `related_task` | TEXT | NULL | связанная заведённая задача |
| `attribution` | TEXT | **NULL** | **АТРИБУЦИЯ:** `platform`/`project`/`both`/`unknown` |
| `target_repo` | TEXT | **NULL** | **АТРИБУЦИЯ:** кого касается улучшение |
| `target_domain` | TEXT | **NULL** | **АТРИБУЦИЯ:** `reliability`/`quality`/`economy`/`features`/`scale` |
| `source` | TEXT | NULL | `auto` (детектор) / `manual` (оператор/Стрим) |
| `detail` | TEXT | NULL | свободный JSON/текст — payload детектора |
**Инварианты данных:**
- Три колонки **атрибуции** (`attribution`/`target_repo`/`target_domain`) присутствуют в исходной
схеме, **нуллабельны** (требование Славы 10.06, NFR-6, AC-2) — при автозаписи допустимо
пусто/`unknown`; проставляются позже через `update` (AC-5).
- **Без `enum`/`CHECK`-констрейнтов** — значения `lesson_type`/`attribution`/`target_domain` суть
конвенция строковых слагов (forward-compatible: новый тип не требует миграции).
- Индексы: `idx_lessons_type_status (lesson_type, status)` — выборка/snapshot; `idx_lessons_repo
(repo)` — репо-разрез; `idx_lessons_wi_type (work_item_id, lesson_type)` — дедуп автозаписи
(ADR-001 D4).
## Совместимость данных / миграции
- **Аддитивно / идемпотентно / restart-safe:** только новая таблица + индексы; повторный `init_db()`
не падает и не дублирует (NFR-4).
- **Общая прод-БД (self-hosting):** таблица создаётся на том же файле БД, что обслуживает
orchestrator и enduro-trails. Уроки про любой репо хранятся в одной таблице; **изоляция enduro** —
таблица аддитивна и не участвует в пайплайне enduro (NFR-3); репо-разрез — поле `repo` + фильтр
выборки (ADR-001 D2).
- **Объём строки** — короткие текстовые поля; `detail` — компактный payload. Запись — один `INSERT`,
чтение — простой параметризованный `SELECT … ORDER BY id DESC LIMIT ?` (NFR-5; общий хост впритык:
RAM/диск).
- **Ретенция / архивация** — вне объёма v1; тренд роста и будущая стратегия — `10-tech-risks.md`
(TR-2).
- **Миграция исторических уроков из `memory/`** — вне объёма (BRD §2).

View File

@@ -0,0 +1,39 @@
---
work_item: ORCH-098
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 10 — Технические риски: ORCH-098 — машинный журнал уроков `lessons`
Work Item: **ORCH-098** · Repo: **orchestrator** · Стадия: architecture
> Информационный (гейтом не парсится). Риски реализации и их митигейшн.
## Реестр рисков
| ID | Риск | Вер. | Влия. | Митигейшн |
|----|------|------|-------|-----------|
| TR-1 | Врезка детектора в горячий путь конвейера (`stage_engine`/`merge_gate`/`launcher`) бросает исключение → регрессия пайплайна на self-hosting прод-инстансе (встанет конвейер всех проектов, в т.ч. enduro). | Низ. | Выс. | **NFR-1 never-raise**: `lessons.record` полностью self-contained `try/except → None`; каждая врезка дополнительно обёрнута защитным `try/except` (паттерн post-deploy-freeze, `stage_engine.py:~1993`), ловит даже ошибку импорта. **NFR-2 kill-switch** `ORCH_LESSONS_ENABLED=false` → no-op. Юнит-тест с замоканной падающей БД (AC-6). |
| TR-2 | Неограниченный рост таблицы `lessons` (автозапись на каждом откате/HOLD/деградации) на впритык-хосте (диск 92%). | Сред. | Низ. | Лёгкие строки (короткий текст); **дедуп D4** (один indexed-SELECT в окне) + **`transient_retry` только на budget-exhaustion** гасят флуд в источнике. Ретенция/архивация — отдельная будущая задача (вне объёма v1); тренд наблюдаем через `snapshot()` в `GET /queue`. |
| TR-3 | Недооформленная схема атрибуции → переделка схемы на живой общей прод-БД, когда появится ретроспировщик (E2). | Низ. | Сред. | **BR-2/NFR-6**: три нуллабельные колонки атрибуции (`attribution`/`target_repo`/`target_domain`) в схеме **сразу**; `update`/`POST /lessons/{id}` позволяет доклассифицировать `unknown` позже без миграции. Слаги без `enum`-констрейнта → новые значения не требуют DDL. |
| TR-4 | Дубли автозаписи на ретраях/повторных откатах искажают будущий pattern-анализ. | Сред. | Низ. | **Дедуп D4** для `source="auto"`: indexed `SELECT` по `idx_lessons_wi_type` в окне `ORCH_LESSONS_DEDUP_WINDOW_S` перед `INSERT`. `manual` дедуп не проходит. Если в реальном прогоне дедуп окажется слишком строгим/слабым — окно конфигурируемо без передеплоя логики. |
| TR-5 | Случайное касание инвариантов конвейера (`STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict/схемы существующих таблиц) при врезках. | Низ. | Выс. | Врезки — строго аддитивные одиночные вызовы; **AC-8** требует «диффом не затронуты». Reviewer проверяет дифф перечисленных артефактов. Журнал не участвует в решении гейта (FR-6). |
| TR-6 | Эндпоинт `POST /lessons`/`/lessons/{id}` как непреднамеренный мутатор/вектор (запись в прод-БД без аутентификации). | Низ. | Сред. | Пишет **только** в аддитивную таблицу `lessons` (не трогает `tasks`/`jobs`/гейты); never-raise; `enabled:false` при выключенном флаге. Тот же уровень доступа, что у существующего `POST /coverage/baseline`. Дальнейшее ужесточение доступа — общая инфра-тема, вне объёма ORCH-098. |
## Сводный вывод
Доминирующий класс рисков — **изоляция наблюдателя от горячего пути конвейера на self-hosting
прод-инстансе** (TR-1, TR-5): высокое влияние при низкой вероятности, полностью покрыто
проверенной связкой *never-raise + kill-switch + чистая аддитивность*, идентичной уже работающим
leaf'ам (`serial_gate`/`coverage_gate`/`metrics`/`bug_fast_track`). Вторичный класс — **рост/шум
данных** (TR-2/TR-4): низкое влияние, смягчён лёгкими строками, дедупом и budget-exhaustion-записью;
ретенция вынесена в будущее.
**Эскалация не требуется.** Несмотря на формально «новый компонент + новая таблица», изменение
следует устоявшемуся **additive-observer-leaf** шаблону, **не трогает машину стадий, гейты и схемы
существующих таблиц**, полностью обратимо флагом → метка `arch:major-change` **не выставляется**,
возврат в анализ (`back-to:analysis`) не нужен. Остаточный риск для прод-конвейера — **низкий**.

View File

@@ -0,0 +1,71 @@
---
verdict: APPROVED
work_item: ORCH-098
stage: review
author_agent: reviewer
status: approved
created_at: 2026-06-10
model_used: claude-opus-4-8
type: review
work_item_id: ORCH-098
version: 1
---
# Review ORCH-098 — FND: машинный журнал уроков
## Summary
Реализация полностью соответствует ТЗ (`02-trz.md`), критериям приёмки (`03-acceptance-criteria.md`)
и ADR-001/adr-0034. Введён чистый observer-leaf `src/lessons.py` (never-raise, единственный
kill-switch `lessons_enabled`, без repo-скоупа — по решению D2), аддитивная идемпотентная таблица
`lessons` с нуллабельными колонками атрибуции сразу (NFR-6, требование Славы 10.06), 4 типа
автозаписи best-effort, дедуп для `auto`, три HTTP-эндпоинта + блок `lessons` в `GET /queue`.
**Инварианты конвейера не тронуты (AC-8):** `src/stages.py` (`STAGE_TRANSITIONS`), `src/qg/checks.py`
(`QG_CHECKS`/`check_*`), `src/merge_gate.py`, machine-verdict-ключи и схемы существующих таблиц —
**диффом не затронуты** (подтверждено `git diff --name-only`). `tests/test_lessons.py` (TC-01…TC-12,
13 тестов) — **зелёный** локально. Документация обновлена в том же PR.
Все findings — P2/P3 (advisory), блокеров нет.
## Findings
### P0 — Blocker
- Нет.
### P1 — Must fix
- Нет.
### P2 — Should fix
- [ ] **Кросс-задачный дедуп `transient_retry` теряет сигнал.** Врезка в
`launcher._finalize_transient` (`src/agents/launcher.py:~1024`) передаёт `task_id`, но **не**
`work_item_id` и **не** `stage` → ключ дедупа `db.lessons_recent_dup_exists` становится
`(work_item_id IS NULL, lesson_type='transient_retry', stage IS NULL)`. В окне
`lessons_dedup_window_s` (дефолт 1ч) **разные** задачи, исчерпавшие бюджет ретраев, схлопываются в
одну запись — теряется урок про вторую задачу. Поскольку `task_id` локально доступен, дедуп-ключ
стоило бы доопределять им при `work_item_id is None` (или включать `task_id` в ключ дедупа).
Это observer/best-effort (не влияет на конвейер, AC-3 формально выполнен — 4 типа автозаписи
работают), потому не блокер, но ослабляет ценность самого сигнала, ради которого фича вводится.
Ссылка: ADR-001 D4 («ключ `work_item_id+stage+lesson_type`»).
### P3 — Nice to have
- [ ] **Мелкая неточность ADR vs код.** `06-adr/ADR-001` (D3, таблица) и `adr-0034` указывают
choke-point `merge_hold` как `merge_gate._handle_merge_verify`, фактически `_handle_merge_verify`
живёт в `src/stage_engine.py` (туда и врезан `merge_hold`; `merge_gate.py` диффом не тронут).
Функционально корректно; рекомендуется поправить адрес в ADR для трассировки. Также
`transient_retry` в `merge_gate` (merge-retry exhausted) не реализован — но ADR формулирует это как
«**and/or** launcher», т.е. опционально; реализация через launcher достаточна.
## Документация
**Обновлена полностью в том же PR — ось «документация» PASS:**
- `CLAUDE.md` — добавлен раздел «Машинный журнал уроков (ORCH-098)» (D1D5, флаги, инвариант).
- `docs/architecture/README.md` — компонент «Lessons journal», строка таблицы `lessons` в разделе
схемы БД, три новых эндпоинта в таблице API, обновлена строка `GET /queue` (`+ lessons (ORCH-098)`).
- `docs/architecture/adr/adr-0034-lessons-journal.md` — сквозной ADR (новый).
- `docs/work-items/ORCH-098/06-adr/ADR-001-lessons-journal.md` — локальный ADR (присутствует).
- `CHANGELOG.md` — запись `[Unreleased]` с разбивкой D1D5 + регресс.
- `README.md` «Известные ограничения» — пунктов, закрываемых этой задачей, нет (ORCH-079 N/A).
Изменение `src/` ⇒ требование «документация = golden source» выполнено; основание для
`REQUEST_CHANGES` по оси документации отсутствует.

View File

@@ -0,0 +1,86 @@
---
result: PASS # PASS | FAIL — машинный вердикт, UPPERCASE
work_item: ORCH-098
stage: testing
author_agent: tester
status: pass
created_at: 2026-06-10
model_used: claude-opus-4-8
type: test-report
work_item_id: ORCH-098
---
# Test Report — ORCH-098 — FND: машинный журнал уроков
## Окружение
- Python: 3.12.13
- pytest: 8.3.3 (pytest-cov 5.0.0, anyio 4.13.0, asyncio 0.23.8)
- Worktree: `/repos/_wt/orchestrator/feature_ORCH-098-fnd/` (ветка `feature/ORCH-098-fnd`)
- Дата: 2026-06-10
## Предусловия
- Review-вердикт (`12-review.md`): **APPROVED** (блокеров нет, все findings P2/P3 advisory). ✅
- Smoke API (read-only, prod 8500):
- `GET /health``{"status":"ok","service":"orchestrator"}`
- `GET /status``200`, активные задачи отдаются (ORCH-098 в стадии `testing`). ✅
- `GET /queue``200`; присутствует блок **`serial_gate`** (ORCH-088) ✅ и **`auto_labels`**
(ORCH-089) ✅ в полезной нагрузке — смок-регресса нет.
- Примечание: прод-контейнер 8500 несёт ещё не задеплоенный код (без блока `lessons` в `/queue`) —
это ожидаемо (ORCH-098 не выкатан в прод), на смок-вердикт не влияет.
## Результаты — покрытие тест-плана (`04-test-plan.yaml`)
Прогон: `cd /repos/_wt/orchestrator/feature_ORCH-098-fnd && pytest tests/ -v --tb=short`.
Все TC из тест-плана исполнены и сопоставлены с критериями приёмки (`03-acceptance-criteria.md`).
| TC ID | Тип | Описание | AC | Тест (`tests/test_lessons.py`) | Результат |
|-------|-----|----------|----|--------------------------------|-----------|
| TC-01 | unit | `init_db()` создаёт `lessons` идемпотентно, все поля BR-1 | AC-1 | `test_tc01_table_idempotent_and_fields` | PASS |
| TC-02 | unit | Нуллабельные колонки атрибуции `attribution/target_repo/target_domain`, update проставляет позже | AC-2 | `test_tc02_attribution_columns_nullable_and_settable` | PASS |
| TC-03 | unit | `record()` вставляет строку (source auto/manual), возвращает id, `created_at` заполнен | AC-3/AC-5 | `test_tc03_record_inserts_and_returns_id` | PASS |
| TC-04 | unit | never-raise при падающей БД: `record/get/update/snapshot``None/[]/{}` без исключения | AC-6 | `test_tc04_never_raise_on_db_error` | PASS |
| TC-05 | unit | kill-switch `lessons_enabled=False` — инертность (no-op, без БД) | AC-7 | `test_tc05_kill_switch_inert` | PASS |
| TC-06 | unit | `get_lessons` фильтрует type/status/repo/work_item, limit, `ORDER BY id DESC` | AC-4 | `test_tc06_filters_limit_order` | PASS |
| TC-07 | unit | `update_lesson` меняет status/attribution/target_*/related_task + `updated_at`; неизв. id безопасен | AC-5 | `test_tc07_update_and_unknown_id` | PASS |
| TC-07b | unit | (доп.) дедуп `source=auto` в окне; `source=manual` всегда проходит | AC-3/AC-5 | `test_tc07b_auto_dedup_and_manual_passthrough` | PASS |
| TC-08 | integration | Автозапись gate-fail: откат в `_handle_qg_failure_rollbacks` → строка `gate_failure` с контекстом | AC-3 | `test_tc08_gate_failure_autorecord` | PASS |
| TC-09 | integration | Автозапись transient/HOLD: транзиент-ветка пишет урок; сбой записи не ломает горячий путь | AC-3/AC-6 | `test_tc09_transient_autorecord_and_never_raise` | PASS |
| TC-10 | integration | `GET /lessons` → 200 с фильтрами; `GET /queue` несёт блок `lessons`; чтение не мутирует | AC-4 | `test_tc10_get_endpoints` | PASS |
| TC-11 | integration | `POST /lessons` (manual+атрибуция), `POST /lessons/{id}` обновляет; при выключенном флаге `{enabled:false}` | AC-5/AC-7 | `test_tc11_post_endpoints_and_killswitch` | PASS |
| TC-12 | unit | Инварианты конвейера не тронуты: `STAGE_TRANSITIONS`/`QG_CHECKS`/machine-verdict неизменны | AC-8 | `test_tc12_pipeline_invariants_untouched` | PASS |
**Итог покрытия:** 12/12 TC тест-плана исполнены и сопоставлены с AC-1…AC-9 → PASS.
AC-9 (полный регресс зелёный + новый `test_lessons.py`) подтверждён прогоном ниже.
## Вывод pytest
Полный регресс (`tests/`):
```
================== 1630 passed, 1 warning in 71.78s (0:01:11) ==================
```
(единственный warning — PydanticDeprecatedSince20 в `src/config.py`, не связан с ORCH-098,
предсуществующий.)
Целевой модуль (`tests/test_lessons.py`):
```
collected 13 items
tests/test_lessons.py::test_tc01_table_idempotent_and_fields PASSED [ 7%]
tests/test_lessons.py::test_tc02_attribution_columns_nullable_and_settable PASSED [ 15%]
tests/test_lessons.py::test_tc03_record_inserts_and_returns_id PASSED [ 23%]
tests/test_lessons.py::test_tc04_never_raise_on_db_error PASSED [ 30%]
tests/test_lessons.py::test_tc05_kill_switch_inert PASSED [ 38%]
tests/test_lessons.py::test_tc06_filters_limit_order PASSED [ 46%]
tests/test_lessons.py::test_tc07_update_and_unknown_id PASSED [ 53%]
tests/test_lessons.py::test_tc07b_auto_dedup_and_manual_passthrough PASSED [ 61%]
tests/test_lessons.py::test_tc08_gate_failure_autorecord PASSED [ 69%]
tests/test_lessons.py::test_tc09_transient_autorecord_and_never_raise PASSED [ 76%]
tests/test_lessons.py::test_tc10_get_endpoints PASSED [ 84%]
tests/test_lessons.py::test_tc11_post_endpoints_and_killswitch PASSED [ 92%]
tests/test_lessons.py::test_tc12_pipeline_invariants_untouched PASSED [100%]
======================== 13 passed, 1 warning in 1.55s =========================
```
## Итог
**PASS** — полный регресс зелёный (1630 passed), все 12 TC тест-плана исполнены и сопоставлены
с критериями приёмки, smoke API read-only (`/health`/`/status`/`/queue`) в норме (блоки
`serial_gate` и `auto_labels` присутствуют). Задача готова к переходу на `deploy-staging`.

View File

@@ -0,0 +1,12 @@
---
deploy_status: SUCCESS
work_item: ORCH-098
hook_exit_code: 0
deployed_by: deploy-finalizer
---
# Deploy log — ORCH-036 executable self-deploy
Прод-деплой завершён хост-хуком с exit-code `0` -> `deploy_status: SUCCESS`.
Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.

View File

@@ -0,0 +1,30 @@
---
staging_status: SUCCESS
work_item: ORCH-098
stage: deploy-staging
author_agent: deployer
status: success
created_at: 2026-06-10
model_used: claude-opus-4-8
timestamp: 2026-06-10T07:55:10Z
base_url: http://localhost:8501
---
# Staging Gate Log
Staging test suite completed against the live staging stand (`orchestrator-staging`, port 8501),
run canonically inside the container via `docker exec` (ORCH-048). **All REAL pipeline checks
passed** → `staging_status: SUCCESS` (exit code 0).
INFRA-WAIVED: C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue (known sandbox-infra; real checks green)
VERDICT: SUCCESS (exit 0) — SUCCESS (infra-waived): ['C9a Branch appears in orchestrator-sandbox', 'C9b Analyst job enqueued in staging queue'] are known sandbox-infra checks; all real checks green
## Results
- **Block A (SMOKE)**: PASS — A1 `/health` 200 `status=ok`; A2 `/queue` 200 (counts/max_concurrency/resilience present); A3 `ORCH_STAGING=true`.
- **Block B (ACCESS)**: PASS — B4 Plane sandbox project accessible (sandbox=YES); B5 Gitea `orchestrator-sandbox` accessible, push=true; B6 Registry isolated (sandbox=YES, prod-ET=NO, prod-ORCH=NO).
- **Block C (E2E)**: C7 Create issue in Plane SANDBOX PASS; C8 Trigger pipeline via `/webhook/plane` PASS; C9a/C9b FAIL but **waived** (sandbox-infra: SANDBOX bot accounts not members of the sandbox Plane project — not a pipeline regression, ORCH-061).
RESULT: 8/10 checks PASS. REAL failed: **none**. SANDBOX_INFRA failed (waived): C9a, C9b.
Cleanup: test Plane issue deleted (HTTP 204); no branch created (nothing to delete).

View File

@@ -0,0 +1,7 @@
# Business Request: FND/F1a: лёгкий /metrics в орке — отдать сырьё (стадии/очередь/agent-liveness/cost)
Work Item ID: ORCH-099
## Description
TBD

View File

@@ -0,0 +1,141 @@
---
work_item: ORCH-099
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 01 — BRD (бизнес-требования): ORCH-099 — FND/F1a: лёгкий `/metrics` в орке (отдать сырьё)
Work Item: **ORCH-099** · Repo: **orchestrator** · Стадия: analysis
## 1. Бизнес-контекст и проблема
Задача — фундаментный кирпич **F1a** домена 0 «Фундамент» эпика автономного саморазвития
(`docs/epics/self-evolution.md`). Архитектурная рамка наблюдаемости **зафиксирована заказчиком
(Слава, 09.06)** и для аналитика — установленный факт, не предмет переизобретения:
- **C-1/C-1б:** наблюдатель ОТДЕЛЁН от наблюдаемого. Мониторинг живёт в **отдельном sidecar-контейнере**
(`watchdog/`, рантайм — свой Dockerfile + сервис в compose), а НЕ внутри орка. Если орк
упал/завис/съел память — sidecar жив и репортит это.
- **C-2/C-3:** без внешнего плеча, тонкий стек (хост впритык: RAM 171Mi free, диск 92% — НЕ
Grafana/Prometheus).
- **Разделение ответственности:** орк отдаёт **только сырьё** (лёгкий read-only `/metrics` — свои
внутренние данные, которые знает только он сам), БЕЗ логики мониторинга/порогов/алертов/хранения.
Мозг (пороги, алерты, свой Telegram-канал, история) — это **F1b (sidecar)**, отдельная задача.
**Боль, которую закрывает задача.** Сегодня у орка нет машинного «сырья» о самом себе в одной
точке. `/health` отдаёт лишь `{"status":"ok"}`, `/status` — список активных задач, `/queue`
богатый, но «человеческий» снимок очереди, перемешанный с конфигом демонов. Ни один из них не даёт
sidecar'у структурированный, стабильный КОНТРАКТ для детекта: застрявшая стадия, зависший агент
(liveness по pid/CPU), деградация очереди (breaker open, рост failed), всплеск стоимости токенов.
Без этого источника весь домен наблюдаемости (F1b и далее) слеп и не может стартовать.
**Self-hosting контекст.** Орк дорабатывает сам себя; прод-контейнер общий для всех проектов.
`/metrics` обязан быть **строго read-only** и **never-raise** — он не должен ни при каких входных
данных уронить или притормозить прод, обслуживающий enduro-trails.
## 2. Объём (scope)
### В объёме
- Новый **read-only** HTTP-эндпоинт (`GET /metrics`), отдающий JSON-снимок сырья о самом орке.
- Четыре раздела сырья: **активные стадии задач**, **очередь jobs**, **agent-liveness**,
**стоимость/токены** (`agent_runs`).
- Новый leaf-модуль `src/metrics.py` — сборка снимка из БД (чистый, never-raise, без побочных
эффектов), по образцу `snapshot()`-функций (`serial_gate`/`task_deps`/`cancel`).
- Документирование формата `/metrics` как **контракта для sidecar (F1b)** в
`docs/architecture/README.md` + запись в `CHANGELOG.md`.
- Pytest-покрытие: структура ответа, never-raise, read-only-инвариант.
### Вне объёма
- ❌ Любая логика мониторинга: пороги, алерты, Telegram, оценка «застрял/завис», хранение истории
— это **F1b (sidecar)**.
- ❌ Сам sidecar-контейнер (`watchdog/`, Dockerfile, compose-сервис) — отдельная задача F1b.
- ❌ Хостовые/контейнерные/внешние метрики (диск/RAM/CPU хоста, docker.sock, пинг
Plane/Gitea/Anthropic) — их собирает sidecar, не орк.
- ❌ Изменение `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / схемы БД / любых machine-verdict
ключей.
- ❌ Дашборд/UI (упомянут в F1 эпика как отдельный последующий шаг).
- ❌ Прометей-совместимый text-формат — отдаём JSON (контракт под конкретный sidecar; OpenMetrics
не требование заказчика).
## 3. Заинтересованные стороны
- **Заказчик:** Слава (рамки наблюдаемости F1, эпик саморазвития).
- **Прямой потребитель контракта:** будущий sidecar **F1b** (`watchdog/`) — читает `/metrics` по
HTTP. Задача F1b **заблокирована** этой (ORCH-099 — источник контракта).
- **Затрагивается:** прод-инстанс орка (общий с enduro-trails) — поэтому жёсткое требование
read-only/never-raise.
- **Принимает результат:** reviewer/tester конвейера + Слава как владелец рамок.
## 4. Бизнес-требования (BR)
- **BR-1 — Эндпоинт сырья.** Орк предоставляет HTTP `GET /metrics`, отдающий JSON с четырьмя
разделами: (a) активные стадии задач, (b) очередь jobs, (c) agent-liveness, (d) стоимость/токены.
Состав полей каждого раздела — см. TRZ §3 (FR-1…FR-4).
- **BR-2 — Стадии задач.** По каждой незавершённой задаче отдаётся `work_item`, текущая `stage` и
«как давно в стадии» (секунды) — сырьё для детекта застреваний sidecar'ом.
- **BR-3 — Очередь jobs.** Отдаются счётчики по статусам (`queued`/`running`/`failed`/…), глубина
очереди, информация о ретраях и состояние circuit-breaker'а — сырьё для детекта деградации.
- **BR-4 — Agent-liveness.** По каждому running-job отдаётся `agent`, `run_id`, `pid`, `runtime_s`
и сырьё для alive-детекта (CPU-тики pid либо данные, по которым sidecar посчитает CPU-дельту).
sidecar — арбитр «жив/завис»; орк лишь поставляет факты.
- **BR-5 — Стоимость/токены.** Отдаётся текущая (по running-job) и агрегированная стоимость/токены
из `agent_runs` (`cost_usd`, `input/output/cache_*` токены) — сырьё для cost-наблюдаемости (D3).
- **BR-6 — Аддитивность.** Существующие `/health`, `/status`, `/queue` остаются байт-в-байт прежними
по контракту; `/metrics` добавляется рядом, ничего не ломая.
- **BR-7 — Документированный контракт.** Формат `/metrics` зафиксирован в
`docs/architecture/README.md` как стабильный контракт для sidecar (F1b) + `CHANGELOG.md`.
## 5. Нефункциональные требования (NFR)
- **NFR-1 — Read-only.** Эндпоинт НИЧЕГО не мутирует: не пишет в БД, не запускает/останавливает
процессы, не рестартит, не дёргает внешние API. Только SELECT'ы + чтение in-memory-снимков
демонов.
- **NFR-2 — Never-raise (по полям).** Любая ошибка при сборе отдельного поля/раздела → это поле
получает `null` (или раздел — безопасный дефолт), но эндпоинт **возвращает 200 и валидный JSON**,
никогда не 500. Эталон — `serial_gate.snapshot()` с fallback в `except`.
- **NFR-3 — Лёгкость.** Только быстрые запросы к локальной SQLite + чтение уже посчитанных
in-memory снапшотов; без тяжёлых вычислений, без сетевых вызовов, без сканирования файлов/git.
Цель — единичные мс на типовом объёме (десятки задач/jobs).
- **NFR-4 — Self-hosting-безопасность.** Эндпоинт физически не способен повлиять на прод-конвейер
(следствие NFR-1) — безопасен на общем инстансе с enduro-trails.
- **NFR-5 — Совместимость БД/гейтов.** `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` /
machine-verdict ключи / схема БД — НЕ трогаются. Задача читает существующие таблицы
(`tasks`/`jobs`/`agent_runs`) и существующие in-memory снапшоты.
- **NFR-6 — Стабильность контракта.** Формат — аддитивный и версионируемый (поле `schema_version`),
чтобы будущие расширения не ломали уже написанный sidecar.
## 6. Допущения и ограничения
- **Данные уже есть в БД.** Все нужные поля присутствуют: `tasks(stage, work_item_id, updated_at,
created_at)`, `jobs(status, attempts, max_attempts, transient_attempts, available_at, pid,
run_id)`, `agent_runs(agent, started_at, finished_at, model, effort, cost_usd, input_tokens,
output_tokens, cache_read_tokens, cache_creation_tokens)`. **Новые колонки/таблицы не нужны.**
- **Breaker-состояние — in-memory** (`queue_worker.worker.status()` / `CircuitBreaker.snapshot()`);
читается без БД.
- **CPU-тики pid** читаются из `/proc/<pid>/stat` (Linux прод-контейнер). Допущение: контейнер
Linux; при отсутствии/гонке (процесс уже умер) — поле `null` (NFR-2), НЕ ошибка. Это согласуется
с рамкой C-1: «орк лёг → endpoint недоступен = сам сигнал тревоги» — детект делает sidecar.
- **Арбитраж liveness — на стороне sidecar.** Орк не решает «завис/жив»; он лишь отдаёт `pid`,
`runtime_s` и (по возможности) CPU-тики; sidecar считает дельту между опросами.
- **Формат — JSON**, не OpenMetrics/Prometheus (рамка C-3: тонкий кастомный sidecar, не Prometheus).
## 7. Критерии успеха
`GET /metrics` отдаёт лёгкий, read-only, never-raise JSON с четырьмя разделами сырья;
`/health`/`/status`/`/queue` не сломаны; формат задокументирован как контракт sidecar; pytest
зелёный. Детальные PASS/FAIL — `03-acceptance-criteria.md`.
## 8. Риски
- Гонка чтения `/proc/<pid>/stat` (процесс умер между выборкой job и чтением proc) → закрывается
NFR-2 (`null`, не ошибка).
- Расхождение контракта `/metrics` и ожиданий sidecar (F1b) → закрывается BR-7 (контракт в одном
репо, документирован) + `schema_version` (NFR-6).
- Соблазн «протащить» в `/metrics` логику алертинга → закрывается scope-границей (вне объёма) и
NFR-1.
Детальная оценка технических рисков — `10-tech-risks.md` (заполняет архитектор).

View File

@@ -0,0 +1,173 @@
---
work_item: ORCH-099
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 02 — ТЗ (TRZ): ORCH-099 — FND/F1a: лёгкий `/metrics` в орке (отдать сырьё)
Work Item: **ORCH-099** · Repo: **orchestrator** · Стадия: analysis
> ТЗ описывает **конкретные изменения к реализации**, выведенные из BRD и фактического кода.
> Архитектурное обоснование/решения (формат полей liveness, способ чтения CPU, версионирование
> контракта) — задача архитектора (`06-adr/`).
## 1. Сводка изменения
Добавить read-only HTTP-эндпоинт `GET /metrics`, отдающий JSON-снимок «сырья» о самом орке для
будущего sidecar (F1b): активные стадии задач, очередь jobs, agent-liveness, стоимость/токены.
Логика сборки выносится в **новый leaf-модуль** `src/metrics.py` (чистая функция-сборщик, never-raise,
без побочных эффектов — по образцу `serial_gate.snapshot()`/`task_deps.snapshot()`/`cancel.snapshot()`).
Эндпоинт в `src/main.py` — тонкая обёртка над сборщиком, в том же стиле, что `GET /queue`
(`src/main.py`, дикт с разделами). Никаких изменений `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/схемы
БД/machine-verdict ключей. Только чтение существующих таблиц и существующих in-memory-снапшотов.
## 2. Задействованные модули / пути
| Путь | Действие |
|------|----------|
| `src/metrics.py` | **создать** — leaf-сборщик снимка из БД (`build_metrics() -> dict`, never-raise) |
| `src/main.py` | изменить — добавить `@app.get("/metrics")` (тонкая обёртка над `metrics.build_metrics()`) |
| `src/db.py` | изменить (при необходимости) — добавить read-only helper(ы) для агрегатов `agent_runs` (напр. `agent_cost_totals()`); существующие `job_status_counts`/`get_running_jobs`/`recent_jobs`/`get_active_tasks_for_reconcile` переиспользуются как есть |
| `docs/architecture/README.md` | изменить — задокументировать контракт `/metrics` (формат для sidecar F1b) |
| `CHANGELOG.md` | изменить — запись `## [Unreleased]` (ORCH-099) |
| `tests/test_metrics.py` | **создать** — pytest на структуру/never-raise/read-only |
**Существующие источники данных (переиспользуются, НЕ дублируются):**
- `db.get_active_tasks_for_reconcile()` — задачи с `stage != 'done'` + вычисленный `age_s`
(секунды с `updated_at`). Базис для раздела стадий.
- `db.job_status_counts()``{queued, running, done, failed}` из `jobs`.
- `db.get_running_jobs()` — running-jobs с `running_age_s`, плюс джойн на `agent_runs` (`agent`,
`run_id`, `pid`, `started_at`, `model`, `effort`). Базис для liveness.
- `queue_worker.worker.status()` / `worker.breaker.snapshot()` — breaker-состояние in-memory
(`state`/`consecutive_transient`/`pause_remaining_s`), `max_concurrency`, `poll_interval`.
## 3. Функциональные требования
### FR-1 — Раздел `stages` (активные стадии задач) — BR-2
Список активных (незавершённых) задач. По каждой:
- `work_item``tasks.work_item_id`.
- `stage``tasks.stage` (значение слоя A, машина стадий).
- `age_in_stage_s` — целое; секунды с `tasks.updated_at` (= момент последней смены стадии).
Источник вычисления — SQL `CAST(strftime('%s','now') - strftime('%s', updated_at) AS INTEGER)`,
как в `get_active_tasks_for_reconcile`.
- `repo``tasks.repo` (sidecar мультипроектный; нужно отличать orchestrator от enduro-trails).
- (опционально) `task_id`, `created_age_s` (общий возраст задачи).
Инвариант: выборка только `stage NOT IN ('done', 'cancelled')` (терминальные исключены — см.
ORCH-090: множество терминалов `{done, cancelled}`). Пустой список — валидный ответ.
### FR-2 — Раздел `queue` (очередь jobs) — BR-3
- `counts``db.job_status_counts()` (`queued`/`running`/`done`/`failed`); при наличии —
добавить `cancelled` (ORCH-090 терминал).
- `depth` — глубина очереди = число `queued`-jobs, готовых к выдаче (можно вернуть как
`counts.queued`; при желании — отдельно «доступные сейчас» с учётом `available_at <= now`).
- `retries` — сырьё по ретраям: сумма/список `attempts` vs `max_attempts` и `transient_attempts`
по незавершённым jobs; как минимум агрегат «сколько jobs в backoff» (`available_at > now`).
- `breaker``worker.breaker.snapshot()`: `state` (`closed`/`open`/`half-open`),
`consecutive_transient`, `pause_remaining_s`.
- `max_concurrency``worker.max_concurrency`.
Инвариант: ни одно поле не обязано существовать ценой падения — недоступный breaker
(например, worker не инициализирован в тесте) → `breaker: null`, не 500 (NFR-2).
### FR-3 — Раздел `agents` (agent-liveness) — BR-4
Список running-jobs (из `db.get_running_jobs()`), по каждому:
- `agent``agent_runs.agent` (через джойн; роль: analyst/architect/developer/…).
- `run_id``jobs.run_id` (= `agent_runs.id`).
- `job_id``jobs.id`.
- `pid``jobs.pid` (может быть `null`, если процесс ещё не застамплен / уже завершён).
- `runtime_s``running_age_s` из `get_running_jobs` (секунды с `jobs.started_at`); как
альтернатива — секунды с `agent_runs.started_at`. Решение о базисе — за архитектором (ADR).
- **Сырьё для alive-детекта** — одно из (выбор реализации — ADR архитектора, BR-4 допускает оба):
- вариант A: `cpu_ticks` — суммарные utime+stime из `/proc/<pid>/stat` (поля 1415), плюс
`clk_tck` (`os.sysconf("SC_CLK_TCK")`), чтобы sidecar посчитал CPU-дельту между опросами;
- вариант B: орк сам не считает дельту (он опрашивается стейтлесс sidecar'ом) — отдаёт только
сырые тики + временную метку выборки.
- `model`, `effort``agent_runs.model`/`effort` (контекст стоимости).
Инвариант (NFR-2): `pid is None` ИЛИ `/proc/<pid>` отсутствует/гонка (процесс умер) →
`cpu_ticks: null` для этого агента, остальные поля и весь эндпоинт целы. НЕ бросать, НЕ ждать.
### FR-4 — Раздел `cost` (стоимость/токены) — BR-5
- `running` — по каждому running-job текущие накопленные значения из `agent_runs`, если уже
застамплены (часто `null` до завершения — токены/cost парсятся из CLI-JSON в `_monitor_agent`
по окончании). Допустимо отдавать `null` для незавершённых — это честное сырьё.
- `aggregate` — агрегаты по `agent_runs`: суммарные `cost_usd`, `input_tokens`, `output_tokens`,
`cache_read_tokens`, `cache_creation_tokens`. Желателен срез: всего + за последние N (или
по `repo`). Реализуется новым read-only helper'ом `db.agent_cost_totals()` (чистый SELECT
с `COALESCE(SUM(...),0)`).
Инвариант: пустая `agent_runs` → нули, не ошибка.
### FR-5 — Конверт ответа (envelope) — BR-1, BR-6, NFR-6
`GET /metrics` возвращает JSON:
```json
{
"schema_version": 1,
"generated_at": "<ISO-8601 / datetime('now')>",
"stages": [ ... ],
"queue": { ... },
"agents": [ ... ],
"cost": { "running": [...], "aggregate": {...} }
}
```
- `schema_version` — целое; точка стабильности контракта для sidecar (NFR-6). Стартовое значение
и политика инкремента — за архитектором.
- `generated_at` — метка времени снимка (нужна sidecar'у для расчёта дельт).
- Точные имена ключей разделов/полей фиксируются в `docs/architecture/README.md` (BR-7) и являются
контрактом; reviewer/tester сверяют ответ с документом.
### FR-6 — Never-raise сборщик — NFR-2
`metrics.build_metrics()` строит ответ по-раздельно; каждый раздел — в своём `try/except`, в
`except` пишет `logger.warning(...)` и подставляет безопасный дефолт (`null`/`[]`/`{}`). Функция
**никогда** не пробрасывает исключение. Эндпоинт `main` дополнительно не нуждается в обработке, но
обязан вернуть результат сборщика как есть. Эталон — `serial_gate.snapshot()`.
## 4. Изменения API
**Новый эндпоинт:**
- `GET /metrics``200 application/json`, тело — конверт FR-5. Без параметров. Без аутентификации
сверх существующей (тот же уровень, что `/queue`/`/status`). Read-only.
**Изменённые эндпоинты:** Нет. `/health`, `/status`, `/queue`, `/webhook/*` — без изменений
(BR-6). Регресс-проверка: существующие тесты эндпоинтов остаются зелёными.
## 5. Изменения схемы БД
**Нет.** Новые таблицы/колонки/индексы/миграции не вводятся. Используются существующие
`tasks`/`jobs`/`agent_runs` и их колонки (перечислены в §2). Допускается добавление **read-only**
helper-функций в `src/db.py` (например `agent_cost_totals()`) — это код, не схема; `CREATE`/`ALTER`
не выполняются. `STAGE_TRANSITIONS`/`QG_CHECKS`/схема — байт-в-байт прежние (NFR-5).
## 6. Требования к новым/изменённым QG checks
**Нет.** `/metrics` — наблюдаемость, не гейт конвейера. `QG_CHECKS` / `check_*` / `_parse_*` /
machine-verdict ключи (`verdict:`/`result:`/`deploy_status:`/`staging_status:`/`security_status:`/
`coverage_status:`) — НЕ трогаются. Новых артефактов pipeline (`NN-*.md`) задача не создаёт.
## 7. Совместимость / регресс
- **Аддитивность:** новый модуль (`src/metrics.py`) + новый эндпоинт + read-only helper(ы).
Существующий код путей конвейера не модифицируется.
- **Read-only / never-raise:** по конструкции (NFR-1/NFR-2) эндпоинт не влияет на состояние и не
падает → нулевой риск для прод-конвейера, общего с enduro-trails (NFR-4).
- **Kill-switch:** жёсткий флаг не обязателен (эндпоинт инертен и не подключён к конвейеру). Если
архитектор сочтёт нужным — допустим конфиг-флаг включения `/metrics` (по образцу snapshot-флагов),
но это НЕ требование BRD; дефолт — эндпоинт доступен.
- **Обратимость:** удаление эндпоинта/модуля полностью откатывает изменение без следов в БД/схеме.
- **Контракт sidecar:** `schema_version` + документ в README обеспечивают, что F1b не сломается при
будущих аддитивных расширениях (NFR-6).
- **Артефакты pipeline, создаваемые/обновляемые задачей:** `01-brd.md`, `02-trz.md`,
`03-acceptance-criteria.md`, `04-test-plan.yaml` (analysis); далее — `06-adr/` (architect),
обновление `docs/architecture/README.md` и `CHANGELOG.md` (developer в том же PR — правило
«доки = golden source»).

View File

@@ -0,0 +1,127 @@
---
work_item: ORCH-099
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 03 — Критерии приёмки (Acceptance Criteria): ORCH-099 — FND/F1a: лёгкий `/metrics` в орке
Work Item: **ORCH-099** · Repo: **orchestrator** · Стадия: analysis
Формат: каждый критерий имеет **PASS** (что должно быть истинно для приёмки) и **FAIL**
(что считается провалом). Reviewer/tester проверяет их буквально по файлам репозитория и по ответу
эндпоинта.
---
## AC-1 — Эндпоинт `/metrics` отдаёт четыре раздела сырья
**Условие:** `GET /metrics` возвращает `200` и JSON с разделами `stages`, `queue`, `agents`, `cost`
(плюс конверт `schema_version` / `generated_at`), с полями из TRZ §3.
- **PASS:** ответ — валидный JSON-объект; присутствуют ключи `schema_version`, `generated_at`,
`stages` (список; элемент содержит `work_item`, `stage`, `age_in_stage_s`, `repo`), `queue`
(содержит `counts`, `breaker`, `max_concurrency`, сырьё ретраев), `agents` (список; элемент
содержит `agent`, `run_id`, `pid`, `runtime_s` и поле сырья CPU-liveness), `cost` (содержит
`aggregate` с суммами `cost_usd`/`input_tokens`/`output_tokens`/`cache_read_tokens`/
`cache_creation_tokens`).
- **FAIL:** отсутствует любой из четырёх разделов; в `agents` нет `pid`/`runtime_s`; в `stages` нет
«как давно в стадии»; в `cost` нет агрегата токенов/стоимости; ответ не JSON или статус ≠ 200.
---
## AC-2 — Аддитивность: `/health`, `/status`, `/queue` не сломаны
**Условие:** существующие эндпоинты сохраняют прежний контракт.
- **PASS:** `GET /health``{"status":"ok", ...}`; `GET /status``{"active_tasks":[...]}`;
`GET /queue` отдаёт прежний набор ключей; существующие тесты эндпоинтов (`tests/test_queue_endpoint.py`
и пр.) зелёные без модификации их ожиданий.
- **FAIL:** изменён/удалён любой существующий ключ ответа `/health`/`/status`/`/queue`; пришлось
править существующие тесты под новый контракт; регресс в этих эндпоинтах.
---
## AC-3 — Лёгкость и быстрая выборка
**Условие:** эндпоинт лёгкий — только быстрые локальные SQL + чтение in-memory снапшотов, без
тяжёлых вычислений и сетевых вызовов.
- **PASS:** в коде `src/metrics.py` нет сетевых вызовов (HTTP/Plane/Gitea/Anthropic), нет запуска
подпроцессов кроме безопасного чтения `/proc/<pid>/stat`, нет сканирования git/файлового дерева;
данные берутся из существующих helper'ов БД и `worker`-снапшота; на типовом объёме ответ
формируется без заметной задержки.
- **FAIL:** эндпоинт делает сетевой запрос, запускает агента/тяжёлый процесс, сканирует worktree/git
или выполняет дорогие агрегаты, заметно тормозящие ответ.
---
## AC-4 — Never-raise (ошибка поля → `null`, эндпоинт не падает)
**Условие:** любая ошибка сбора отдельного поля/раздела не роняет эндпоинт.
- **PASS:** при недоступном источнике (например, `worker` не инициализирован, `pid` уже мёртв,
`/proc/<pid>` отсутствует, пустые таблицы) соответствующее поле получает `null`/безопасный дефолт,
а `GET /metrics` всё равно возвращает `200` и валидный JSON; есть тест, симулирующий сбой раздела
и проверяющий 200 + `null` в этом поле.
- **FAIL:** при любом из перечисленных условий эндпоинт возвращает `500` / бросает исключение /
возвращает невалидный JSON.
---
## AC-5 — Read-only (ничего не меняет; гейты/схема не тронуты)
**Условие:** эндпоинт и модуль строго read-only; конвейерные инварианты целы.
- **PASS:** `src/metrics.py` и обработчик `/metrics` не выполняют `INSERT`/`UPDATE`/`DELETE`/`CREATE`/
`ALTER`, не запускают/останавливают процессы, не рестартят, не мутируют состояние демонов;
`STAGE_TRANSITIONS`, `QG_CHECKS`, `check_*`, machine-verdict ключи и схема БД (`tasks`/`jobs`/
`agent_runs` и пр.) — без изменений в диффе; повторный вызов `/metrics` не меняет состояние БД
(тест: снимок БД до/после идентичен).
- **FAIL:** дифф трогает `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/схему/machine-verdict; модуль
выполняет любую запись/мутацию; вызов эндпоинта меняет состояние.
---
## AC-6 — agent-liveness содержит сырьё для alive-детекта
**Условие:** по каждому running-job отдаётся идентификация процесса и сырьё для CPU-детекта
sidecar'ом.
- **PASS:** для running-job ответ содержит `agent`, `run_id`, `pid`, `runtime_s` и поле сырья
CPU-liveness (например `cpu_ticks` из `/proc/<pid>/stat` + базис тиков `clk_tck`, либо
эквивалент по решению ADR), позволяющее внешнему наблюдателю посчитать CPU-дельту между опросами;
при `pid is None`/мёртвом процессе CPU-поле = `null` (см. AC-4), прочие поля целы.
- **FAIL:** liveness-раздел не позволяет sidecar'у отличить «жив» от «завис» (нет ни CPU-сырья, ни
pid+runtime); отсутствуют `run_id`/`pid`; обращение к мёртвому pid роняет эндпоинт.
---
## AC-7 — Контракт задокументирован (для sidecar F1b) + CHANGELOG
**Условие:** формат `/metrics` зафиксирован как контракт и отражён в журнале изменений.
- **PASS:** в `docs/architecture/README.md` описан формат ответа `/metrics` (разделы, поля,
`schema_version`) как стабильный контракт для sidecar (F1b); в `CHANGELOG.md` есть запись
`## [Unreleased]` с пометкой `ORCH-099`.
- **FAIL:** формат не задокументирован или описан только в коде; нет записи в `CHANGELOG.md`;
документация противоречит фактическому ответу эндпоинта.
---
## AC-8 — pytest зелёный
**Условие:** новый тест-набор и полный регресс проходят.
- **PASS:** `pytest tests/ -q` зелёный; присутствует `tests/test_metrics.py`, покрывающий структуру
ответа (AC-1), never-raise (AC-4), read-only (AC-5), liveness-сырьё (AC-6) и аддитивность (AC-2).
- **FAIL:** любой тест красный; новые тесты отсутствуют или не покрывают перечисленные критерии.
---
## Сводная матрица AC ↔ FR/BR
| AC | Покрывает |
|----|-----------|
| AC-1 | BR-1/BR-2/BR-3/BR-5 / FR-1…FR-5 |
| AC-2 | BR-6 / FR-4 |
| AC-3 | NFR-3 / FR-6 |
| AC-4 | NFR-2 / FR-6 |
| AC-5 | NFR-1/NFR-4/NFR-5 / FR-5 |
| AC-6 | BR-4 / FR-3 |
| AC-7 | BR-7 / FR-5 |
| AC-8 | NFR-3 (валидация) / все FR |

View File

@@ -0,0 +1,86 @@
work_item: ORCH-099
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
title: "FND/F1a — лёгкий read-only /metrics: стадии/очередь/agent-liveness/cost"
framework: pytest
scope: >
Покрывается: структура ответа GET /metrics (4 раздела + конверт), never-raise по полям,
read-only инвариант, agent-liveness сырьё (pid/runtime/cpu-тики), агрегаты cost/токенов,
аддитивность (не сломаны /health//status//queue). Вне покрытия: сам sidecar (F1b),
хостовые/контейнерные метрики, пороги/алерты/Telegram. Полный регресс tests/ остаётся зелёным.
notes: >
Тесты идут в новый tests/test_metrics.py. Используется существующий паттерн conftest.py
(autouse fresh_db на tmp_path + init_db, monkeypatch send_telegram). Эндпоинт зовётся как
корутина через asyncio.run(main.metrics()) по образцу tests/test_queue_endpoint.py
(asyncio.run(main.queue())). Read-only проверяется сравнением снимка БД до/после вызова.
Never-raise — monkeypatch источника (worker / helper БД / чтения /proc) на бросающий стаб.
tests:
- id: TC-01
type: unit
description: "build_metrics() возвращает dict с ключами schema_version, generated_at, stages, queue, agents, cost (конверт FR-5)."
module: tests/test_metrics.py
expected: PASS
- id: TC-02
type: unit
description: "Раздел stages: для задачи со stage!=done/cancelled элемент содержит work_item, stage, age_in_stage_s (int), repo; терминальные задачи (done/cancelled) исключены."
module: tests/test_metrics.py
expected: PASS
- id: TC-03
type: unit
description: "Раздел queue: counts (queued/running/failed), max_concurrency, сырьё ретраев и breaker-снимок (state/consecutive_transient/pause_remaining_s) присутствуют."
module: tests/test_metrics.py
expected: PASS
- id: TC-04
type: unit
description: "Раздел agents: по running-job отдаются agent, run_id, job_id, pid, runtime_s и поле CPU-liveness сырья (cpu_ticks или эквивалент)."
module: tests/test_metrics.py
expected: PASS
- id: TC-05
type: unit
description: "agent-liveness never-raise: при pid=None или отсутствующем /proc/<pid> CPU-поле = null, остальные поля агента и весь ответ целы (без исключения)."
module: tests/test_metrics.py
expected: PASS
- id: TC-06
type: unit
description: "Раздел cost.aggregate: суммы cost_usd/input_tokens/output_tokens/cache_read_tokens/cache_creation_tokens из agent_runs; пустая таблица -> нули, не ошибка."
module: tests/test_metrics.py
expected: PASS
- id: TC-07
type: unit
description: "Never-raise по разделу: если источник раздела (напр. job_status_counts/worker.status) бросает, раздел получает null/дефолт, build_metrics() не пробрасывает исключение."
module: tests/test_metrics.py
expected: PASS
- id: TC-08
type: integration
description: "GET /metrics через ASGI/обработчик возвращает 200 и валидный JSON со всеми разделами на засеянной БД (задача + running-job + agent_run)."
module: tests/test_metrics.py
expected: PASS
- id: TC-09
type: integration
description: "Read-only: снимок всех таблиц БД (tasks/jobs/agent_runs) до и после вызова /metrics идентичен; повторный вызов не меняет состояние."
module: tests/test_metrics.py
expected: PASS
- id: TC-10
type: integration
description: "Аддитивность: GET /health, /status, /queue сохраняют прежний контракт (ключи на месте) при наличии /metrics; существующие тесты эндпоинтов зелёные."
module: tests/test_metrics.py
expected: PASS
- id: TC-11
type: unit
description: "Пустое состояние: при отсутствии активных задач/running-jobs/agent_runs ответ валиден — stages=[], agents=[], cost.aggregate=нули, queue.counts с нулями; 200/без исключений."
module: tests/test_metrics.py
expected: PASS

View File

@@ -0,0 +1,249 @@
---
work_item: ORCH-099
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# ADR-001: Лёгкий read-only `/metrics` — сырьё о самом орке для sidecar (F1b)
Work Item: **ORCH-099** — FND/F1a: лёгкий `/metrics` в орке (отдать сырьё)
Стадия: **architecture**
Сквозная регистрация: **`docs/architecture/adr/adr-0030-metrics-endpoint.md`** (решение
кросс-каттинговое — новый компонент наблюдаемости + новый публичный HTTP-контракт для будущего
sidecar F1b).
## Статус
Proposed
## Контекст
F1a — фундаментный кирпич домена 0 «Фундамент» эпика автономного саморазвития. Рамка наблюдаемости
зафиксирована заказчиком (BRD §1): **наблюдатель отделён от наблюдаемого** — мониторинг (пороги,
алерты, история, свой Telegram) живёт в отдельном sidecar-контейнере **F1b** (`watchdog/`), а орк
отдаёт **только сырьё**, которое знает лишь он сам. F1a поставляет источник этого сырья и **ничего
больше**.
Факты, сверенные с кодом:
- `GET /health` (`src/main.py:147`) → `{"status":"ok", ...}`; `GET /status` (`:152`) → список
активных задач; `GET /queue` (`:163`) — богатый, но «человеческий» снимок, перемешанный с
конфигом демонов (reconciler/reaper/post_deploy/disk_monitor/…). Ни один не даёт **стабильного
машинного контракта** для детекта: застрявшая стадия, зависший агент, деградация очереди, всплеск
стоимости.
- Все нужные данные уже в БД и in-memory: `db.get_active_tasks_for_reconcile()` (`src/db.py:388`
`stage != 'done'` + `age_s` в SQL), `db.get_running_jobs()` (`:1103``SELECT j.*` + `running_age_s`,
LEFT JOIN `agent_runs` на `run_id`), `db.job_status_counts()` (`:1187`),
`queue_worker.worker.status()`/`CircuitBreaker.snapshot()` (`src/queue_worker.py:242`/`:113` — breaker
in-memory). `pid`/`run_id`/`job_id` — колонки `jobs` (ORCH-065, `:83`); `model`/`effort`/`cost_usd`/
`*_tokens` — колонки `agent_runs` (`:97``:106`). Терминальное множество — `{done, cancelled}`
(ORCH-090, adr-0026).
- Self-hosting: прод-контейнер общий с enduro-trails. Эндпоинт обязан быть строго **read-only** и
**never-raise** — не ронять и не тормозить прод ни при каких входных данных.
«Как есть» не годится: добавлять поля в `/queue` сломало бы его контракт (BR-6) и смешало бы сырьё с
человеческим снимком; в коде sidecar'а нет ни одной стабильной точки опроса. Нужен отдельный,
версионируемый, машинный контракт.
## Решение
### Сводка
Новый **leaf-модуль** `src/metrics.py` с чистой never-raise функцией-сборщиком
`build_metrics() -> dict` (по образцу `serial_gate.snapshot()`/`task_deps.snapshot()`/
`cancel.snapshot()`) + тонкий эндпоинт `@app.get("/metrics")` в `src/main.py` (обёртка над
сборщиком, в стиле `GET /queue`). Сборщик собирает четыре раздела (`stages`/`queue`/`agents`/`cost`)
в версионируемом конверте, **каждый раздел — в своём `try/except`** с безопасным дефолтом. Только
чтение существующих таблиц (`tasks`/`jobs`/`agent_runs`) и существующих in-memory-снапшотов + два
read-only helper'а в `src/db.py`. `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/machine-verdict-ключи/
схема БД — **не трогаются**.
### D1 — Новый leaf-модуль + тонкий эндпоинт (изоляция, never-raise по разделам)
Логика сборки — в `src/metrics.py`, не в `main.py` (тестируемость без ASGI, паттерн `*.snapshot()`).
`build_metrics()` строит конверт по-раздельно; каждый раздел обёрнут в `try/except Exception`, в
`except``logger.warning(...)` + безопасный дефолт (`null` для скаляра/объекта, `[]` для списка).
Функция **никогда** не пробрасывает исключение (FR-6, NFR-2, AC-4). Эндпоинт `/metrics`
тонкая обёртка: возвращает `build_metrics()` как есть; собственной обработки ошибок не требует
(сборщик уже never-raise). Уровень доступа — тот же, что `/queue`/`/status` (без доп. аутентификации,
FR-4).
Привязка: FR-6, NFR-1, NFR-2, AC-4, AC-5.
### D2 — Конверт ответа + контракт `schema_version` (BR-1, BR-6, NFR-6)
```json
{
"schema_version": 1,
"generated_at": "2026-06-10T12:34:56Z",
"clk_tck": 100,
"stages": [ ... ],
"queue": { ... },
"agents": [ ... ],
"cost": { "running": [ ... ], "aggregate": { ... } }
}
```
- **`schema_version` стартует с `1`.** Политика инкремента (контракт для F1b, документируется в
README, BR-7): **аддитивные** изменения (новое поле/раздел) **НЕ бампят версию** — sidecar
**обязан игнорировать незнакомые ключи и толерировать отсутствие опциональных**. Версия бампится
**только при ломающем** изменении (переименование/удаление/смена типа существующего поля). Это
делает контракт forward-compatible: будущие расширения F1a не ломают уже написанный F1b (NFR-6,
TR-4). Формат-чек версии — по духу `is_valid_model` (ORCH-74): структурный, не статичный allowlist.
- **`generated_at`** — `datetime('now')` UTC, ISO-8601 (тот же часовой домен, что timestamp'ы БД и
выборка CPU-тиков). Это момент снимка: sidecar считает дельты между двумя опросами по
`(cpu_ticks, generated_at)` из ответов — **всё в часах самого орка**, поэтому расчёт иммунен к
расхождению часов орк↔sidecar (TR-3).
- **`clk_tck`** — `os.sysconf("SC_CLK_TCK")` на уровне конверта (а не на каждом агенте — значение
процесс-глобальное): базис для перевода CPU-тиков в секунды на стороне sidecar.
Привязка: BR-1, BR-6, NFR-6, FR-5, AC-1, AC-7.
### D3 — Раздел `stages` (BR-2, FR-1)
Список активных задач из `db.get_active_tasks_for_reconcile()`, **с дополнительной фильтрацией
`stage NOT IN ('done','cancelled')`** на слое metrics. Обоснование: helper намеренно возвращает
`cancelled`-задачи (для skip-счётчика реконсилятора ORCH-086, см. `src/db.py:396`) — но для сырья
наблюдаемости терминальные задачи не нужны (терминальное множество `{done, cancelled}`, ORCH-090).
Не меняем helper (его инвариант принадлежит ORCH-053/086) — фильтруем на потребителе. По каждой
задаче: `work_item` (`work_item_id`), `stage`, `age_in_stage_s` (= `age_s`, целое, SQL
`strftime` против UTC-now — момент последней смены стадии), `repo` (sidecar мультипроектный),
опц. `task_id`/`created_age_s`. Пустой список — валидный ответ (AC, TC-11).
Привязка: BR-2, FR-1, AC-1, TC-02, TC-11.
### D4 — Раздел `queue` (BR-3, FR-2)
- `counts``db.job_status_counts()` (`queued`/`running`/`done`/`failed`); добавить `cancelled`
(ORCH-090 терминал) — helper уже агрегирует `GROUP BY status`, нужно лишь не терять ключ.
- `depth` — глубина очереди = число `queued`-jobs (можно `counts.queued`); опц. «доступные сейчас»
с учётом `available_at <= now`.
- `retries` — агрегат по незавершённым jobs: `attempts` vs `max_attempts`, `transient_attempts`, и
как минимум «сколько jobs в backoff» (`available_at > now`). Источник — read-only SELECT-агрегат
(новый helper или агрегация по `recent_jobs`/прямой SELECT; решение реализации за developer'ом в
рамках read-only).
- `breaker``worker.breaker.snapshot()` (`state`/`consecutive_transient`/`pause_remaining_s`).
- `max_concurrency``worker.max_concurrency`; опц. `poll_interval`.
Инвариант (NFR-2): недоступный `worker` (не инициализирован в тесте) → `breaker: null` и/или
`max_concurrency: null`, **не 500** (own `try/except` вокруг in-memory доступа).
Привязка: BR-3, FR-2, AC-1, TC-03, TC-07.
### D5 — Раздел `agents` (agent-liveness) — источник данных и CPU-сырьё (BR-4, FR-3)
**Источник данных — новый dedicated read-only helper `db.get_running_agents()`, НЕ расширение
`get_running_jobs()`.** Причина: `get_running_jobs()` — hot-path запрос job-reaper'а (ORCH-065,
`src/db.py:1103`); расширять его SELECT под нужды наблюдаемости — перенос инварианта чужого
компонента. Новый helper — изолированный `SELECT j.id, j.run_id, j.pid, j.agent, j.started_at,
running_age_s, r.model, r.effort FROM jobs j LEFT JOIN agent_runs r ON r.id = j.run_id WHERE
j.status='running'` (LEFT JOIN сохраняет job без `agent_runs`-строки). По каждому running-job:
`agent`, `run_id`, `job_id`, `pid` (может быть `null`), `runtime_s`, `model`, `effort`, `cpu_ticks`.
**CPU-сырьё — вариант A (орк читает `/proc`, остаётся stateless).** Орк эмитит сырые тики, дельту
**не считает** — арбитр liveness это sidecar (BRD-допущение C-1). Чистый never-raise helper в
`src/metrics.py`:
```
_read_cpu_ticks(pid) -> int | None
# читает /proc/<pid>/stat, поля 14 (utime) + 15 (stime), возвращает их сумму (в тиках);
# pid is None / нет /proc/<pid> / гонка (процесс умер) / не-Linux -> None (НЕ raise)
```
`clk_tck` (D2) — на уровне конверта. sidecar между двумя опросами считает
`cpu_busy = (ticks₂ ticks₁) / clk_tck`, делит на `(generated_at₂ generated_at₁)` → доля CPU;
малая доля при растущем `runtime_s` ⇒ кандидат на «завис». Парсинг `/proc/<pid>/stat` устойчив к
пробелам в `comm`: брать поля **после** `') '` (закрывающая скобка имени) — канон чтения proc-stat.
Инвариант (NFR-2, AC-6, TC-05): `pid is None` ИЛИ мёртвый/отсутствующий `/proc/<pid>``cpu_ticks:
null` у этого агента; прочие поля и весь эндпоинт целы.
Привязка: BR-4, FR-3, AC-6, TC-04, TC-05.
### D6 — `runtime_s` — базис `jobs.started_at` (FR-3)
`runtime_s = running_age_s` (секунды с `jobs.started_at`, считается в SQL в `get_running_agents`),
**не** `agent_runs.started_at`. Обоснование: `jobs.started_at` — якорь жизненного цикла процесса,
рядом с которым застамплен `pid` (ORCH-065); это тот же базис, что использует reaper для
backstop-liveness. Значения почти совпадают, но `jobs` — авторитетный процесс-якорь, а
`agent_runs`-строки может не быть (LEFT JOIN). Консистентность с reaper > микроточность.
Привязка: FR-3, AC-6.
### D7 — Раздел `cost` (BR-5, FR-4)
- `running` — по каждому running-job текущие значения из `agent_runs`, если уже застамплены. Часто
`null` до завершения: токены/`cost_usd` парсятся из CLI-JSON в `launcher._monitor_agent` по
окончании. **`null` для незавершённых — честное сырьё** (документируется: `null` ≠ ноль, TR-5).
- `aggregate` — новый read-only helper `db.agent_cost_totals()`: чистый
`SELECT COALESCE(SUM(cost_usd),0), COALESCE(SUM(input_tokens),0), … FROM agent_runs` по
`cost_usd`/`input_tokens`/`output_tokens`/`cache_read_tokens`/`cache_creation_tokens`. Пустая
таблица → нули, не ошибка (TC-06, TC-11). Опц. срез (всего + по `repo` через джойн `tasks`) —
расширяемо без бампа версии (D2).
Привязка: BR-5, FR-4, AC-1, TC-06, TC-11.
### D8 — Kill-switch `metrics_endpoint_enabled` (default `True`)
TRZ §7 оставляет флаг на усмотрение архитектора. **Решение: добавить** конфиг-флаг
`metrics_endpoint_enabled` (env `ORCH_METRICS_ENABLED`, дефолт `True`) — по образцу snapshot-флагов
кодовой базы и из self-hosting-осторожности (операторский off-switch на общем прод-инстансе). При
`False` эндпоинт возвращает **`200` с минимальным телом** `{"schema_version": 1, "enabled": false}`
(не 404 — контракт остаётся парсимым, sidecar видит `enabled:false` и трактует это явно). Дефолт
`True` ⇒ нулевая регрессия требований BRD (эндпоинт доступен из коробки). Флаг — дешёвая страховка,
не предмет BRD; реализация инертна.
Привязка: NFR-1, NFR-4, TRZ §7.
## Альтернативы
- **Расширить `/queue` вместо нового эндпоинта** — отвергнуто: сломало бы байт-в-байт контракт
`/queue` (BR-6, AC-2) и смешало бы машинное сырьё с человеческим снимком + конфигом демонов;
sidecar'у нужна узкая стабильная точка.
- **Prometheus/OpenMetrics text-формат** — отвергнуто: заказчик задал тонкий кастомный sidecar (не
Prometheus, C-3); требование — JSON-контракт под конкретный F1b.
- **Орк сам считает CPU-дельту** — отвергнуто: требует состояния между опросами; орк — пассивный
источник, stateful-арбитр это sidecar (C-1). Stateless-эмиссия сырых тиков проще и надёжнее.
- **Расширить SELECT `get_running_jobs()`** под model/effort — отвергнуто: перенос инварианта
hot-path reaper'а (ORCH-065); изолируем dedicated helper `get_running_agents()`.
- **Push метрик в sidecar** — отвергнуто: нарушает разделение C-1 (орк остаётся пассивным
источником); при зависшем орке pull-опрос падает — это **сам сигнал тревоги** для sidecar.
- **Без kill-switch** — рассматривалось (эндпоинт инертен); выбран флаг ради конвенции кодовой базы
и операторского off-switch (D8).
## Последствия
- **+** Появляется стабильный машинный контракт сырья — F1b (заблокированная этой задачей)
разблокирована; домен наблюдаемости может стартовать.
- **+** Строго read-only + never-raise по разделам ⇒ near-zero остаточный риск для общего
прод-конвейера (enduro-trails); физически не способен повлиять на конвейер (NFR-4).
- **+** Аддитивно и обратимо: `/health`/`/status`/`/queue` байт-в-байт; `STAGE_TRANSITIONS`/
`QG_CHECKS`/`check_*`/schema/machine-verdict-ключи не тронуты (NFR-5).
- **+** `schema_version` + аддитивно-толерантная политика ⇒ будущие расширения не ломают F1b.
- **** Новый публичный контракт = новая поверхность совместимости: дрейф `/metrics`↔F1b митигируется
единым репозиторием контракта (README, BR-7) + `schema_version` (D2). Издержка принимается.
- **** CPU-liveness Linux-специфичен (`/proc`); на не-Linux `cpu_ticks: null` (деградация, не
ошибка). Прод-контейнер — Linux, допущение выполняется (BRD §6).
- **Топология/схема:** не меняются (07/08 — N/A). Sidecar-контейнер и его сетевая достижимость
`/metrics` — объём **F1b**, не этой задачи (см. README-заметку о предусловии достижимости).
- **Эскалация:** формально вводится новый компонент наблюдаемости + публичный контракт → лейбл
**`arch:major-change`** (консервативно, хотя изменение полностью аддитивно/read-only/обратимо).
Прод-деплой — строго через staging-гейт (8501), без рестарта прод-контейнера.
- **Откат:** `metrics_endpoint_enabled=False` (мгновенный) либо удаление `src/metrics.py` + эндпоинта
+ helper'ов — полностью откатывает изменение без следов в БД/схеме (TRZ §7).
## Ссылки
- BRD: `docs/work-items/ORCH-099/01-brd.md`
- TRZ: `docs/work-items/ORCH-099/02-trz.md`
- Acceptance: `docs/work-items/ORCH-099/03-acceptance-criteria.md`
- Тех-риски: `docs/work-items/ORCH-099/10-tech-risks.md`
- Сквозной ADR: `docs/architecture/adr/adr-0030-metrics-endpoint.md`
- Сверено по коду: `src/main.py` (`/health`/`/status`/`/queue`), `src/db.py`
(`get_active_tasks_for_reconcile`/`get_running_jobs`/`job_status_counts`, схема `agent_runs`/`jobs`),
`src/queue_worker.py` (`worker.status`/`CircuitBreaker.snapshot`), `src/serial_gate.py`
(`snapshot()` — эталон never-raise).
- Связанные ADR: adr-0002 (job-queue/breaker — источник `queue`-сырья), adr-0011 (job-reaper —
`get_running_jobs`/pid/liveness-семантика), adr-0026 (терминал `{done,cancelled}` — фильтр стадий),
adr-0017 (serial_gate — паттерн leaf `snapshot()`/never-raise), adr-0020 (frontmatter-контракт —
стиль версионируемого контракта).

View File

@@ -0,0 +1,43 @@
---
work_item: ORCH-099
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 10 — Технические риски: ORCH-099 — FND/F1a: лёгкий `/metrics` (сырьё для sidecar)
Work Item: **ORCH-099** · Repo: **orchestrator** · Стадия: architecture
> Информационный (гейтом не парсится). Перечисляет риски реализации и их митигейшн.
## Реестр рисков
| ID | Риск | Вер. | Влия. | Митигейшн |
|----|------|------|-------|-----------|
| TR-1 | Гонка чтения `/proc/<pid>/stat`: процесс умер между выборкой running-job и чтением proc → `FileNotFoundError`/частичная строка | Сред. | Низ. | `_read_cpu_ticks` never-raise → `cpu_ticks: null` (NFR-2, FR-3, AC-6); прочие поля и эндпоинт целы. Парс proc-stat читает поля **после** `') '` (устойчивость к пробелам в `comm`). |
| TR-2 | PID-namespace mismatch: `jobs.pid` относится не к тому PID-namespace, где орк читает `/proc` | Низ. | Сред. | Агент — дочерний процесс орка (launcher `subprocess` в том же контейнере/ns), `pid` стамплется орком (ORCH-065) → `/proc/<pid>` валиден в том же ns. Несовпадение → `null` (деградация, не падение). |
| TR-3 | Расхождение часов орк↔sidecar искажает расчёт CPU-доли | Низ. | Низ. | Контракт by-design: sidecar считает дельту по `(cpu_ticks, generated_at)` из **двух ответов орка** → всё в домене часов орка, skew-иммунно (ADR D2). |
| TR-4 | Дрейф контракта `/metrics`↔ожидания F1b при будущих расширениях | Сред. | Сред. | `schema_version` (старт 1) + аддитивно-толерантная политика (sidecar игнорирует незнакомые ключи, толерирует отсутствие опциональных); контракт документирован в README в одном репо (BR-7, NFR-6). |
| TR-5 | `cost.running = null` (токены ещё не застамплены) ошибочно прочитан sidecar'ом как «ноль стоимости» | Сред. | Низ. | Документировать: `null` ≠ ноль (= «не завершён, не застамплен»); авторитет по спенду — `cost.aggregate` (ADR D7). |
| TR-6 | Контеншн на `CircuitBreaker._lock` при опросе breaker-снимка | Низ. | Низ. | `snapshot()` держит lock кратко (только чтение полей, `src/queue_worker.py:113`); раздел обёрнут own `try/except``breaker: null` при любой проблеме. Частота опроса sidecar — секунды, не микросекунды. |
| TR-7 | Рост стоимости `SUM`-агрегата по `agent_runs` при разрастании таблицы | Низ. | Низ. | `agent_cost_totals()` — один индексируемый full-scan `SUM`, n мал (десятки–сотни строк на текущем горизонте); точка расширения — временное окно/`repo`-срез без бампа версии (ADR D2/D7). |
| TR-8 | Соблазн «протащить» в `/metrics` логику алертинга/порогов | Низ. | Сред. | Scope-граница BRD (вне объёма) + NFR-1 (read-only) + reviewer-контроль; мозг (пороги/алерты) — строго F1b. |
| TR-9 | Незаметная мутация состояния (случайный не-read-only вызов в сборщике) роняет инвариант read-only | Низ. | Выс. | Сборщик использует только SELECT-helper'ы; AC-5/TC-09 — тест «снимок БД до/после идентичен»; reviewer сверяет дифф на отсутствие `INSERT/UPDATE/DELETE/CREATE/ALTER` и запуска процессов. |
## Сводный вывод
Доминирующий класс — **гонки/деградация чтения runtime-данных** (`/proc`, in-memory breaker), все
закрыты конструктивным never-raise по разделам (эталон `serial_gate.snapshot()`) → деградация в
`null`, не отказ. Контрактные риски (TR-4/TR-5) закрыты `schema_version` + документированием.
Наивысшее потенциальное влияние (TR-9, нарушение read-only) митигируется тестом «БД до/после
идентична» (TC-09) и reviewer-сверкой диффа.
Изменение полностью аддитивно, read-only, never-raise, обратимо (kill-switch + удаление модуля).
**Остаточный риск для прод-конвейера (self-hosting, общий с enduro-trails) — near-zero:** эндпоинт
физически не способен мутировать состояние или уронить процесс (NFR-1/NFR-2/NFR-4). Эскалация в
анализ не требуется. Формальный лейбл **`arch:major-change`** проставляется консервативно (новый
компонент наблюдаемости + публичный контракт), хотя по существу изменение низкорисковое; прод-деплой
— строго через staging-гейт (8501), без рестарта прод-контейнера.

View File

@@ -0,0 +1,86 @@
---
verdict: APPROVED
work_item: ORCH-099
stage: review
author_agent: reviewer
status: approved
created_at: 2026-06-10
model_used: claude-opus-4-8
type: review
work_item_id: ORCH-099
version: 1
---
# Review ORCH-099 — FND/F1a: лёгкий read-only `GET /metrics` (сырьё для sidecar F1b)
## Summary
Реализация полностью соответствует ТЗ (`02-trz.md`), критериям приёмки (`03-acceptance-criteria.md`)
и архитектурному решению (`06-adr/ADR-001` + сквозной `adr-0030`). Добавлен аддитивный, строго
read-only, never-raise эндпоинт `GET /metrics` через leaf-модуль `src/metrics.py` (`build_metrics()`,
паттерн `serial_gate.snapshot()`) + тонкая обёртка в `src/main.py` + три read-only helper'а в
`src/db.py`. Конвейерные инварианты целы: `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` /
machine-verdict ключи / схема БД — не тронуты (в диффе нет `src/stages.py`/`src/qg/`; упоминания этих
имён — только в документации/комментариях). Полный регресс `pytest tests/ -q`**1482 passed**.
Документация обновлена в том же PR. Блокирующих findings нет.
**Оси проверки:**
1. **Соответствие ТЗ** — ✅. FR-1 (`stages`, фильтр терминалов `{done,cancelled}`), FR-2 (`queue`:
counts+`cancelled`, depth, retries, breaker, max_concurrency), FR-3 (`agents`-liveness:
agent/run_id/job_id/pid/runtime_s/model/effort + `cpu_ticks`), FR-4 (`cost`: running+aggregate),
FR-5 (конверт `schema_version`/`generated_at`/`clk_tck`), FR-6 (never-raise по разделам) —
реализованы. AC-1…AC-8 проверены по коду и тестам (TC-01…TC-11), все зелёные.
2. **Соответствие ADR** — ✅. D1D8 реализованы как описано: D3 фильтр терминалов на потребителе
(helper-инвариант ORCH-053/086 не тронут); D5 dedicated `get_running_agents()` вместо расширения
hot-path `get_running_jobs()` (ORCH-065); D6 `runtime_s` от `jobs.started_at`; D8 kill-switch
`metrics_endpoint_enabled` (дефолт `True`, `200` с минимальным телом при `False`). Глобальный
инвариант терминального множества `{done,cancelled}` (adr-0026) соблюдён. `validation_alias`
`ORCH_METRICS_ENABLED` — обоснованное усиление D8 (документированное имя контракта реально
управляет флагом), покрыто `tests/test_config.py`. Нарушений глобальных ADR нет.
3. **Качество кода** — ✅. Все колонки БД (`agent_runs.{cost_usd,*_tokens}`, `jobs.{pid,run_id,
started_at,repo,attempts,transient_attempts,available_at}`) сверены — существуют. Парсинг
`/proc/<pid>/stat` устойчив к пробелам/скобкам в `comm` (`rfind(") ")`, индексы 11/12 = поля
14/15); `_read_cpu_ticks` never-raise per-pid. Docstrings на всех публичных функциях, тесты
содержательные (живой pid → реальный int, мёртвый/`None` → `null`, бросающий источник → дефолт).
4. **Документация** — ✅ (см. секцию ниже).
## Findings
### P0 — Blocker
- Нет.
### P1 — Must fix
- Нет.
### P2 — Should fix
- Нет.
### P3 — Nice-to-have (не блокирует)
- [ ] `db.get_running_agents()` вызывается дважды на один запрос `/metrics` — в `_build_agents` и в
`_build_cost` (`src/metrics.py:176` и `:206`) — два идентичных SELECT'а. На типовом объёме
(running-jobs ≤ `max_concurrency`) — пренебрежимо, AC-3 не нарушен; при желании можно выбрать строки
один раз и переиспользовать. Косметика, исправление не требуется для приёмки.
## Документация
Обновлена в том же PR (правило «доки = golden source», AC-7) — проверено явно:
- **`docs/architecture/README.md`** — новый компонент «Metrics endpoint» в списке, полный раздел-
контракт «Сырьё-эндпоинт `/metrics` для sidecar» (конверт, разделы, политика `schema_version`,
гарантии read-only/never-raise, kill-switch) и строка в таблице API. Соответствует фактическому
ответу эндпоинта.
- **`CHANGELOG.md`** — запись `## [Unreleased]` с пометкой `ORCH-099` (D1D8 + тесты + откат).
- **`docs/work-items/ORCH-099/06-adr/ADR-001-metrics-endpoint.md`** — детальное решение (D1D8).
- **`docs/architecture/adr/adr-0030-metrics-endpoint.md`** — сквозной ADR (новый компонент
наблюдаемости + публичный контракт), зарегистрирован в `docs/architecture/adr/README.md` (индекс +
«текущий максимум — `0030`»).
- **`.env.example`** — задокументирован `ORCH_METRICS_ENABLED=true`.
`src/` изменён → документация обновлена (golden source соблюдён). Эпик-обзорные доки `README.md`
«Известные ограничения» этой задачей не затрагиваются (новый компонент, не закрытие ограничения).
## Регресс / проверки
- `pytest tests/ -q` → **1482 passed** (новые `tests/test_metrics.py` TC-01…TC-11 + `test_config.py`
×2; регресс `/health`//status//queue зелёный, TC-10).
- Дифф `src/stages.py` / `src/qg/` — пуст; machine-verdict ключи и схема БД — байт-в-байт прежние.
- Read-only подтверждён тестом снимка БД до/после (TC-09); never-raise — TC-05/TC-07.

View File

@@ -0,0 +1,87 @@
---
result: PASS
work_item: ORCH-099
stage: testing
author_agent: tester
status: pass
created_at: 2026-06-10
model_used: claude-opus-4-8
type: test-report
work_item_id: ORCH-099
---
# Test Report — ORCH-099 — FND/F1a: лёгкий read-only `GET /metrics` (сырьё для sidecar F1b)
> Машинный вердикт читается ТОЛЬКО из frontmatter. Канонический ключ — `result:` (UPPERCASE).
> Любой негативный токен (`FAIL`/`BLOCKED`) авторитетен.
## Окружение
- Python: 3.12.13
- pytest: 8.3.3 (pytest-cov 5.0.0, pytest-asyncio 0.23.8)
- Дата: 2026-06-10
- Worktree: `/repos/_wt/orchestrator/feature_ORCH-099-fnd-f1a-metrics-agent-liveness`
(ветка `feature/ORCH-099-fnd-f1a-metrics-agent-liveness`)
- Review verdict (`12-review.md`): **APPROVED** — гейт пройден до тестирования.
## Результаты
### Полный регресс
`cd <worktree> && pytest tests/ -v --tb=short`**1482 passed, 1 warning** за 49.98s.
Прод-контейнер (8500) не трогался; прогон — в рабочем дереве ветки задачи.
Единственный warning — известный PydanticDeprecatedSince20 (`src/config.py:8`), не связан с задачей.
### Профильная сюита
`pytest tests/test_metrics.py -v`**14 passed** за 0.96s (TC-01…TC-11; часть TC покрыта
несколькими тест-функциями). Новый код присутствует в worktree: `src/metrics.py` (10 538 байт),
`@app.get("/metrics")` в `src/main.py:216` — тонкая обёртка над `metrics.build_metrics()`.
### Smoke API (read-only, прод 8500)
- `GET /health``{"status":"ok","service":"orchestrator"}` — OK.
- `GET /status``{"active_tasks":[...]}` — контракт цел.
- `GET /queue` → ключи на месте; блок **`serial_gate` присутствует** (ORCH-088), **`auto_labels`
присутствует** (ORCH-089) — регресса смока нет.
- `GET /metrics` на проде → `404 Not Found`**ожидаемо**: новый эндпоинт ещё не задеплоен (стадия
testing, до `deploy`); функционал верифицирован тестами в worktree (TC-08). Не является FAIL.
### Сопоставление с тест-планом (`04-test-plan.yaml`)
| TC ID | Описание | Тест-функция | Результат |
|-------|----------|--------------|-----------|
| TC-01 | Конверт FR-5: dict с schema_version/generated_at/stages/queue/agents/cost | `test_tc01_envelope_has_all_sections` | PASS |
| TC-02 | stages: активные только; work_item/stage/age_in_stage_s(int)/repo; терминалы исключены | `test_tc02_stages_active_only_with_fields` | PASS |
| TC-03 | queue: counts/max_concurrency/retries/breaker-снимок | `test_tc03_queue_section_fields` | PASS |
| TC-04 | agents: agent/run_id/job_id/pid/runtime_s + CPU-liveness сырьё | `test_tc04_agents_liveness_fields` | PASS |
| TC-05 | liveness never-raise: pid=None / нет /proc → cpu_ticks=null, ответ цел | `test_tc05_dead_or_none_pid_cpu_ticks_null`, `test_tc05_read_cpu_ticks_helper_none_paths` | PASS |
| TC-06 | cost.aggregate: суммы cost_usd/токены; пустая таблица → нули | `test_tc06_cost_aggregate_sums_and_empty_zeros` | PASS |
| TC-07 | never-raise по разделу: бросающий источник/breaker → null/дефолт | `test_tc07_section_source_throws_degrades_not_500`, `test_tc07_breaker_unavailable_is_null` | PASS |
| TC-08 | GET /metrics → 200 + валидный JSON со всеми разделами на засеянной БД | `test_tc08_endpoint_returns_full_payload`, `test_tc08_kill_switch_minimal_body` | PASS |
| TC-09 | read-only: снимок БД до/после идентичен; повтор не меняет состояние | `test_tc09_metrics_is_read_only` | PASS |
| TC-10 | аддитивность: /health//status//queue сохраняют контракт | `test_tc10_existing_endpoints_intact` | PASS |
| TC-11 | пустое состояние: stages=[]/agents=[]/cost нули/queue нули → 200 без исключений | `test_tc11_empty_state_valid` | PASS |
Все 11 TC из тест-плана выполнены и сопоставлены. Расхождений с `expected: PASS` нет.
### Сопоставление с критериями приёмки (`03-acceptance-criteria.md`)
| AC | Условие | Покрытие | Результат |
|----|---------|----------|-----------|
| AC-1 | 4 раздела + конверт с полями TRZ §3 | TC-01/02/03/04/06 | PASS |
| AC-2 | /health//status//queue не сломаны | TC-10 + smoke | PASS |
| AC-3 | лёгкость: только локальный SQL + in-memory, без сети/тяжёлых процессов | код `src/metrics.py` (нет сетевых вызовов; только read /proc), профильный прогон 0.96s | PASS |
| AC-4 | never-raise: ошибка поля → null, не 500 | TC-05/TC-07/TC-11 | PASS |
| AC-5 | read-only; STAGE_TRANSITIONS/QG_CHECKS/check_*/схема не тронуты | TC-09 + review (дифф `src/stages.py`/`src/qg/` пуст) | PASS |
| AC-6 | agent-liveness: pid/runtime_s + CPU-сырьё для alive-детекта | TC-04/TC-05 | PASS |
| AC-7 | контракт в README + CHANGELOG | подтверждено review (`12-review.md`, §Документация) | PASS |
| AC-8 | pytest зелёный; есть test_metrics.py | 1482 passed; 14 в test_metrics.py | PASS |
## Вывод pytest
```
======================= 1482 passed, 1 warning in 49.98s =======================
```
```
tests/test_metrics.py ........... (14 items)
======================== 14 passed, 1 warning in 0.96s =========================
```
## Итог
PASS — полный регресс (1482) и профильная сюита (14) зелёные; smoke read-only OK
(`serial_gate` + `auto_labels` присутствуют в `/queue`); каждый TC тест-плана выполнен и
сопоставлен с критериями приёмки. Задача готова к переходу на `deploy-staging`.

View File

@@ -0,0 +1,12 @@
---
deploy_status: SUCCESS
work_item: ORCH-099
hook_exit_code: 0
deployed_by: deploy-finalizer
---
# Deploy log — ORCH-036 executable self-deploy
Прод-деплой завершён хост-хуком с exit-code `0` -> `deploy_status: SUCCESS`.
Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.

View File

@@ -0,0 +1,34 @@
---
staging_status: SUCCESS
work_item: ORCH-099
stage: deploy-staging
author_agent: deployer
status: success
created_at: 2026-06-10
model_used: claude-opus-4-8
timestamp: 2026-06-09T23:05:57Z
base_url: http://localhost:8501
---
# Staging Gate Log
Staging test suite completed against the live `orchestrator-staging` instance (port 8501),
run canonically inside the `orchestrator-staging` container (`scripts/staging_check.py
--base-url http://localhost:8501 --mode stub`). Exit code **0 → SUCCESS**. All REAL pipeline
checks passed; the two sandbox-infra checks (C9a/C9b) are tolerated per ORCH-061.
INFRA-WAIVED: C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue (known sandbox-infra; real checks green)
VERDICT: SUCCESS (exit 0) — SUCCESS (infra-waived): ['C9a Branch appears in orchestrator-sandbox', 'C9b Analyst job enqueued in staging queue'] are known sandbox-infra checks; all real checks green
## Results
- **Block A (SMOKE)**: ✓ A1 `/health` → 200 ok · ✓ A2 `/queue` → 200 (counts/max_concurrency/resilience) · ✓ A3 `ORCH_STAGING=true`
- **Block B (ACCESS)**: ✓ B4 Plane sandbox accessible (sandbox=YES) · ✓ B5 Gitea `orchestrator-sandbox` accessible, push=true · ✓ B6 Registry isolation (sandbox present, prod ET/ORCH absent)
- **Block C (E2E, mode=stub)**: ✓ C7 Create issue in Plane SANDBOX · ✓ C8 Trigger pipeline via `/webhook/plane` · ✗ C9a Branch in orchestrator-sandbox (INFRA-WAIVED) · ✗ C9b Analyst job enqueued (INFRA-WAIVED)
- **Cleanup**: ✓ deleted Plane issue (HTTP 204)
RESULT: 8/10 checks PASS.
REAL failed: none.
SANDBOX_INFRA failed (waived): C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue.
Tolerance: `staging_infra_tolerance_enabled=True` (ORCH-061). The exit-code → `staging_status`
mapping is unchanged: exit 0 → `SUCCESS`. Advancing to the `deploy` gate.

View File

@@ -0,0 +1,7 @@
# Business Request: FND/F1b: sidecar-watchdog — сбор хост/контейнеры/деп + алертинг (отдельный контейнер, репо орка)
Work Item ID: ORCH-100
## Description
TBD

View File

@@ -0,0 +1,167 @@
---
work_item: ORCH-100
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 01 — BRD (бизнес-требования): ORCH-100 — FND/F1b: sidecar-watchdog (мозг мониторинга, отдельный контейнер)
Work Item: **ORCH-100** · Repo: **orchestrator** · Стадия: analysis
## 1. Бизнес-контекст и проблема
Задача — фундаментный кирпич **F1b** домена 0 «Фундамент» эпика автономного саморазвития
(`docs/epics/self-evolution.md`, §2, §«Архитектурные рамки наблюдаемости»). **F1a (ORCH-099)** уже
реализовал лёгкий read-only `GET /metrics` в самом орке — он отдаёт **только сырьё** (стадии,
очередь, agent-liveness, cost), без порогов/алертов/хранения. F1b — **вторая половина пары:** мозг
мониторинга, который это сырьё читает, дополняет внешними сигналами (хост, контейнеры, внешние
зависимости) и превращает в **алерты**.
**Боль, которую закрывает F1b.** Сегодня платформа слепа к собственному здоровью в реальном
времени. Инциденты 0609.06 (диск хоста молча дорос до 100% и встал весь конвейер — ORCH-063;
фантом-merge, deploy-петли, флапп-статусы, зомби-jobs) обнаруживались **постфактум, человеком**.
Частичные стражи существуют, но они **живут ВНУТРИ процесса орка** (`disk_watchdog` ORCH-063,
`reaper` ORCH-065, `reconciler` ORCH-053): если орк завис/съел память/упал — стражи лягут **вместе
с ним**, и платформа слепа именно в критический момент.
**Архитектурная рамка — установленный факт заказчика (Слава, 09.06), не предмет переизобретения:**
- **C-1 / C-1б:** наблюдатель ОТДЕЛЁН от наблюдаемого. Sidecar-контейнер на том же хосте; КОД
sidecar — в репо орка (папка `watchdog/`), но рантайм — **ОТДЕЛЬНЫЙ контейнер** (свой Dockerfile +
сервис `orchestrator-watchdog` в `docker-compose.yml`). Изоляция — на уровне контейнера, не репо.
- **C-2:** без внешнего плеча (одна площадка; принятый риск — падёт весь хост → молчит и наблюдатель).
- **C-3:** тонкий стек — **НЕ Grafana/Prometheus**. Хост впритык: RAM 171Mi free / 7.7Gi, диск 92%.
- **Разделение ответственности:** орк отдаёт сырьё (`/metrics`), sidecar — мозг (пороги/алерты/свой
Telegram-канал, независимый от кода орка). Орк лёг → `/metrics` недоступен = **сам сигнал тревоги**.
**Критический инвариант наблюдаемости:** падение/зависание орка должно делать sidecar **громче**, а
не тише. Если орк не отвечает на `/metrics` — sidecar жив и обязан зарепортить это как тревогу
«орк не отвечает».
## 2. Объём (scope)
### В объёме
- Новая папка `watchdog/` в репо орка: тонкий код sidecar + собственный `Dockerfile`.
- Сервис `orchestrator-watchdog` в `docker-compose.yml` (отдельный контейнер, свой рестарт/память).
- **Сбор сигналов** (периодический тик): (a) `GET /metrics` орка по HTTP; (b) хост — диск %/inode,
память, CPU; (c) контейнеры — через `docker.sock` **read-only** (статусы Up/healthy/restarting/
exited/unhealthy); (d) пинг внешних зависимостей — Plane / Gitea / Anthropic.
- **Алертинг по порогам:** диск≥порог, память, agent-завис >N мин, job-failed, застрявшая стадия,
контейнер-down/unhealthy, внешняя зависимость недоступна, **орк-down (`/metrics` не отвечает)**.
- **Доставка:** Telegram через **СОБСТВЕННЫЙ канал sidecar** (свой токен/chat в `.env`), НЕ через
код/Telegram-функции орка.
- **Гигиена алертов:** дедупликация + throttle (один алерт на пересечение порога, не флапп) +
recovery-сообщение при возврате метрики в норму.
- **Управляемость:** kill-switch, конфигурируемые пороги, конфигурируемые интервалы.
- `.env.example`: токен/chat watchdog + пороги/интервалы (канон, без секретов).
- Документация (`07-infra-requirements.md` — разовое инфра-действие) + `CHANGELOG.md`; pytest зелёный.
### Вне объёма
- **Любая авто-ремедиация** (рестарт контейнеров, очистка диска, requeue jobs). F1b — **только
наблюдение + алерт** (L0 reactive, эпик §9). Авто-фиксы — домен D1 (отдельные задачи).
- **Grafana / Prometheus / TSDB / дашборд-UI / исторические графики** (C-3 — тонкий стек).
- **Изменение `/metrics` орка** (контракт F1a/ORCH-099 — данность; sidecar — потребитель). Если
обнаружится нехватка поля — это отдельная задача-расширение F1a, не часть F1b.
- **Изменение `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / схемы БД орка** — sidecar их не
касается (он вне процесса орка).
- **Журнал уроков (F2)** — отдельная задача; F1b не пишет в БД орка.
- **Второе внешнее плечо мониторинга (L2)** — сознательно отложено (C-2).
## 3. Заинтересованные стороны
- **Заказчик / приёмка:** Слава (зафиксировал архитектурные рамки 09.06).
- **Постановщик / ведение:** Стрим.
- **Затрагивает:** операторов платформы (получатели алертов), все проекты в общем прод-инстансе
(enduro-trails и пр.) — sidecar повышает наблюдаемость их общей инфраструктуры, **не вмешиваясь**.
- **Исполнители конвейера:** architect (стек, формат хранения порогов, владелец диск-алерта),
developer, reviewer, tester, deployer.
## 4. Бизнес-требования (BR)
- **BR-1 (отдельный контейнер).** Sidecar собирается в отдельный образ (`watchdog/Dockerfile`) и
работает как сервис `orchestrator-watchdog` в `docker-compose.yml` — отдельный процесс/память/
рестарт, **НЕ внутри процесса орка**.
- **BR-2 (сбор сырья орка).** На каждом тике sidecar делает `GET /metrics` орка по HTTP и
разбирает версионированный конверт (`schema_version`/`stages`/`queue`/`agents`/`cost`), **толерантно
к неизвестным/отсутствующим полям** (контракт F1a — additive, версия не растёт на добавление поля).
- **BR-3 (сбор хоста).** Sidecar измеряет хост: заполнение диска (% и, где доступно, inode), память,
CPU — по смонтированным хост-путям/интерфейсам, доступным контейнеру.
- **BR-4 (сбор контейнеров).** Sidecar читает состояние контейнеров через `docker.sock`
(**read-only mount**): различает Up / healthy / restarting / exited / unhealthy. Минимум — статус
ключевых контейнеров платформы (включая сам `orchestrator`).
- **BR-5 (пинг зависимостей).** Sidecar периодически проверяет доступность внешних зависимостей —
Plane, Gitea, Anthropic (лёгкий health/ping, короткий таймаут) — и алертит при недоступности.
- **BR-6 (пороговый алертинг).** При **пересечении порога** сигналом (диск≥порог, память,
agent-завис >N мин, job-failed, застрявшая стадия, контейнер-down/unhealthy, зависимость
недоступна) sidecar шлёт **ровно один** Telegram-алерт.
- **BR-7 (орк-down = тревога).** Если `GET /metrics` орка **не отвечает** (таймаут/connection
refused/5xx) — sidecar шлёт алерт «орк не отвечает». Это **главный** сценарий ценности:
наблюдатель жив, наблюдаемый лёг.
- **BR-8 (свой Telegram-канал).** Алерты идут через **независимый** транспорт sidecar — собственные
bot-токен и chat-id из `.env`, БЕЗ обращения к коду/функциям/токену орка (иначе падение орка
утянуло бы и алерт-канал — нарушение C-1).
- **BR-9 (дедуп / throttle / recovery).** Повторное нахождение метрики за порогом не флаппит: один
алерт на пересечение + анти-спам cooldown между повторами + **recovery-сообщение** при возврате
метрики в норму. Поведение — по образцу `disk_watchdog` (ORCH-063): чистая решающая функция
`(value, threshold, prev_state, now, cooldown) → alert | realert | recovery | none`.
- **BR-10 (нет дубля диск-алерта).** Диск уже алертит `disk_watchdog` ORCH-063 (порог 85%, через
Telegram орка). F1b **НЕ должен** порождать второй диск-алерт на то же событие. **Владельца
диск-алерта (sidecar vs внутренний `disk_watchdog`) выбирает архитектор** — BRD лишь фиксирует
требование «один диск-алерт на событие, без дублирования».
## 5. Нефункциональные требования (NFR)
- **NFR-1 (изоляция / резилентность).** Падение/зависание/рестарт орка **НЕ роняет** sidecar
(доказывается: орк down → sidecar продолжает тикать и шлёт алерт). Обратное тоже: sidecar — чисто
наблюдатель, его падение не влияет на конвейер.
- **NFR-2 (тонкость).** Контейнер лёгкий: предсказуемо малое потребление памяти (хост впритык —
171Mi free). Конкретный бюджет памяти и `mem_limit` — решение архитектора; BRD требует «в разумных
пределах, измеримо». **НЕ Grafana/Prometheus.**
- **NFR-3 (never-raise).** Любая ошибка сбора/парсинга/сети/отправки — best-effort: один битый
источник деградирует один сигнал, не роняет тик; ошибка тика не роняет демон. По образцу
`disk_watchdog` / `metrics` (три уровня never-raise: per-source, per-tick, per-send).
- **NFR-4 (безопасность self-hosting).** Sidecar **только читает и шлёт Telegram** — НИКОГДА не
трогает диск/контейнеры/прод, не рестартит, не пишет в `docker.sock` (mount **read-only**), не
пишет в БД орка, не пушит в `main`. Безопасен для общего инстанса (enduro-trails не затронут).
- **NFR-5 (управляемость / обратимость).** Kill-switch (выключить → sidecar инертен/не стартует,
нулевой эффект на орк). Пороги и интервалы конфигурируемы через `.env` (не хардкод).
- **NFR-6 (изоляция контракта).** Sidecar толерантен к версии `/metrics`: неизвестное поле
игнорируется, отсутствие опционального — не падение; рост `schema_version` логируется (предупреждение),
не крэшит.
- **NFR-7 (наблюдаемость самого sidecar).** Стартап/тик/решения логируются достаточно, чтобы по логам
контейнера понять, что sidecar жив и почему (не)сработал алерт.
## 6. Допущения и ограничения
- **Зависимость:** F1b **зависит от F1a (ORCH-099)** — читает `GET /metrics`. Контракт `/metrics`
(envelope `schema_version`/`generated_at`/`clk_tck`/`stages`/`queue`/`agents`/`cost`/`enabled`) —
установленный факт, sidecar его потребитель.
- **Сеть:** орк работает `network_mode: host` (порт 8500) → из host-network sidecar `/metrics`
достижим как `http://127.0.0.1:8500/metrics`. Точный сетевой режим sidecar — решение архитектора.
- **`docker.sock`** доступен на хосте `/var/run/docker.sock`; монтируется в sidecar **read-only**.
- **Разовое инфра-действие** (добавить сервис в compose + первый запуск + создать bot/chat watchdog)
выполняется человеком (Слава/Стрим) на хосте — фиксируется в `07-infra-requirements.md`. Дальше код
watchdog катится через конвейер (self-hosting).
- **Стек (Python/Go), формат хранения порогов, владелец диск-алерта** — **зона архитектора** в рамках
C-1…C-3; BRD их не предрешает.
- **Известный принятый риск (C-2):** падёт весь хост/Docker → молчит и sidecar (нет внешнего плеча).
- **Telegram 48ч** и прочие лимиты транспорта — как у орка (best-effort доставка).
## 7. Критерии успеха
Sidecar стартует отдельным контейнером, на каждом тике собирает сырьё орка + хост + контейнеры +
зависимости, при пересечении порога шлёт ровно один Telegram-алерт со своего канала (throttle +
recovery), при недоступности орка шлёт «орк не отвечает», и переживает падение орка не падая сам.
Тонкий, с kill-switch и конфигурируемыми порогами. Разовое инфра-действие задокументировано, pytest
зелёный, доки + CHANGELOG обновлены. Детальные PASS/FAIL — `03-acceptance-criteria.md`.
## 8. Риски
- **Дубль диск-алерта** с `disk_watchdog` ORCH-063 (BR-10) — нужно явное решение владельца (архитектор).
- **Шум алертов** (флапп на границе порога) при недостаточном throttle/recovery — закрывается BR-9.
- **Зависимость от `/metrics`:** ложный «орк-down» при сетевой икоте — нужен разумный таймаут/ретрай в
пороге, чтобы единичный transient не флаппил (детали — архитектор/developer).
- **Ресурсы хоста впритык** — sidecar обязан быть лёгким (NFR-2), иначе сам станет частью проблемы.
- **`docker.sock` доступ** — строго read-only; риск привилегий минимизируется mount-режимом (NFR-4).
- Детальный реестр и митигации — `10-tech-risks.md` (заполняет архитектор).

View File

@@ -0,0 +1,155 @@
---
work_item: ORCH-100
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 02 — ТЗ (TRZ): ORCH-100 — FND/F1b: sidecar-watchdog (мозг мониторинга, отдельный контейнер)
Work Item: **ORCH-100** · Repo: **orchestrator** · Стадия: analysis
> ТЗ описывает **конкретные изменения к реализации**, выведенные из BRD (`01-brd.md`) и фактического
> кода. Архитектурное обоснование/решения (выбор стека Python/Go, формат хранения порогов, владелец
> диск-алерта, точная топология сети sidecar, бюджет памяти/`mem_limit`) — **зона архитектора**
> (`06-adr/`). ТЗ фиксирует ТРЕБОВАНИЯ и ограничения, не способ реализации.
## 1. Сводка изменения
Добавить **отдельный sidecar-контейнер** `orchestrator-watchdog`, код которого лежит в новой папке
`watchdog/` репозитория орка, а рантайм — изолированный контейнер (свой `watchdog/Dockerfile` + сервис
в `docker-compose.yml`). Sidecar периодически (тик): (1) тянет `GET /metrics` орка; (2) меряет хост
(диск/inode/память/CPU); (3) читает статусы контейнеров через read-only `docker.sock`; (4) пингует
Plane/Gitea/Anthropic. По набору **конфигурируемых порогов** через **чистую решающую функцию**
(образец `disk_watchdog.decide`) принимает решение `alert | realert | recovery | none` с дедупом/
throttle, и шлёт алерт в **собственный** Telegram-канал (свой токен/chat, независимо от кода орка).
Особый сигнал: `/metrics` не отвечает → алерт «орк не отвечает». Всё — never-raise, под kill-switch,
строго read-only к наблюдаемому (self-hosting-безопасно).
**Орк-сторона (`src/**`) не меняется**: F1b — потребитель уже существующего `GET /metrics` (F1a,
ORCH-099). `STAGE_TRANSITIONS` / `QG_CHECKS` / `check_*` / схема БД орка — **не тронуты**.
## 2. Задействованные модули / пути
| Путь | Действие |
|------|----------|
| `watchdog/` | **создать** — корень кода sidecar (новая папка в репо орка) |
| `watchdog/Dockerfile` | **создать** — отдельный тонкий образ sidecar (стек — выбор архитектора) |
| `watchdog/<entrypoint>` | **создать** — демон/цикл сбора+решения+отправки (имя/структура — архитектор) |
| `watchdog/<collectors>` | **создать** — сбор: `/metrics` орка (HTTP), хост (диск/inode/память/CPU), контейнеры (`docker.sock` ro), пинг Plane/Gitea/Anthropic |
| `watchdog/<decision>` | **создать** — **чистая** решающая функция порога `(value, threshold, prev_state, now, cooldown) → alert\|realert\|recovery\|none` (образец `src/disk_watchdog.py::decide`) |
| `watchdog/<notify>` | **создать** — независимый Telegram-транспорт sidecar (свой токен/chat; НЕ импорт `src/notifications.py`) |
| `watchdog/<config>` | **создать** — чтение порогов/интервалов/токенов/kill-switch из env |
| `watchdog/tests/` (или `tests/watchdog/`) | **создать** — pytest на чистые функции (решение/парсинг/детект орк-down); размещение — архитектор |
| `docker-compose.yml` | **изменить** — добавить сервис `orchestrator-watchdog` (build `watchdog/`, restart-policy, read-only `docker.sock`, `mem_limit`, env, kill-switch) |
| `.env.example` | **изменить** — канон: токен/chat watchdog + пороги + интервалы + kill-switch (без секретов) |
| `CHANGELOG.md` | **изменить** — запись о F1b |
| `docs/work-items/ORCH-100/07-infra-requirements.md` | **создать (architect)** — разовое инфра-действие: добавить сервис в compose, создать bot/chat watchdog, первый запуск на хосте |
> **`src/**` НЕ редактируется.** Если в ходе разработки выяснится нехватка поля в `/metrics` — это
> отдельная задача-расширение F1a (ORCH-099), а не правка в рамках F1b (см. BRD §«Вне объёма»).
## 3. Функциональные требования
### FR-1 — Отдельный контейнер sidecar (BR-1, NFR-1)
Sidecar собирается из `watchdog/Dockerfile` в отдельный образ и поднимается сервисом
`orchestrator-watchdog` в `docker-compose.yml`: отдельный процесс/память/рестарт-политика, **НЕ**
внутри процесса орка. `restart: unless-stopped` (или эквивалент) — sidecar самовосстанавливается.
### FR-2 — Сбор сырья орка (BR-2, NFR-6)
На каждом тике `GET <orch-metrics-url>` (дефолт-достижимость `http://127.0.0.1:8500/metrics` при
host-network; URL конфигурируем). Тело — версионированный конверт F1a:
`{schema_version, generated_at, clk_tck, stages[], queue, agents[], cost, enabled}`. Парсинг
**толерантен**: неизвестные поля игнорируются, отсутствие опционального — не ошибка, рост
`schema_version` логируется (warning), не крэшит. Из конверта извлекаются сигналы для порогов:
agent-liveness (cpu_ticks/runtime → «завис»), застрявшая стадия, job-failed, длина очереди.
### FR-3 — Детект «орк не отвечает» (BR-7) — главный сигнал
Если `GET /metrics` завершается таймаутом / connection refused / 5xx / нечитаемым телом — это
**отдельный сигнал тревоги** `orchestrator_down`. Проходит через ту же машину порога/дедупа/recovery
(BR-9): один алерт «орк не отвечает», recovery при восстановлении. Единичный transient не должен
немедленно флаппить — порог/таймаут/ретрай подбираются так, чтобы алерт был осмысленным (детали —
архитектор/developer; требование: «не флаппить на одиночной сетевой икоте»).
### FR-4 — Сбор хоста (BR-3)
Измерять заполнение диска (% и, где доступно, inode), память, CPU по доступным контейнеру
хост-путям/интерфейсам (стдлиб-средствами выбранного стека; **без** тяжёлых агентов). Пути/пороги —
конфигурируемы. **Диск:** см. FR-9 (анти-дубль с ORCH-063).
### FR-5 — Сбор контейнеров (BR-4, NFR-4)
Через `docker.sock`, смонтированный **read-only**, читать состояния контейнеров платформы:
различать Up / healthy / restarting / exited / unhealthy. Минимум — статус `orchestrator` (и других
ключевых сервисов). **Только чтение** Docker API (list/inspect) — никаких start/stop/restart/exec.
### FR-6 — Пинг внешних зависимостей (BR-5)
Периодически проверять доступность Plane / Gitea / Anthropic лёгким запросом (health/ping, короткий
таймаут, never-raise). Недоступность → сигнал для порога. Эндпоинты/таймауты — конфигурируемы.
### FR-7 — Пороговый алертинг (BR-6, BR-9)
Каждый сигнал проходит через **чистую решающую функцию** (образец `disk_watchdog.decide`):
вход `(value/state, threshold, prev_state, now, cooldown)`, выход `alert | realert | recovery | none`.
Семантика:
- не-alerting & за порогом → **ALERT** (один на пересечение);
- alerting & за порогом & cooldown истёк → **REALERT**;
- alerting & за порогом & в cooldown → **NONE** (анти-спам);
- alerting & вернулось в норму → **RECOVERY**;
- не-alerting & в норме → **NONE**.
Состояние порога (alerting/last_alert_at) — per-signal, in-memory (best-effort; рестарт sidecar
сбрасывает → корректно повторно алертит ещё стоящую проблему, как `disk_watchdog`). Хранилище
состояния/порогов (in-memory vs файл/иное) — **решение архитектора**.
### FR-8 — Независимый Telegram-транспорт (BR-8, NFR-4)
Отправка через собственный код sidecar (свой `<notify>`), читающий **свои** `bot_token`/`chat_id`
из env. **Запрещено** импортировать/вызывать `src/notifications.py` или использовать токен/функции
орка (иначе падение орка утянет алерт-канал). `disable_web_page_preview`/`parse_mode` — по
усмотрению; сообщение содержит суть алерта (сигнал, значение, порог, хост/контейнер).
### FR-9 — Анти-дубль диск-алерта (BR-10)
Диск уже алертит `disk_watchdog` (ORCH-063, порог 85%, Telegram орка). F1b **не должен** слать
второй диск-алерт на то же событие. **Владельца диск-алерта выбирает архитектор** (варианты:
sidecar становится единственным владельцем и внутренний `disk_watchdog` остаётся как fallback на
случай down-канала орка; ИЛИ sidecar не дублирует диск, оставляя его за ORCH-063). ТЗ фиксирует
инвариант: **на одно событие переполнения диска — не более одного алерта**, решение и его обоснование —
в `06-adr/`.
### FR-10 — Управляемость (NFR-5)
Kill-switch (env): выключен → sidecar не стартует / инертен, нулевой эффект на орк и конвейер.
Пороги (диск, память, agent-завис N мин, длина очереди, и т.п.), интервал тика, таймауты, cooldown —
из env (`.env.example` — канон).
### FR-11 — never-raise (NFR-3)
Три уровня: per-source (битый источник деградирует один сигнал, прочие собираются), per-tick (внешний
try/except цикла), per-send (обёрнутая отправка). Демон не падает от ошибки сбора/сети/парсинга.
## 4. Изменения API
**Нет** изменений API орка. Sidecar — **клиент** существующего `GET /metrics` (F1a, ORCH-099). Орк
новых эндпоинтов не получает. Sidecar собственного входящего HTTP-API не обязан иметь (опциональный
liveness-эндпоинт самого sidecar — на усмотрение архитектора, вне обязательного объёма).
## 5. Изменения схемы БД
**Нет.** Sidecar **не пишет** в БД орка (NFR-4) и не имеет своей БД (тонкий стек, C-3). Состояние
порогов — in-memory best-effort (FR-7). Журнал уроков (F2, БД орка) — отдельная задача, не F1b.
## 6. Требования к новым/изменённым QG checks
**Нет.** F1b живёт **вне** процесса орка и **вне** конвейера Quality Gate. `QG_CHECKS` / `check_*` /
`STAGE_TRANSITIONS` — **не тронуты** (по образцу operational-демонов `disk_watchdog`/`reaper`/
`reconciler`, которые тоже не являются Quality Gate). Sidecar — операционный наблюдатель, не гейт.
## 7. Совместимость / регресс
- **Обратная совместимость:** изменения **аддитивны** — новая папка `watchdog/`, новый сервис в
compose, новые ключи в `.env.example`. Существующий орк-контейнер и его поведение — без изменений.
- **Kill-switch:** выключенный sidecar = нулевой эффект (не стартует), полная обратимость (NFR-5).
- **Область раската:** только инфраструктура наблюдения; конвейер всех проектов не затронут
(self-hosting-безопасно, NFR-4).
- **Регресс:** существующий `pytest tests/` остаётся зелёным; новые тесты sidecar добавляются
изолированно (FR — чистые функции тестируемы без контейнера/таймера, образец
`tests/` для `disk_watchdog.decide`).
- **Разовое инфра-предусловие** (не код): добавить сервис в compose + создать bot/chat watchdog +
первый запуск на хосте (Слава/Стрим). Зафиксировать в `07-infra-requirements.md`. Отсутствие
bot/chat watchdog = sidecar не шлёт (fail-safe, логирует), но не падает.

View File

@@ -0,0 +1,114 @@
---
work_item: ORCH-100
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 03 — Критерии приёмки (Acceptance Criteria): ORCH-100 — FND/F1b: sidecar-watchdog
Work Item: **ORCH-100** · Repo: **orchestrator** · Стадия: analysis
Формат: каждый критерий имеет **PASS** (что должно быть истинно для приёмки) и **FAIL** (что
считается провалом). Reviewer/tester проверяет их буквально по файлам репозитория и поведению.
---
## AC-1 — Sidecar стартует отдельным контейнером и собирает все источники
**Условие:** есть папка `watchdog/` с кодом + `watchdog/Dockerfile`; в `docker-compose.yml` есть
сервис `orchestrator-watchdog`, собираемый из `watchdog/`; запущенный sidecar на тике собирает
сырьё орка (`GET /metrics`) + хост (диск/память/CPU) + контейнеры (`docker.sock`) + пинг зависимостей.
- **PASS:** `watchdog/Dockerfile` существует; сервис `orchestrator-watchdog` объявлен отдельным
сервисом в `docker-compose.yml` (свой build/restart/`mem_limit`, read-only `docker.sock`); код
sidecar реализует все 4 коллектора (метрики орка, хост, контейнеры, зависимости); тик опрашивает
все 4 (подтверждается тестами/логами).
- **FAIL:** мониторинг встроен в процесс орка (`src/**`) / нет отдельного сервиса в compose / отсутствует
любой из 4 коллекторов / `docker.sock` смонтирован НЕ read-only.
---
## AC-2 — Пороговый алерт: один на пересечение + throttle + recovery + орк-down
**Условие:** при пересечении порога — ровно один Telegram-алерт со **своего** канала sidecar; повтор
в cooldown молчит; возврат в норму шлёт recovery; недоступность `/metrics` орка → алерт «орк не
отвечает».
- **PASS:** чистая решающая функция возвращает `alert | realert | recovery | none` по семантике FR-7
(тесты TC-01…TC-04 зелёные); алерт идёт через независимый транспорт sidecar (свой токен/chat, БЕЗ
импорта `src/notifications.py`); сценарий `orchestrator_down` (таймаут/refused/5xx) даёт алерт
«орк не отвечает» (TC-05) и recovery при восстановлении.
- **FAIL:** флапп (>1 алерта на одно пересечение без cooldown) / нет recovery / алерт шлётся через
код/токен орка / `orchestrator_down` не детектируется или не алертит.
---
## AC-3 — Изоляция: падение орка не роняет sidecar
**Условие:** орк недоступен/упал → sidecar продолжает работать и репортит проблему.
- **PASS:** при недоступном `/metrics` (мок таймаута/refused) тик sidecar не падает, проходит до конца,
формирует алерт `orchestrator_down` (TC-05, TC-08); демон never-raise на трёх уровнях (per-source/
per-tick/per-send) — ошибка одного источника не валит тик, ошибка тика не валит демон (TC-06).
- **FAIL:** исключение в коллекторе/отправке роняет тик или демон / недоступность орка приводит к
падению/остановке sidecar.
---
## AC-4 — Тонкость, kill-switch, конфигурируемые пороги
**Условие:** контейнер лёгкий; есть kill-switch; пороги/интервалы конфигурируемы через env.
- **PASS:** `docker-compose.yml` задаёт ограничение памяти sidecar (`mem_limit`/эквивалент) в разумных
пределах (НЕ Grafana/Prometheus-стек); kill-switch (env) при выключении → sidecar не стартует/инертен,
нулевой эффект на орк (TC-07); пороги (диск/память/agent-завис N мин/очередь и т.п.), интервал,
таймауты, cooldown читаются из env; `.env.example` содержит токен/chat watchdog + все пороги/интервалы
(канон, без реальных секретов).
- **FAIL:** нет `mem_limit` / тянется Grafana/Prometheus / нет kill-switch или он не отключает sidecar /
пороги захардкожены / `.env.example` не обновлён или содержит реальный секрет.
---
## AC-5 — Анти-дубль диск-алерта (согласовано с ORCH-063)
**Условие:** на одно событие переполнения диска — не более одного алерта; владелец зафиксирован в ADR.
- **PASS:** в `06-adr/` зафиксировано решение о владельце диск-алерта (sidecar vs внутренний
`disk_watchdog` ORCH-063); реализация не порождает два алерта на то же событие переполнения; выбор
обоснован.
- **FAIL:** диск алертится дважды (и sidecar, и `disk_watchdog`) на одно событие / решение о владельце
не задокументировано.
---
## AC-6 — Безопасность self-hosting (только чтение/алерт)
**Условие:** sidecar ничего не мутирует в наблюдаемой системе.
- **PASS:** код sidecar не содержит вызовов записи/управления — нет start/stop/restart/exec контейнеров,
нет записи в `docker.sock` (mount read-only), нет записи в БД орка, нет операций с диском хоста
(кроме чтения заполнения), нет push в `main`. Подтверждается ревью кода + статической проверкой
(TC-09: docker-клиент используется только для list/inspect).
- **FAIL:** sidecar выполняет любое мутирующее действие над контейнерами/диском/БД/прод-инстансом.
---
## AC-7 — Разовое инфра-действие задокументировано; pytest зелёный; доки+CHANGELOG
**Условие:** инфра-предусловие описано; тесты проходят; документация обновлена.
- **PASS:** `07-infra-requirements.md` описывает разовое действие (добавить сервис в compose, создать
bot/chat watchdog, первый запуск на хосте); `pytest` (полный `tests/` + тесты sidecar) зелёный;
`CHANGELOG.md` содержит запись F1b; релевантные доки (CLAUDE.md/README при необходимости) обновлены.
- **FAIL:** нет `07-infra-requirements.md` / падают тесты / нет записи в CHANGELOG / функционал добавлен
без обновления документации.
---
## Сводная матрица AC ↔ FR/BR
| AC | Покрывает |
|----|-----------|
| AC-1 | BR-1/2/3/4/5 · FR-1/2/4/5/6 · NFR-4 |
| AC-2 | BR-6/7/8/9 · FR-3/7/8 |
| AC-3 | NFR-1/3 · FR-3/11 |
| AC-4 | NFR-2/5 · FR-10 |
| AC-5 | BR-10 · FR-9 |
| AC-6 | NFR-4 · FR-5/8 |
| AC-7 | BR (доки) · NFR-7 · процессные правила агентов |

View File

@@ -0,0 +1,108 @@
work_item: ORCH-100
stage: analysis
author_agent: analyst
status: ready-for-review
created_at: 2026-06-10
model_used: claude-opus-4-8
title: "FND/F1b sidecar-watchdog — пороговый алертинг, орк-down, изоляция, self-hosting safety"
framework: pytest
scope: >
Покрывает чистую логику sidecar (решающая функция порога, парсинг конверта /metrics,
детект orchestrator-down, never-raise) и структурно-инфраструктурные инварианты (отдельный
сервис в compose, read-only docker.sock, независимый Telegram-транспорт, kill-switch,
анти-дубль диск-алерта). ВНЕ покрытия: реальный Telegram-API, живой docker.sock, живой
хост-хост-стек (мокаются); сетевые коллекторы тестируются на моках, не на боевых Plane/Gitea/
Anthropic. Стек sidecar (Python/Go) и точное размещение тестов выбирает архитектор — при Python
тесты идут в общий pytest; если архитектор выберет Go, набор тест-кейсов переносится на go test
1:1 по смыслу (решение/парсинг/детект/never-raise остаются обязательными).
notes: >
Образец чистой решающей функции и её тестов — src/disk_watchdog.py::decide и его тесты в tests/.
Все коллекторы/транспорт мокаются (никаких боевых сетевых/docker-вызовов в CI). Полный регресс
tests/ орка должен оставаться зелёным (src/** не меняется). Тесты sidecar изолированы и не требуют
поднятого контейнера/таймера. Пути модулей watchdog/* — ориентировочные; финальные имена задаёт
архитектор/developer, id и смысл тест-кейсов сохраняются.
tests:
- id: TC-01
type: unit
description: "Решающая функция: not-alerting & value>=threshold -> ALERT (один на пересечение порога)"
module: watchdog/tests/test_decision.py
expected: PASS
- id: TC-02
type: unit
description: "Решающая функция: alerting & still>=threshold & cooldown НЕ истёк -> NONE (анти-спам throttle)"
module: watchdog/tests/test_decision.py
expected: PASS
- id: TC-03
type: unit
description: "Решающая функция: alerting & still>=threshold & cooldown истёк -> REALERT (повторный алерт)"
module: watchdog/tests/test_decision.py
expected: PASS
- id: TC-04
type: unit
description: "Решающая функция: alerting & value вернулось ниже порога -> RECOVERY (recovery-сообщение)"
module: watchdog/tests/test_decision.py
expected: PASS
- id: TC-05
type: unit
description: "Детект orchestrator-down: /metrics таймаут/connection-refused/5xx -> сигнал orchestrator_down -> ALERT «орк не отвечает»"
module: watchdog/tests/test_orch_down.py
expected: PASS
- id: TC-06
type: unit
description: "never-raise: исключение в одном коллекторе (хост/контейнеры/деп) деградирует один сигнал, тик доходит до конца и собирает остальные"
module: watchdog/tests/test_never_raise.py
expected: PASS
- id: TC-07
type: unit
description: "Kill-switch: при выключенном флаге sidecar инертен/не стартует тик; пороги/интервалы/таймауты читаются из env (не хардкод)"
module: watchdog/tests/test_config_killswitch.py
expected: PASS
- id: TC-08
type: integration
description: "Полный тик при недоступном орке (мок /metrics down): тик не падает, собирает хост/контейнеры/деп, формирует ровно один алерт orchestrator_down, recovery при восстановлении"
module: watchdog/tests/test_tick_orch_down_integration.py
expected: PASS
- id: TC-09
type: unit
description: "Self-hosting safety: docker-клиент используется только для чтения (list/inspect); нет вызовов start/stop/restart/exec/записи (статическая/мок-проверка)"
module: watchdog/tests/test_docker_readonly.py
expected: PASS
- id: TC-10
type: unit
description: "Независимый транспорт: алерт-отправка использует СВОИ токен/chat sidecar из env и НЕ импортирует src/notifications.py / код орка"
module: watchdog/tests/test_notify_isolation.py
expected: PASS
- id: TC-11
type: unit
description: "Толерантность к контракту /metrics: неизвестное поле игнорируется, отсутствие опционального не падает, рост schema_version логируется (warning) без крэша"
module: watchdog/tests/test_metrics_parse.py
expected: PASS
- id: TC-12
type: integration
description: "Compose-инвариант: orchestrator-watchdog объявлен отдельным сервисом (свой build watchdog/, restart, mem_limit) с docker.sock в режиме :ro"
module: watchdog/tests/test_compose_service.py
expected: PASS
- id: TC-13
type: unit
description: "Анти-дубль диск-алерта: согласно решению ADR владельца — sidecar не порождает второй диск-алерт на то же событие переполнения (по образцу взаимодействия с ORCH-063)"
module: watchdog/tests/test_disk_alert_dedup.py
expected: PASS
- id: TC-14
type: unit
description: "Регресс орка: полный pytest tests/ зелёный — src/** не изменён, /metrics-контракт (ORCH-099) не сломан"
module: tests/
expected: PASS

View File

@@ -0,0 +1,304 @@
---
work_item: ORCH-100
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# ADR-001: Sidecar-watchdog F1b — мозг мониторинга в отдельном контейнере
Work Item: **ORCH-100** — FND/F1b: sidecar-watchdog (мозг мониторинга, отдельный контейнер)
Стадия: **architecture**
Сквозная регистрация: **`docs/architecture/adr/adr-0033-sidecar-watchdog.md`** (решение
кросс-каттинговое — новый компонент наблюдаемости + новый рантайм-контейнер + новый независимый
алерт-канал; парный к adr-0030 F1a).
## Статус
Proposed
## Контекст
F1b — вторая половина пары наблюдаемости домена 0 «Фундамент» эпика автономного саморазвития. **F1a
(ORCH-099, adr-0030)** уже отдаёт лёгкий read-only `GET /metrics`**только сырьё** (стадии,
очередь, agent-liveness, cost) в версионированном конверте. F1b — **мозг**, который это сырьё читает,
дополняет внешними сигналами (хост, контейнеры, зависимости) и превращает в **алерты**.
Рамка заказчика (Слава, 09.06) — **установленный факт, не предмет переизобретения** (BRD §1):
- **C-1 / C-1б:** наблюдатель ОТДЕЛЁН от наблюдаемого. Код sidecar — в репо орка (`watchdog/`),
рантайм — **ОТДЕЛЬНЫЙ контейнер** (`orchestrator-watchdog`). Изоляция на уровне контейнера.
- **C-2:** без внешнего плеча (один хост; принятый риск — падёт весь хост → молчит и наблюдатель).
- **C-3:** тонкий стек — **НЕ Grafana/Prometheus/TSDB**. Хост впритык (RAM 171Mi free / 7.7Gi, диск 92%).
- **Критический инвариант:** падение/зависание орка делает sidecar **громче**, а не тише — орк лёг ⇒
`/metrics` недоступен = **сам сигнал тревоги** «орк не отвечает».
Факты, сверенные с кодом:
- Орк работает `network_mode: host`, порт 8500 (`docker-compose.yml:14`) ⇒ из host-network sidecar
`/metrics` достижим как `http://127.0.0.1:8500/metrics`.
- `docker.sock` на хосте `/var/run/docker.sock`, уже монтируется в орк (`docker-compose.yml:18`).
- `src/disk_watchdog.py::decide_action(used_pct, threshold, prev, now, realert_s)` — эталонная
чистая решающая функция `alert | realert | recovery | none` + `PathAlertState` (in-memory
анти-спам) + трёхуровневый never-raise (per-path / per-tick / per-send). BRD §BR-9 прямо предписывает
её как образец.
- Диск уже алертит `disk_watchdog` (ORCH-063) на 85% **через Telegram орка** — потенциальный дубль
(BR-10), требует явного выбора владельца.
- `/metrics`-конверт (adr-0030 D2): `schema_version`/`generated_at`/`clk_tck`/`stages`/`queue`/
`agents`/`cost`/`enabled`; CPU-сырьё — `cpu_ticks` (utime+stime из `/proc`), орк **дельту не считает**
(stateless) — арбитр «жив/завис» это **F1b** (sidecar считает долю CPU по двум опросам).
«Как есть» не годится: частичные стражи (`disk_watchdog`/`reaper`/`reconciler`) живут **ВНУТРИ
процесса орка** — зависнет/упадёт орк, лягут и они, и платформа слепа именно в критический момент.
## Решение
### Сводка
Новая папка `watchdog/` в репо орка — **тонкий Python-3.12-stdlib демон** (никаких сторонних
зависимостей), собираемый в отдельный образ (`watchdog/Dockerfile`) и поднимаемый сервисом
`orchestrator-watchdog` в `docker-compose.yml` (свой процесс/память/рестарт, `network_mode: host`,
read-only `docker.sock`). На каждом тике: (1) `GET /metrics` орка; (2) хост (диск/inode/память/CPU);
(3) статусы контейнеров через read-only `docker.sock`; (4) пинг Plane/Gitea/Anthropic. Каждый сигнал
проходит через **обобщённую чистую решающую функцию** (генерализация `disk_watchdog.decide_action`) с
per-signal in-memory дедупом/throttle/recovery и шлёт алерт в **собственный** Telegram-канал sidecar.
Особый сигнал — `/metrics` не отвечает → `orchestrator_down`. Всё never-raise, под kill-switch,
строго read-only к наблюдаемому. **`src/**` не меняется** — F1b потребитель `/metrics`;
`STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/схема БД орка — **не тронуты**.
### D1 — Стек: Python 3.12 stdlib-only, отдельный тонкий образ (BR-1, NFR-2, C-3)
**Решение: Python 3.12 + только стандартная библиотека** на базе `python:3.12-slim`.
- `urllib.request` — HTTP к `/metrics` и пинги зависимостей (короткие таймауты).
- `docker.sock`**сырой HTTP-over-unix-socket** через stdlib (`socket.AF_UNIX` +
`http.client.HTTPConnection`-подкласс), БЕЗ pip-пакета `docker`. Только `GET /containers/json` и
`GET /containers/<name>/json` ⇒ read-only **по построению** (нет ни одного мутирующего вызова).
- Хост-метрики — `shutil.disk_usage` (как `disk_watchdog`), `/proc/meminfo`, `/proc/loadavg` /
`os.getloadavg` — stdlib, без тяжёлых агентов.
- Telegram — `urllib` POST на `api.telegram.org`.
- Тесты — `pytest` на чистые функции (решение/парсинг конверта/детект down), как `disk_watchdog.decide`.
Обоснование: BRD §BR-9 фиксирует `disk_watchdog.decide` как образец — Python даёт почти дословный
перенос паттерна, переиспользует экспертизу команды и pytest, держит образ тонким (stdlib-only ⇒ нет
дерева зависимостей). **Отвергнуто:** Go (вторая цепочка инструментов/языка ради ~десятков МБ RSS —
не оправдано на фоне C-1-консистентности с `disk_watchdog`); `docker` SDK / `requests` / `httpx`
(вес и поверхность зависимостей против C-3); Prometheus/Grafana/TSDB (прямой запрет C-3).
Привязка: BR-1, NFR-2, FR-1, AC-1, AC-4.
### D2 — Топология контейнера: `network_mode: host` + read-only docker.sock + `mem_limit` (BR-1/3/4, NFR-2/4)
Сервис `orchestrator-watchdog` (`docker-compose.yml`):
- `build: ./watchdog`, `container_name: orchestrator-watchdog`, `restart: unless-stopped`
(самовосстановление, FR-1).
- **`network_mode: host`** — как орк ⇒ `/metrics` достижим как `http://127.0.0.1:8500/metrics`
(дефолт, конфигурируем), и доступны хост-интерфейсы. Отвергнут bridge + `host.docker.internal`
(на Linux ненадёжно, лишняя сложность).
- **`/var/run/docker.sock:/var/run/docker.sock:ro`** — read-only mount (NFR-4, AC-6); даже при
read-only mount код делает **только** GET-запросы (двойная гарантия).
- **Хост-пути для дисковых метрик** — read-only bind тех же путей, что меряет `disk_watchdog`
(`/repos`, `/app/data`/`./data`), `:ro``shutil.disk_usage` видит хост-ФС, но не может писать.
- **`mem_limit: 128m`** (+ `mem_reservation: 32m`) — тонкость измерима и принудительна (NFR-2).
Ожидаемый базовый RSS однопоточного stdlib-демона ~4060 МБ; 128 МБ — потолок с запасом, но далеко
от Grafana-класса. OOM при превышении = ранний сигнал «sidecar растолстел» (см. 10-tech-risks TR-4).
- `env_file: .env.watchdog` (или общий `.env` с префиксом `WATCHDOG_`; точный файл — деталь
инфра-предусловия 07). Свои токен/chat — **только** у sidecar.
- **Self-hosting:** добавление нового сервиса и `docker compose up -d orchestrator-watchdog`
поднимает ТОЛЬКО watchdog — прод-контейнер `orchestrator` НЕ пересобирается и НЕ рестартится
(отдельный сервис). Это снимает риск «деплой наблюдателя уронил наблюдаемого».
Привязка: BR-1, BR-3, BR-4, NFR-2, NFR-4, FR-1, FR-4, FR-5, AC-1, AC-4, AC-6.
### D3 — Структура кода `watchdog/` (NFR-3, NFR-7)
```
watchdog/
Dockerfile # python:3.12-slim, COPY watchdog/, ENTRYPOINT демон
__main__.py # цикл: tick loop, kill-switch, per-tick never-raise, лог старта/тика
config.py # чтение WATCHDOG_* env (пороги/интервалы/токены/URL/kill-switch), дефолты
collectors/
orch.py # GET /metrics -> распарсенный конверт | сигнал orchestrator_down
host.py # диск (shutil.disk_usage) / inode / память (/proc/meminfo) / CPU (loadavg)
containers.py # docker.sock (ro) GET list/inspect -> статусы Up/healthy/restarting/exited/unhealthy
deps.py # пинг Plane/Gitea/Anthropic (urllib, короткий таймаут)
decision.py # ЧИСТАЯ decide(...) + AlertState (генерализация disk_watchdog)
notify.py # независимый Telegram-транспорт (свой токен/chat; НЕ импорт src/notifications)
tests/ # pytest на чистые функции (или tests/watchdog/ — на усмотрение developer)
```
Никакого импорта из `src/**` (иначе падение/рефактор орка утянул бы sidecar — нарушение C-1).
Логирование старта/тика/каждого вердикта в stdout контейнера (NFR-7) — по логам видно, что sidecar
жив и почему (не)сработал алерт.
Привязка: BR-8, NFR-1, NFR-3, NFR-7, FR-8, FR-11, AC-3.
### D4 — Обобщённая чистая решающая функция (BR-6, BR-9, FR-7) — образец `disk_watchdog.decide_action`
`disk_watchdog.decide_action` зашит на `used_pct >= threshold`. Для F1b сигналов много и они
разнотипны (булевы — «орк down», «контейнер unhealthy»; счётчики — «job-failed delta»; пороговые —
«память %», «agent завис N мин»). Поэтому **сравнение выносится наружу**, а функция работает с уже
вычисленным булевым `signal_active`:
```
def decide(signal_active: bool, prev: AlertState, now: float, cooldown_s: float) -> str:
# not alerting & active -> ALERT (пересечение порога)
# alerting & active & cooldown ок -> REALERT (повтор)
# alerting & active & в cooldown -> NONE (анти-спам)
# alerting & не active -> RECOVERY (возврат в норму)
# not alerting & не active -> NONE (норма)
@dataclass
class AlertState: # 1:1 семантика PathAlertState
alerting: bool = False
last_alert_at: float | None = None
```
Это **строгая генерализация** disk-варианта (тот же набор исходов, та же cooldown/recovery-семантика,
тот же in-memory best-effort, инъецируемые `now`/`cooldown` для детерминированных тестов). Состояние —
карта `{signal_key -> AlertState}`, где `signal_key` идентифицирует сигнал: скаляр (`"orch_down"`,
`"host_mem"`) или кортеж для пер-сущностных (`("agent_hung", run_id)`, `("container_down", name)`,
`("stage_stuck", work_item)`, `("dep_down", dep_name)`). Рестарт sidecar сбрасывает карту →
корректно повторно алертит ещё стоящую проблему (как `disk_watchdog`; FR-7).
Привязка: BR-6, BR-9, FR-7, AC-2, TC-01…TC-04.
### D5 — Реестр сигналов и их пороги (BR-2/3/4/5/6/7, FR-2…FR-7)
| signal_key | Источник | `signal_active` когда | Порог (env, дефолт) |
|------------|----------|------------------------|----------------------|
| `orch_down` | collectors/orch | K подряд неудачных `/metrics` (таймаут/refused/5xx/нечитаемо) | `WATCHDOG_ORCH_DOWN_TICKS=3` |
| `host_mem` | host | `mem_used_pct >= порог` | `WATCHDOG_MEM_PCT=90` |
| `host_disk_crit` | host | `disk_used_pct >= ceiling` (**opt-in, см. D6**) | `WATCHDOG_DISK_CRIT_PCT=97`, `WATCHDOG_DISK_CRIT_ENABLED=false` |
| `agent_hung` (per run_id) | orch.agents | `runtime_s > N` И доля CPU (Δ`cpu_ticks`/`clk_tck``generated_at`) `< floor` | `WATCHDOG_AGENT_HUNG_MIN=20`, `WATCHDOG_AGENT_CPU_FLOOR=0.01` |
| `stage_stuck` (per work_item) | orch.stages | `age_in_stage_s > порог` | `WATCHDOG_STAGE_STUCK_MIN=120` |
| `job_failed` | orch.queue | `counts.failed` вырос с прошлого тика (edge) | — (дельта; алерт на рост) |
| `queue_depth` | orch.queue | `depth >= порог` | `WATCHDOG_QUEUE_DEPTH=20` |
| `container_down` (per name) | containers | статус ∉ {running, healthy} (restarting/exited/unhealthy) | список `WATCHDOG_CONTAINERS=orchestrator` |
| `dep_down` (per name) | deps | пинг неуспешен/таймаут | URL'ы/таймаут из env |
- **`agent_hung`** требует **двух** опросов (stateful у sidecar) — sidecar хранит предыдущие
`(cpu_ticks, generated_at)` per run_id и считает долю CPU; `cpu_ticks: null` (pid мёртв/не-Linux —
adr-0030 D5) ⇒ сигнал не вычисляется (none), не ложная тревога.
- **`job_failed`** — edge-сигнал (рост счётчика), а не sustained-порог: при росте `failed` → ALERT
один раз; recovery как такового нет (это событие), поэтому состояние сбрасывается сразу после
отправки (alerting=False), чтобы следующий новый фейл снова алертил.
- Все пороги/интервалы/URL/таймауты/cooldown — из env (FR-10), канон в `.env.example`.
Привязка: BR-2…BR-7, FR-2…FR-7, AC-1, AC-2.
### D6 — Владелец диск-алерта: disk_watchdog остаётся основным; sidecar — opt-in критический потолок (BR-10, FR-9) — **ключевое решение**
BRD §BR-10 / FR-9 / AC-5 явно делегируют выбор владельца архитектору. **Решение:**
1. **Штатный диск-алерт на 85% остаётся ЕДИНСТВЕННО за внутренним `disk_watchdog` (ORCH-063), через
Telegram орка.** Sidecar **НЕ** запускает независимый диск-алерт на том же пороге ⇒ **нулевой дубль
по построению** (AC-5 удовлетворён структурно, а не throttle-эвристикой).
2. **Вклад sidecar в дисковую безопасность — покрытие именно того провала, который F1b и создаётся
закрывать:** когда орк (а с ним и in-process `disk_watchdog`) **завис/упал**, штатный диск-алерт
физически невозможен. Тогда срабатывает **`orch_down`** — мастер-сигнал sidecar с независимого
канала; его текст явно подсказывает «in-process стражи (диск/reaper/reconciler) тоже мертвы →
проверьте хост, включая диск».
3. **Крайний edge — орк жив, но его Telegram сломан** (диск растёт, `disk_watchdog` не может
доставить): sidecar несёт **opt-in** независимый алерт `host_disk_crit` на **более высоком**
пороге-потолке (дефолт 97%, **выключен по умолчанию** `WATCHDOG_DISK_CRIT_ENABLED=false`). Это
**другое событие** (критический потолок, независимый канал), а не повтор 85%-события ⇒ инвариант
«не более одного алерта на одно событие переполнения» сохранён. Включается оператором осознанно,
когда нужна избыточность канала.
Итог: из коробки — ровно один владелец диска (`disk_watchdog`); резервирование канала — обратимый
opt-in. Решение и обоснование зафиксированы здесь (AC-5).
Привязка: BR-10, FR-9, AC-5.
### D7 — Независимый Telegram-транспорт (BR-8, NFR-4, FR-8)
`watchdog/notify.py` читает **свои** `WATCHDOG_TG_BOT_TOKEN` / `WATCHDOG_TG_CHAT_ID` из env и шлёт
через `urllib` POST на `api.telegram.org`. **Запрещено** импортировать `src/notifications.py` или
использовать токен/функции/чат орка — иначе падение/рефактор орка утянул бы алерт-канал (нарушение
C-1, прямой смысл BR-8). Отсутствие токена/chat → sidecar логирует и не шлёт (fail-safe), но **не
падает** (NFR-3). Сообщение несёт суть: сигнал, значение, порог, хост/контейнер.
Привязка: BR-8, NFR-4, FR-8, AC-2, AC-6.
### D8 — Three-level never-raise + kill-switch (NFR-3, NFR-5, FR-10, FR-11)
- **per-source:** битый коллектор (орк down / docker.sock недоступен / пинг таймаут) деградирует
ОДИН сигнал, прочие собираются (`orch_down` сам по себе — нормальный сигнал, а не крах тика).
- **per-tick:** внешний `try/except` цикла — ошибка тика логируется, не валит демон.
- **per-send:** обёрнутый `notify` — сбой Telegram логируется и проглатывается (best-effort).
- **Kill-switch** `WATCHDOG_ENABLED` (env): `false` → демон **инертен** (idle-loop с логом «disabled»,
НЕ `exit`, чтобы `restart: unless-stopped` не крутил рестарт-петлю) ⇒ нулевой эффект на орк и
конвейер. Полная обратимость: не запускать сервис вовсе / `WATCHDOG_ENABLED=false`.
Привязка: NFR-1, NFR-3, NFR-5, FR-10, FR-11, AC-3, AC-4.
### D9 — Толерантность к версии `/metrics` (NFR-6, FR-2)
`collectors/orch.py` парсит конверт защитно: неизвестные ключи игнорируются, отсутствие
опционального — не ошибка (дефолт `None`/`[]`/`{}`), `enabled:false` трактуется явно (орк сам
выключил `/metrics` — не `orch_down`). Рост `schema_version` выше известного → `logger.warning`
(«новая версия контракта, читаю совместимое подмножество»), **не** крэш. Это зеркалит аддитивно-
толерантную политику F1a (adr-0030 D2): sidecar обязан пережить расширение `/metrics` без правок.
Привязка: NFR-6, FR-2, AC-1.
## Альтернативы
- **Go-стек / `docker` SDK / `requests`** — отвергнуто: вес/вторая цепочка инструментов против C-3 и
C-1-консистентности с `disk_watchdog` (D1).
- **Prometheus/Grafana/TSDB/дашборд** — отвергнуто: прямой запрет C-3 (тонкий стек, хост впритык).
- **Sidecar — единственный владелец диска (внутренний `disk_watchdog` выключить)** — отвергнуто:
потеря покрытия диска, когда сам sidecar/хост-Docker недоступен; `disk_watchdog` дешёв и уже в
проде. Выбрана связка «disk_watchdog primary + sidecar opt-in ceiling» (D6).
- **Sidecar дублирует диск на 85% с дедупом по времени** — отвергнуто: хрупкая координация двух
каналов на одном событии; структурное «один владелец на порог» надёжнее (D6).
- **Push метрик из орка в sidecar** — отвергнуто: при зависшем орке push не уходит; pull-опрос
падает = **сам сигнал** `orch_down` (C-1).
- **bridge-сеть + `host.docker.internal`** — отвергнуто: на Linux ненадёжно; `network_mode: host`
проще и достигает и `/metrics`, и хост-интерфейсов (D2).
- **Своя БД/файл состояния порогов** — отвергнуто: тонкий стек (C-3); in-memory best-effort
достаточно (рестарт → корректный повторный алерт стоящей проблемы), как `disk_watchdog` (D4).
## Последствия
- **+** Появляется внешний мозг мониторинга, переживающий падение орка — закрыт корневой пробел
«in-process стражи лягут вместе с орком»; `orch_down` делает наблюдателя **громче** в инцидент.
- **+** Строго read-only к наблюдаемому (docker.sock `:ro` + GET-only, нет записи в БД/диск/`main`,
нет start/stop/restart/exec) + независимый канал ⇒ self-hosting-безопасно (enduro-trails не
затронут); падение sidecar не влияет на конвейер (NFR-1/4, AC-6).
- **+** Аддитивно и обратимо: новая папка `watchdog/`, новый сервис compose, новые `WATCHDOG_*` env.
`src/**`/`STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/схема БД орка — байт-в-байт. Kill-switch →
нулевая регрессия.
- **+** Дубль диск-алерта исключён структурно (D6): один владелец на порог; резерв канала — opt-in.
- **** Новый рантайм-контейнер на впритык-хосте: бюджет памяти `mem_limit: 128m` (D2) + измерение
фактического RSS на staging — обязательны (10-tech-risks TR-4).
- **** C-2: падёт весь хост/Docker → молчит и sidecar (принятый заказчиком риск; внешнее плечо L2
отложено).
- **** Новая поверхность совместимости `/metrics`↔F1b — митигируется толерантным парсингом (D9) +
единым репо контракта (adr-0030). CPU-liveness Linux-специфичен (`/proc`); не-Linux → сигнал
`agent_hung` деградирует в none, не ошибка.
- **Топология:** меняется (новый контейнер) → см. `07-infra-requirements.md` (разовое действие:
добавить сервис в compose, создать bot/chat watchdog, смонтировать docker.sock `:ro` + хост-пути,
первый запуск). **Схема БД:** не меняется → `08-data-requirements.md` = N/A.
- **Эскалация:** новый компонент наблюдаемости + новый рантайм-контейнер + новый алерт-канал → лейбл
**`arch:major-change`** (консервативно, хоть изменение аддитивно/read-only/обратимо). Прод-выкат —
строго через staging-гейт (8501); деплой sidecar НЕ рестартит прод-контейнер `orchestrator`.
- **Откат:** не запускать сервис / `WATCHDOG_ENABLED=false` (мгновенный); удаление папки `watchdog/`
+ сервиса из compose + `WATCHDOG_*` env — полный откат без следов (нет БД/схемы/изменений `src`).
## Ссылки
- BRD: `docs/work-items/ORCH-100/01-brd.md`
- TRZ: `docs/work-items/ORCH-100/02-trz.md`
- Acceptance: `docs/work-items/ORCH-100/03-acceptance-criteria.md`
- Инфра-требования: `docs/work-items/ORCH-100/07-infra-requirements.md`
- Данные: `docs/work-items/ORCH-100/08-data-requirements.md` (N/A)
- Тех-риски: `docs/work-items/ORCH-100/10-tech-risks.md`
- Сквозной ADR: `docs/architecture/adr/adr-0033-sidecar-watchdog.md`
- Сверено по коду: `src/disk_watchdog.py` (`decide_action`/`PathAlertState`/трёхуровневый never-raise
— эталон D4/D8), `docker-compose.yml` (`network_mode: host`, `docker.sock` mount — база D2),
`src/metrics.py`/adr-0030 (контракт `/metrics`, `cpu_ticks`/`clk_tck`/`generated_at` — D5/D9).
- Связанные ADR: adr-0030 (F1a `/metrics` — источник сырья, парный контракт), adr-0024
(`disk_watchdog` — образец решающей функции/never-raise/владелец диск-алерта), adr-0025
(build-cache-pruner — «вторая половина» паттерн), adr-0017 (serial_gate — leaf never-raise),
adr-0011 (job-reaper — pid/liveness-семантика).
</content>
</invoke>

View File

@@ -0,0 +1,93 @@
---
work_item: ORCH-100
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 07 — Инфра-требования: ORCH-100 — FND/F1b: sidecar-watchdog
Work Item: **ORCH-100** · Repo: **orchestrator** · Стадия: architecture
> When-applicable: топология **меняется** (новый рантайм-контейнер). Разовое инфра-действие выполняет
> человек (Слава/Стрим) на хосте mva154; дальше код `watchdog/` катится через конвейер (self-hosting).
## I-1. Топология / окружения
Новый сервис `orchestrator-watchdog` в `docker-compose.yml`**отдельный контейнер** рядом с
`orchestrator` (8500) и `orchestrator-staging` (8501, profile staging).
- **Образ:** `build: ./watchdog` (`watchdog/Dockerfile`, `python:3.12-slim`, stdlib-only).
- **Сеть:** `network_mode: host` — достаёт `/metrics` орка как `http://127.0.0.1:8500/metrics` и
хост-интерфейсы (ADR-001 D2).
- **Тома (все read-only к наблюдаемому, NFR-4):**
- `/var/run/docker.sock:/var/run/docker.sock:ro` — статусы контейнеров (GET-only).
- `/home/slin/repos:/repos:ro` и `./data:/app/data:ro` (или эквивалент) — дисковые метрики хоста
через `shutil.disk_usage` (те же пути, что у `disk_watchdog`).
- **Лимиты:** `mem_limit: 128m` + `mem_reservation: 32m` (тонкость измерима/принудительна, NFR-2);
`restart: unless-stopped` (самовосстановление, FR-1).
- **Kill-switch:** `WATCHDOG_ENABLED` (env). `false` → демон инертен (idle-loop, не exit — чтобы
`restart` не крутил петлю), нулевой эффект на орк.
- **Контейнеры под наблюдением (BR-4):** минимум `orchestrator`; список `WATCHDOG_CONTAINERS` (CSV).
- **Образец сервиса (ориентир для developer; точные пути сверить с актуальным `docker-compose.yml`):**
```yaml
orchestrator-watchdog:
build: ./watchdog
container_name: orchestrator-watchdog
restart: unless-stopped
network_mode: host
mem_limit: 128m
mem_reservation: 32m
volumes:
- /var/run/docker.sock:/var/run/docker.sock:ro
- /home/slin/repos:/repos:ro
- ./data:/app/data:ro
env_file: .env.watchdog # ЛИБО общий .env с префиксом WATCHDOG_ (деталь — developer/оператор)
group_add: ["999"] # docker-группа для чтения docker.sock (как у орка)
```
## I-2. Переменные окружения / секреты
Канон (без секретов) — в `.env.example` (TRZ §2). Префикс `WATCHDOG_` (изоляция от `ORCH_`):
- **Секреты (только на хосте, в гит НЕ коммитятся):** `WATCHDOG_TG_BOT_TOKEN`, `WATCHDOG_TG_CHAT_ID`
— **собственные** bot/chat sidecar, независимые от Telegram орка (BR-8). Отсутствие → sidecar
логирует и не шлёт (fail-safe), но не падает.
- **Управление:** `WATCHDOG_ENABLED` (kill-switch), `WATCHDOG_INTERVAL_S` (дефолт 60),
`WATCHDOG_ORCH_METRICS_URL` (дефолт `http://127.0.0.1:8500/metrics`).
- **Пороги/таймауты (дефолты — ADR-001 D5):** `WATCHDOG_ORCH_DOWN_TICKS=3`, `WATCHDOG_MEM_PCT=90`,
`WATCHDOG_DISK_CRIT_ENABLED=false`, `WATCHDOG_DISK_CRIT_PCT=97`, `WATCHDOG_AGENT_HUNG_MIN=20`,
`WATCHDOG_AGENT_CPU_FLOOR=0.01`, `WATCHDOG_STAGE_STUCK_MIN=120`, `WATCHDOG_QUEUE_DEPTH=20`,
`WATCHDOG_COOLDOWN_S` (анти-спам realert), `WATCHDOG_HTTP_TIMEOUT_S`.
- **Цели:** `WATCHDOG_CONTAINERS` (CSV, дефолт `orchestrator`), `WATCHDOG_DEP_PLANE_URL`/
`WATCHDOG_DEP_GITEA_URL`/`WATCHDOG_DEP_ANTHROPIC_URL` (health/ping).
> Анти-дубль диск-алерта (ADR-001 D6): штатный 85%-алерт остаётся за внутренним `disk_watchdog`
> (ORCH-063). `WATCHDOG_DISK_CRIT_ENABLED` по умолчанию `false` — sidecar НЕ дублирует диск, пока
> оператор осознанно не включит независимый критический потолок.
## I-3. Деплой / рестарт
- **Разовое действие человеком на хосте (Слава/Стрим):**
1. Создать **отдельного** Telegram-бота watchdog + получить chat-id; положить `WATCHDOG_TG_*` в
`.env.watchdog` (или `.env`) на хосте.
2. Заполнить пороги/интервалы (дефолты годятся), включить `WATCHDOG_ENABLED=true`.
3. Добавить сервис в `docker-compose.yml` (приходит с PR) и поднять **только его:**
`docker compose up -d --build orchestrator-watchdog`.
- **Self-hosting инвариант (критично):** поднятие/пересборка `orchestrator-watchdog` **НЕ** трогает
прод-контейнер `orchestrator` (отдельный сервис) — конвейер всех проектов не прерывается. **НЕ**
выполнять `docker compose up -d` без явного имени сервиса, если это спровоцирует рекреейт орка.
- **Прод-выкат кода watchdog** — через штатный self-hosting-конвейер и **обязательный staging-гейт
(8501)** перед прод-деплоем; деплой sidecar не рестартит прод-контейнер орка.
- **Проверка после старта (NFR-7):** `docker logs orchestrator-watchdog` показывает старт + тики;
тестовый алерт приходит в канал watchdog; остановка орка (на staging) → приходит `orch_down`.
## I-4. CI/CD
- Без изменений `.gitea/workflows/` по существу: новые тесты sidecar (`watchdog/tests/` или
`tests/watchdog/`) подхватываются существующим `pytest tests/`/прогоном (изолированы, чистые
функции — без контейнера/таймера). Если выбран отдельный путь `watchdog/tests/`, developer
обеспечивает его включение в существующий тест-ран (без нового workflow-файла).
- Docker-сборка нового образа — стандартным `docker compose build` (отдельный `watchdog/Dockerfile`),
без правок пайплайна CI.
</content>

View File

@@ -0,0 +1,40 @@
---
work_item: ORCH-100
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 08 — Требования к данным: ORCH-100 — FND/F1b: sidecar-watchdog
Work Item: **ORCH-100** · Repo: **orchestrator** · Стадия: architecture
> When-applicable. Создан для аудитопригодности: фиксирует, что схема БД **не меняется** — это
> архитектурное утверждение (sidecar вне процесса орка, без своей БД), а не пропуск.
## Изменения схемы БД орка
**N/A.** Sidecar **не пишет** в БД орка (NFR-4: строго read-only к наблюдаемому — нет
`INSERT/UPDATE/DELETE/CREATE/ALTER`) и **не читает** её напрямую: всё орк-сырьё идёт через
`GET /metrics` (F1a, adr-0030). `tasks`/`jobs`/`agent_runs`/`STAGE_TRANSITIONS`/`QG_CHECKS`
не тронуты.
## Собственное хранилище sidecar
**Нет (по решению C-3 / ADR-001 D4).** Состояние порогов (`AlertState`: `alerting`/`last_alert_at`
per signal_key) — **in-memory best-effort** в процессе демона: ни таблицы, ни файла, ни миграции.
Рестарт sidecar сбрасывает карту состояний → ещё стоящая проблема корректно повторно алертится один
раз (ранний сигнал, не SLA) — 1:1 семантика `disk_watchdog.PathAlertState` (ORCH-063).
## Журнал уроков (F2)
**Вне объёма.** Долговременное хранение инцидентов/уроков (потенциально БД орка) — отдельная задача
домена F2; F1b ничего не персистит (BRD §«Вне объёма»).
## Вывод
Изменений данных/схемы нет. Контракт данных F1b — **потребление** версионированного JSON `/metrics`
(adr-0030) + эфемерное in-memory состояние порогов. Откат не оставляет следов в БД.
</content>

View File

@@ -0,0 +1,44 @@
---
work_item: ORCH-100
stage: architecture
author_agent: architect
status: proposed
created_at: 2026-06-10
model_used: claude-opus-4-8
---
# 10 — Технические риски: ORCH-100 — FND/F1b: sidecar-watchdog
Work Item: **ORCH-100** · Repo: **orchestrator** · Стадия: architecture
> Информационный (гейтом не парсится). Реестр рисков реализации F1b и митигейшн.
## Реестр рисков
| ID | Риск | Вер. | Влия. | Митигейшн |
|----|------|------|-------|-----------|
| TR-1 | **Дубль диск-алерта** с `disk_watchdog` (ORCH-063) на одно событие переполнения. | Сред. | Низ. | ADR-001 D6: 85% остаётся ЕДИНСТВЕННО за `disk_watchdog` (канал орка); sidecar НЕ дублирует порог — `host_disk_crit` opt-in (default off) и на другом пороге-потолке (97%, другой канал = другое событие). Структурно один владелец на порог. |
| TR-2 | **Ложный `orch_down`** на одиночной сетевой икоте `/metrics` (флапп). | Сред. | Сред. | Порог `WATCHDOG_ORCH_DOWN_TICKS` (K подряд неудачных опросов, дефолт 3) + cooldown/recovery decide() (FR-3). Единичный transient → none. |
| TR-3 | **Sidecar толстеет** (память на впритык-хосте, 171Mi free) и сам становится проблемой. | Низ. | Сред. | Stdlib-only Python, один поток (D1); `mem_limit: 128m` + `mem_reservation: 32m` принудительно (D2); **обязательный замер фактического RSS на staging** перед прод-выкатом; OOM = ранний сигнал, не тихий рост. |
| TR-4 | **Привилегии docker.sock** — доступ к Docker API = потенциально мощно. | Низ. | Выс. | Mount `:ro` (NFR-4) + код делает ТОЛЬКО GET (list/inspect), без `docker` SDK — мутаций нет по построению; ревью + статпроверка (AC-6/TC-09). |
| TR-5 | **Дрейф контракта `/metrics`** (F1a расширили/сломали) роняет/искажает sidecar. | Низ. | Сред. | Толерантный парсинг (D9): неизвестные ключи игнор, отсутствие опционального не ошибка, рост `schema_version` → warning не крэш; единый репо контракта (adr-0030); ломающее изменение `/metrics` — отдельная задача-расширение F1a, не F1b. |
| TR-6 | **Шум алертов** (флапп на границе порога agent_hung/stage_stuck/mem). | Сред. | Низ. | Чистая decide() с cooldown/realert/recovery (D4, образец disk_watchdog); пороги/cooldown из env (тюнинг без релиза); `agent_hung` требует 2 опросов + CPU-floor (не дёргается на коротких паузах). |
| TR-7 | **Self-hosting: деплой sidecar задел прод-контейнер** `orchestrator`. | Низ. | Выс. | Отдельный сервис; `docker compose up -d orchestrator-watchdog` поднимает только его (07 I-3); прод-выкат через staging-гейт (8501); деплой sidecar не рестартит орк. |
| TR-8 | **`network_mode: host`** у sidecar — разделяет сетевой namespace хоста. | Низ. | Низ. | Sidecar read-only, не слушает входящих портов (опц. liveness вне обязательного объёма); host-network нужен для достижимости `/metrics` и хост-интерфейсов (D2); поверхность минимальна. |
| TR-9 | **Утечка/отсутствие** `WATCHDOG_TG_*` (свой бот) → алерты не доходят/секрет в гит. | Низ. | Сред. | Секреты только в `.env*` на хосте, канон без значений в `.env.example` (правило 8); отсутствие токена → fail-safe (лог, не падение, не шлёт); префикс `WATCHDOG_` изолирует от `ORCH_`. |
| TR-10 | **C-2: падёт весь хост/Docker** → молчит и sidecar (нет внешнего плеча). | Низ. | Выс. | Принятый заказчиком риск (одна площадка); внешнее плечо L2 сознательно отложено (BRD §«Вне объёма»). Документируется, не закрывается в F1b. |
## Сводный вывод
Доминирующий класс — **операционно-инфраструктурный** (привилегии docker.sock, память впритык,
self-hosting-безопасность), а не алгоритмический: ядро (decide/парсинг) — чистые тестируемые функции,
перенос зрелого паттерна `disk_watchdog`. Все мутирующие пути закрыты по построению (read-only mount +
GET-only, нет записи в БД/`main`), независимый алерт-канал и kill-switch дают полную обратимость.
Остаточный риск для прод-конвейера (enduro-trails и пр.) — **near-zero**: F1b физически вне процесса
орка и вне конвейера QG, при выключенном флаге — нулевой эффект.
**Эскалация:** новый компонент наблюдаемости + новый рантайм-контейнер + новый алерт-канал → лейбл
**`arch:major-change`** (консервативно). Возврат в анализ **не требуется**ТЗ выполнимо в рамках
принципов (всё в Docker на одном сервере, тонкий стек, минимум зависимостей). Обязательное
предусловие приёмки developer/tester: **замер фактического RSS sidecar на staging** (TR-3).
</content>

View File

@@ -0,0 +1,138 @@
---
verdict: APPROVED
work_item: ORCH-100
stage: review
author_agent: reviewer
status: approved
created_at: 2026-06-10
model_used: claude-opus-4-8
type: review
work_item_id: ORCH-100
version: 2
---
# Review ORCH-100 — FND/F1b: sidecar-watchdog (re-review)
## Summary
Аддитивная реализация sidecar-наблюдателя в отдельном контейнере `orchestrator-watchdog`
(папка `watchdog/`, тонкий Python-3.12-stdlib-only демон). Это **повторное ревью** после цикла
`testing → development`: предыдущий прогон тестера дал `result: FAIL` из-за единственного красного
теста `tests/test_queue.py::TestRetry::test_finalize_job_requeue_then_fail`; развработчик закрыл
причину тест-only фиксом (коммит `2040de3` — autouse-фикстура `_isolate_runs_dir` в
`tests/conftest.py`, **без правок `src/**`**).
Проверено по 4 осям. Реализация **точно** соответствует ТЗ (FR-1…FR-11) и ADR-001 (D1…D9):
отдельный контейнер, толерантный парсинг `/metrics` (D9), debounce `orch_down` (FR-3, порог
`orch_down_ticks`), read-only `docker.sock` (`_get` хардкодит `GET` — read-only **по построению** +
mount `:ro`), обобщённая чистая `decide` (D4, 1:1 семантика `disk_watchdog`), независимый
Telegram-канал (свои токены, ноль импортов `src/**`), структурный анти-дубль диск-алерта (D6,
opt-in потолок), трёхуровневый never-raise (per-source/per-tick/per-send), kill-switch (idle-loop,
не exit).
**Корневой инвариант соблюдён:** PR не трогает `src/**` ни одной строкой за всю ветку, включая
fix-коммит (`git diff origin/main...HEAD --stat -- 'src/**'` → пусто) ⇒ `STAGE_TRANSITIONS` /
`QG_CHECKS` / `check_*` / machine-verdict ключи / схема БД орка — байт-в-байт прежние.
**Блокер тестирования снят.** Полный регресс `pytest tests/` теперь **зелёный (1617 passed)`**,
профильная сюита `tests/watchdog/`**66/66 PASS**. Документация обновлена исчерпывающе.
**Вердикт: APPROVED.** P0/P1 нет. Ниже — анализ снятого блокера и P2/P3-замечания (не блокируют).
## Findings
### P0 — Blocker
- (нет)
### P1 — Must fix
- (нет)
### P2 — Should fix
- [ ] **ADR-001 D3: docstring-блок структуры `host.py` упоминает «CPU (loadavg)», которого в
реализации нет.** ADR D3 (строка с `host.py # ... / CPU (loadavg)`) перечисляет CPU/inode среди
host-метрик, но реестр сигналов D5 сознательно сузил host до `host_mem` + opt-in `host_disk_crit`,
а host-CPU/«завис» покрыт через `agent_hung` из `/metrics`. Сам `watchdog/collectors/host.py`
внутренне консистентен (его docstring явно пишет «CPU ... computed from the /metrics envelope, not
here»), inode FR-4 оговорён как «где доступно» — это документированное сужение на стадии
архитектуры, **не нарушение ТЗ**. Замечание косметическое: привести строку D3 в соответствие с D5
(снять «CPU (loadavg)»/inode из блока структуры). Источник: `ADR-001` D3/D5, `02-trz.md` FR-4.
### P3 — Nice-to-have
- [ ] **CLAUDE.md не обновлён.** Паспорт проекта не получил TL;DR-запись о F1b. Прецедент: парная
задача F1a (ORCH-099) также отсутствует в CLAUDE.md (`grep` → 0) — семейство наблюдаемости в
паспорте не трекается, а золотой архитектурный док (`docs/architecture/README.md`) покрывает F1b
исчерпывающе. Опционально для единообразия с операционными демонами (`disk_watchdog`/`reaper`).
- [ ] **`DockerSockReader.list_containers` не вызывается** в `core.tick` (используется только
`inspect(name)` по `cfg.containers`). Публичный read-метод оставлен для полноты API/тестов
(`test_docker_readonly.py`) — безвреден; при желании пометить как explicit-API.
## Анализ снятого блокера (testing FAIL → development fix)
- **Причина прежнего FAIL:** `test_finalize_job_requeue_then_fail` (run_id=1/2) читал хвост
`<settings.runs_dir>/<run_id>.log`. Дефолтный `runs_dir` указывал на прод-каталог
`/app/data/runs`, где на self-hosting-хосте лежат реальные накопленные `*.log`; реальный `2.log`
с токеном «429» переключал классификацию `permanent → transient` (requeue вместо `failed`). Это
**ambient prod-pollution окружения, не дефект кода** — сам тест байт-в-байт идентичен
`origin/main`, а `src/**` ORCH-100 не трогает.
- **Фикс (коммит `2040de3`):** autouse-фикстура `_isolate_runs_dir` редиректит `settings.runs_dir`
на per-test `tmp_path``_run_log_path()` резолвится в несуществующий файл ⇒
`classify_log_file()` возвращает документированный дефолт `permanent` ⇒ детерминированный,
не зависящий от окружения результат для всей сюиты. Зеркалит существующие autouse-фикстуры
`_no_telegram`/`_disable_merge_verify`/`_reset_webhook_secrets`.
- **Это НЕ «подгонка теста под код»:** тело теста не изменено; добавлена только изоляция окружения
(test-infra). Фикс улучшает гигиену всей сюиты и устраняет скрытую env-зависимость. Прежний
диагноз тестера («реальное красное, ловящее расхождение requeue→finalize в launcher») оказался
ошибочным — корень был в загрязнении прод-логами; артефакт тестера (`13-test-report.md`) не правлю
(чужая стадия), фиксирую факт здесь.
- **Верификация (независимо):** `git diff origin/main...HEAD --stat -- 'src/**'` → пусто (включая
fix-коммит); изолированный прогон `test_finalize_job_requeue_then_fail`**1 passed**; полный
`pytest tests/`**1617 passed**; `tests/watchdog/`**66 passed**.
- **Багфикс-трек (ORCH-019 BR-4):** задача — `feat`/FND (не `Bug`) ⇒ требование
регресс-теста-фиксатора не применяется. Фикс окружения, тем не менее, детерминирует поведение
всей сюиты.
## Документация
**Обновлена исчерпывающе — golden source синхронизирован с кодом:**
-`docs/architecture/README.md` — новая компонентная строка (Sidecar-watchdog F1b) + полная
секция дизайна F1b + перекрёстная ссылка из секции F1a.
-`CHANGELOG.md` — детальная запись F1b (стек D1 / топология D2 / decide D4 / реестр сигналов D5 /
анти-дубль D6 / транспорт D7 / never-raise D8) **+** отдельная строка fix-коммита `2040de3`
(`_isolate_runs_dir`).
-`docs/work-items/ORCH-100/06-adr/ADR-001-sidecar-watchdog.md` + сквозной
`docs/architecture/adr/adr-0033-sidecar-watchdog.md` (оба с корректным frontmatter).
-`docs/work-items/ORCH-100/07-infra-requirements.md` — разовое инфра-предусловие (сервис в
compose, bot/chat watchdog, `.env.watchdog`, первый запуск).
-`.env.example` — канон всех `WATCHDOG_*` ключей, **без реальных секретов** (`TG_BOT_TOKEN`/
`TG_CHAT_ID` пустые).
- ⚠️ **CLAUDE.md** — не обновлён (P3, прецедент F1a — допустимо).
-**README «Известные ограничения» (ось ORCH-079):** F1b — новая способность (внешний
наблюдатель); **ни один** из 3 открытых пунктов витрины (Telegram-48h / intra-repo task-deps /
пакетный автоном Этап 1) не закрывается этим PR ⇒ обновления обзорной витрины не требуется.
**`src/**` НЕ изменён ⇒ P0 «src изменён, документация не обновлена» не активируется**; документация
при этом обновлена сверх минимума.
## Проверки инвариантов (явно)
- `git diff origin/main...HEAD --stat -- 'src/**'`**пусто** за всю ветку, включая fix-коммит
(STAGE_TRANSITIONS / QG_CHECKS / check_* / схема БД — байт-в-байт).
- `docker.sock` смонтирован `:ro` (compose) И код GET-only по построению (`_get` хардкодит `GET`,
ни одного мутирующего метода/`POST`/start/stop/restart/exec) — двойная гарантия read-only (AC-6).
- Нет импорта `src/**` из `watchdog/**` (`grep` → пусто; C-1 / BR-8) — независимый Telegram-транспорт
со своими токенами; падение орка не утянет алерт-канал.
- never-raise: per-source (коллекторы `_collect_*`), per-tick (`__main__.run` + `core._dispatch`),
per-send (`notify`/`_send`) — все три уровня присутствуют (TC-06).
- kill-switch `WATCHDOG_ENABLED=false` → idle-loop (НЕ exit) — restart-policy не крутит петлю (TC-07).
- `mem_limit: 128m` + `mem_reservation: 32m`; stdlib-only (нет requirements/pip-дерева) — тонкость
C-3 соблюдена; compose-сервис изолирован (деплой watchdog НЕ пересобирает/рестартит `orchestrator`).
- Анти-дубль диска (D6/AC-5): `host_disk_crit` opt-in (`disk_crit_enabled=False` по умолчанию) на
более высоком потолке (97%) — структурно один владелец 85%-события (`disk_watchdog`/ORCH-063).
## Escalation
- Нет открытых эскалаций. Прежняя эскалация ревью v1 / тест-репорта (pre-existing красный тест) —
**закрыта** fix-коммитом `2040de3` (test-only изоляция окружения, `src/**` не тронут). Полный
регресс `pytest tests/` зелёный (1617 passed) ⇒ downstream merge-gate re-test (ORCH-043) по этой
причине более не упрётся. Отдельная баг-задача на `test_finalize_job_requeue_then_fail` **не
требуется**: корнем было загрязнение прод-логами, а не дефект `src/**`.

View File

@@ -0,0 +1,107 @@
---
result: PASS # PASS | FAIL — машинный вердикт, UPPERCASE
work_item: ORCH-100
stage: testing
author_agent: tester
status: pass
created_at: 2026-06-10
model_used: claude-opus-4-8
type: test-report
work_item_id: ORCH-100
---
# Test Report — ORCH-100 — FND/F1b: sidecar-watchdog (re-test)
> Повторный прогон после цикла `testing → development → review`. Прежний блокер прошлого прогона
> (`tests/test_queue.py::TestRetry::test_finalize_job_requeue_then_fail`) снят fix-коммитом
> `2040de3` (test-only autouse-фикстура `_isolate_runs_dir` в `tests/conftest.py`, изолирующая
> `settings.runs_dir` от ambient prod-log pollution; `src/**` не тронут). Полный регресс снова зелёный.
## Окружение
- Python: 3.12.13
- pytest: 8.3.3 (plugins: cov-5.0.0, anyio-4.13.0, asyncio-0.23.8)
- Дата: 2026-06-10
- Worktree: `/repos/_wt/orchestrator/feature_ORCH-100-fnd-f1b-sidecar-watchdog`
(ветка `feature/ORCH-100-fnd-f1b-sidecar-watchdog`, HEAD `a153c8e`, fix `2040de3` в истории) —
тесты прогнаны из рабочего дерева именно этой задачи, НЕ из общего `/repos/orchestrator`.
## Smoke API (read-only)
| Эндпоинт | Результат |
|----------|-----------|
| `GET /health` | OK — `{"status":"ok","service":"orchestrator"}` |
| `GET /status` | OK — валидный JSON, активный набор задач отдан |
| `GET /queue` | OK — блоки `serial_gate` (ORCH-088) **И** `auto_labels` (ORCH-089) присутствуют в полезной нагрузке (анти-регресс смока соблюдён) |
Smoke зелёный, прод-контейнер не трогался (только чтение).
## Результаты
### Профильная сюита F1b — `tests/watchdog/`
**66 passed** (0 failed) — собственно поставка F1b: решающая функция, парсинг `/metrics`, детект
orchestrator-down, never-raise, read-only docker, изолированный транспорт, kill-switch,
compose-инвариант, анти-дубль диск-алерта.
### Полный регресс орка — `pytest tests/`
**1617 passed** (0 failed, 1 warning — pre-existing Pydantic V2 deprecation в `src/config.py:8`,
не относится к ORCH-100). `src/**` не изменён за всю ветку (`git diff origin/main...HEAD -- 'src/**'`
→ пусто) ⇒ контракт `/metrics` (ORCH-099), `STAGE_TRANSITIONS`/`QG_CHECKS`/`check_*`/схема БД — целы.
## Сопоставление с тест-планом (`04-test-plan.yaml`)
| TC ID | Описание | Тест-функция / модуль | Покрытый AC | Результат |
|-------|----------|------------------------|-------------|-----------|
| TC-01 | not-alerting & ≥threshold → ALERT (один на пересечение) | `test_decision.py::test_tc01_*` (active + inactive→none) | AC-2 | PASS |
| TC-02 | alerting & cooldown НЕ истёк → NONE (throttle) | `test_decision.py::test_tc02_alerting_active_in_cooldown_is_none` | AC-2 | PASS |
| TC-03 | alerting & cooldown истёк → REALERT | `test_decision.py::test_tc03_*` (elapsed + no_last_alert) | AC-2 | PASS |
| TC-04 | alerting & вернулось ниже порога → RECOVERY | `test_decision.py::test_tc04_alerting_recovers_when_inactive` | AC-2 | PASS |
| TC-05 | детект orchestrator-down (timeout/refused/5xx/нечит. тело) → ALERT + debounce | `test_orch_down.py` (7 тестов) | AC-2/AC-3 | PASS |
| TC-06 | never-raise per-source/per-tick/per-send | `test_never_raise.py` (3 теста) | AC-3 | PASS |
| TC-07 | kill-switch инертен; пороги/интервалы/таймауты из env (не хардкод) | `test_config_killswitch.py` (4 теста) | AC-4 | PASS |
| TC-08 | интеграция: полный тик при down орке (1 алерт + throttle + recovery; всё ломается — тик не падает) | `test_tick_orch_down_integration.py` (2 теста) | AC-2/AC-3 | PASS |
| TC-09 | self-hosting safety: docker GET-only, без start/stop/restart/exec | `test_docker_readonly.py` (5 тестов) | AC-6 | PASS |
| TC-10 | независимый транспорт: свои токен/chat, без импорта `src/notifications.py`/`src` | `test_notify_isolation.py` (6 тестов) | AC-2/AC-6 | PASS |
| TC-11 | толерантность `/metrics`: неизвестное поле игнор, опц. отсутствие ок, рост schema_version → warning | `test_metrics_parse.py` (10 тестов) | AC-1 | PASS |
| TC-12 | compose-инвариант: отдельный сервис `orchestrator-watchdog`, build `watchdog/`, restart, mem_limit, docker.sock `:ro` | `test_compose_service.py` (7 тестов) | AC-1/AC-4/AC-6 | PASS |
| TC-13 | анти-дубль диск-алерта (согласовано с ORCH-063) | `test_disk_alert_dedup.py` (3 теста) | AC-5 | PASS |
| TC-14 | регресс орка: полный `pytest tests/` зелёный; `src/**` не изменён; `/metrics`-контракт цел | `tests/` (1617 passed) | AC-7 | PASS |
**Покрытие:** все 14 TC из `04-test-plan.yaml` выполнены, сопоставлены с AC-1…AC-7
(`03-acceptance-criteria.md`) и зелёные.
## Сопоставление с критериями приёмки (`03-acceptance-criteria.md`)
| AC | Покрытие | Результат |
|----|----------|-----------|
| AC-1 — sidecar отдельным контейнером собирает 4 источника | TC-11/12 + коллекторы host/deps/docker/metrics | PASS |
| AC-2 — пороговый алерт: один на пересечение + throttle + recovery + орк-down | TC-01…TC-05/08/10 | PASS |
| AC-3 — изоляция: падение орка не роняет sidecar | TC-05/06/08 | PASS |
| AC-4 — тонкость, kill-switch, конфиг-пороги | TC-07/12 | PASS |
| AC-5 — анти-дубль диск-алерта (ORCH-063) | TC-13 | PASS |
| AC-6 — self-hosting safety (только чтение/алерт) | TC-09/10/12 | PASS |
| AC-7 — инфра-доки + `pytest` зелёный + docs/CHANGELOG | `07-infra-requirements.md` ✅, CHANGELOG ✅, доки ✅, полный `pytest tests/` 1617 passed ✅ | PASS |
## Вывод pytest
### Полный регресс (`pytest tests/ -q`)
```
........................................................................ [100%]
1617 passed, 1 warning in 65.33s (0:01:05)
```
### Профильная сюита (`pytest tests/watchdog/ -v`)
```
collected 66 items
... (все 66 PASSED) ...
======================== 66 passed, 1 warning in 0.57s =========================
```
## Эскалация
Нет открытых эскалаций. Прежний pre-existing красный тест (`test_finalize_job_requeue_then_fail`)
снят fix-коммитом `2040de3` (изоляция `settings.runs_dir`, test-only, `src/**` не тронут) и
независимо подтверждён зелёным в этом прогоне. Отдельная баг-задача более не требуется.
## Итог
**PASS** — полный регресс `pytest tests/` зелёный (1617 passed), профильная сюита sidecar-watchdog
66/66 PASS, smoke API (`/health`/`/status`/`/queue` с блоками `serial_gate` + `auto_labels`) read-only
прошёл без регресса. Каждый TC (TC-01…TC-14) выполнен и сопоставлен с AC-1…AC-7. Блокеров нет.
Задача готова к переходу на `deploy-staging`.

View File

@@ -0,0 +1,12 @@
---
deploy_status: SUCCESS
work_item: ORCH-100
hook_exit_code: 0
deployed_by: deploy-finalizer
---
# Deploy log — ORCH-036 executable self-deploy
Прод-деплой завершён хост-хуком с exit-code `0` -> `deploy_status: SUCCESS`.
Вердикт зафиксирован детерминированным finalizer'ом (Фаза C), не LLM.

View File

@@ -0,0 +1,36 @@
---
staging_status: SUCCESS
work_item: ORCH-100
stage: deploy-staging
author_agent: deployer
status: success
created_at: 2026-06-10
model_used: claude-opus-4-8
timestamp: 2026-06-10T06:33:59Z
base_url: http://localhost:8501
---
# Staging Gate Log
Staging test suite completed against the live `orchestrator-staging` stand (8501). Canonical
run **inside** the container (process-env `.env.staging`, so B6 registry-isolation is authoritative).
Exit code **0** → advance.
All REAL pipeline checks passed; the two sandbox-infra checks (C9a/C9b) failed and were waived
per ORCH-061 (SANDBOX bot accounts are not members of the sandbox Plane project — not a pipeline
regression). Trusting the exit code; not re-judging waived checks.
INFRA-WAIVED: C9a Branch appears in orchestrator-sandbox, C9b Analyst job enqueued in staging queue (known sandbox-infra; real checks green)
VERDICT: SUCCESS (exit 0) — SUCCESS (infra-waived): ['C9a Branch appears in orchestrator-sandbox', 'C9b Analyst job enqueued in staging queue'] are known sandbox-infra checks; all real checks green
## Results (8/10 PASS; 2 SANDBOX_INFRA waived)
- **Block A (SMOKE)**: A1 `/health` 200 ok · A2 `/queue` 200 (counts/max_concurrency/resilience) · A3 `ORCH_STAGING=true`. All PASS.
- **Block B (ACCESS)**: B4 Plane sandbox accessible (sandbox=YES) · B5 Gitea orchestrator-sandbox push=true · B6 registry isolation (sandbox=YES, prod-ET=NO, prod-ORCH=NO). All PASS.
- **Block C (E2E, mode=stub)**: C7 create issue in Plane SANDBOX PASS · C8 trigger pipeline `/webhook/plane` PASS · C9a branch-in-sandbox FAIL (waived) · C9b analyst-job-enqueued FAIL (waived). CLEANUP: Plane issue deleted (HTTP 204); no branch to delete.
REAL failed: none.
> Note: docker CLI is not installed on the host PATH; the canonical container run was performed via
> the Docker Engine API over `/var/run/docker.sock` (exec inside `orchestrator-staging`), which is
> functionally identical to `docker exec` — the script still ran with the container's `.env.staging`
> process-env, keeping B6 authoritative.

View File

@@ -1016,6 +1016,20 @@ class AgentLauncher:
)
self._notify_failed(job_id, agent, job, run_id,
f"transient (rate-limit) after {tattempts} attempts")
# ORCH-098 (FR-3c / D3): auto-record a `transient_retry` lesson ONLY on
# budget EXHAUSTION (not on each backoff — that would be noise; the
# valuable signal is "transients exhausted"). best-effort, never-raise,
# deduped; can't escape into the queue-worker path.
try:
from ..lessons import record as record_lesson, LessonType
record_lesson(
LessonType.TRANSIENT_RETRY,
task_id=job.get("task_id"), repo=job.get("repo"), agent=agent,
root_cause=f"transient retry budget exhausted ({tattempts}/{tmax})",
detail=err, source="auto",
)
except Exception as e: # noqa: BLE001 - never break the queue worker
logger.warning(f"Job {job_id}: lessons transient_retry record failed: {e}")
def _finalize_permanent(self, job_id, agent, run_id, exit_code, job):
"""Permanent (code-fault) failure -> normal attempts<max requeue, then fail."""

166
src/bug_fast_track.py Normal file
View File

@@ -0,0 +1,166 @@
"""ORCH-019: bug-fast-track — a cheaper/shorter pipeline route for bug-fix tasks.
Leaf module — pure, unit-testable logic over the config flags + the proven Plane
label apparatus (``labels.has_label`` -> ``plane_sync``, ORCH-089). Mirrors the
leaf pattern of ``src/labels.py`` / ``src/serial_gate.py``: imports only
``config`` (and lazily ``labels`` / ``db`` / ``qg.checks``), never
``stage_engine`` / ``launcher``.
What it decides (ADR-001):
* Whether the bug-fast-track is in scope for a repo (``bug_fast_track_applies``)
— a LOCAL, network-free check evaluated FIRST.
* Whether a given Plane issue carries the ``Bug`` label (``is_bug_task``) — the
only network call, made ONLY after ``applies()`` is True, so a disabled
kill-switch costs zero network and yields zero regression (AC-6).
* Whether a task's stored track skips the ``architecture`` stage
(``skips_architecture``) — a pure predicate over the DB-stored ``track``,
read in the hot ``advance_stage`` path WITHOUT any network call (NFR-4).
never-raise contract (BR-6/AC-6, fail-safe to the FULL cycle): every public
function degrades to "full cycle" on ANY error / ambiguity / Plane
unavailability / disabled flag. There is NO fail-open here — the conservative
default is always the full pipeline (with ``architecture``), so an error can
never silently skip a stage.
"""
from __future__ import annotations
import logging
from .config import settings
logger = logging.getLogger("orchestrator.bug_fast_track")
# ---------------------------------------------------------------------------
# Scope / kill-switch (mirrors _auto_label_applies / serial_gate_applies)
# ---------------------------------------------------------------------------
def bug_fast_track_applies(repo: str) -> bool:
"""Whether the bug-fast-track is REAL for ``repo`` (ADR-001 D6 / AC-6).
* ``bug_fast_track_enabled=False`` -> always False (kill-switch; start and
routing are 1:1 as before ORCH-019, and — crucially — ``has_label`` is
never consulted, so no new network call on start, AC-6).
* ``bug_fast_track_repos`` (CSV) non-empty -> real only for the listed repos.
* empty CSV -> self-hosting only (``orchestrator``) — the safe default (the
track is first burnt in on the orchestrator itself, where the `Bug` label
is guaranteed to exist; enduro opts in via an explicit CSV entry).
Checked FIRST (local, network-free); never raises -> False on error (degrade
to "full cycle", which matches the kill-switch-off behaviour).
"""
try:
if not getattr(settings, "bug_fast_track_enabled", False):
return False
raw = (getattr(settings, "bug_fast_track_repos", "") or "").strip()
if raw:
allowed = {r.strip().lower() for r in raw.split(",") if r.strip()}
return (repo or "").strip().lower() in allowed
# Lazy import keeps this module a leaf (avoids importing qg at load).
from .qg.checks import is_self_hosting_repo
return is_self_hosting_repo(repo)
except Exception as e: # noqa: BLE001 - never-raise -> full cycle
logger.warning("bug_fast_track_applies error for %s: %s", repo, e)
return False
# ---------------------------------------------------------------------------
# Classification (the ONLY network call; ADR-001 D1)
# ---------------------------------------------------------------------------
def is_bug_task(work_item_id: str, project_id: str | None = None) -> bool:
"""True iff the issue carries the configured ``Bug`` label (Plane API source).
``bug_fast_track_applies`` is assumed already True (checked by the caller —
the gate idiom ``applies(repo) and is_bug_task(...)`` short-circuits before any
network call when the kill-switch is off). Delegates to the proven
``labels.has_label`` (fetch_issue_labels + get_project_labels, normalization,
TTL-cache, source-of-truth = Plane API, not the webhook payload).
Any error / ambiguity / Plane unavailability -> **False** (fail-safe -> full
cycle, never silently fast-track on doubt).
"""
try:
label = (getattr(settings, "bug_fast_track_label", "") or "").strip()
if not label:
return False
from . import labels
return bool(labels.has_label(work_item_id, label, project_id))
except Exception as e: # noqa: BLE001 - never-raise -> full cycle
logger.warning(
"is_bug_task error for %s -> fail-safe (full cycle): %s", work_item_id, e
)
return False
# ---------------------------------------------------------------------------
# Routing predicate (pure, DB-backed; hot path — NO network, NFR-4) — ADR-001 D3
# ---------------------------------------------------------------------------
def skips_architecture(track: str | None) -> bool:
"""Whether a task with stored ``track`` skips the ``architecture`` stage.
Pure predicate (no I/O): True iff the kill-switch is on AND ``track == 'bug'``.
Used by ``advance_stage`` on the analysis-exit edge to map
``analysis -> architecture`` to ``analysis -> development`` for a bug task.
A disabled flag -> always False (1:1 prior routing); any error -> False
(fail-safe -> full cycle).
"""
try:
if not getattr(settings, "bug_fast_track_enabled", False):
return False
return (track or "").strip().lower() == "bug"
except Exception as e: # noqa: BLE001 - never-raise -> full cycle
logger.warning("skips_architecture error for track=%r: %s", track, e)
return False
# ---------------------------------------------------------------------------
# Observability snapshot for GET /queue (ADR-001 D7)
# ---------------------------------------------------------------------------
def snapshot() -> dict:
"""Read-only bug-fast-track summary for GET /queue (additive block). never-raise.
Surfaces the flags + a savings metric derived from the existing telemetry: the
count of tasks on the bug track and the number of ``architecture`` agent runs
those tasks structurally skipped (one per bug task = ``est_saved_architecture_runs``).
Any error -> a minimal dict with the flags (never crashes the endpoint).
"""
try:
enabled = bool(getattr(settings, "bug_fast_track_enabled", False))
except Exception: # noqa: BLE001
enabled = False
try:
label = getattr(settings, "bug_fast_track_label", "Bug") or "Bug"
except Exception: # noqa: BLE001
label = "Bug"
try:
repos_cfg = getattr(settings, "bug_fast_track_repos", "") or ""
except Exception: # noqa: BLE001
repos_cfg = ""
active_bug_tasks = 0
total_bug_tasks = 0
try:
from . import db
conn = db.get_db()
try:
# ORCH-090 terminal set {done,cancelled}: "active" = not terminal.
row = conn.execute(
"SELECT "
" COUNT(*) AS total, "
" SUM(CASE WHEN stage NOT IN ('done','cancelled') THEN 1 ELSE 0 END) AS active "
"FROM tasks WHERE track = 'bug'"
).fetchone()
if row:
total_bug_tasks = int(row["total"] or 0)
active_bug_tasks = int(row["active"] or 0)
finally:
conn.close()
except Exception as e: # noqa: BLE001
logger.warning("bug_fast_track snapshot count error: %s", e)
return {
"enabled": enabled,
"label": label,
"repos": repos_cfg,
"active_bug_tasks": active_bug_tasks,
"total_bug_tasks": total_bug_tasks,
# Each bug task skips exactly one `architecture` stage (one architect agent
# run + ADR). This is the structural savings the track buys (FR-7 / AC-7).
"est_saved_architecture_runs": total_bug_tasks,
}

View File

@@ -1,7 +1,7 @@
import logging
import re
from pydantic import field_validator
from pydantic import Field, field_validator
from pydantic_settings import BaseSettings
@@ -291,6 +291,54 @@ class Settings(BaseSettings):
coverage_tool_fail_closed: bool = False
coverage_run_timeout_s: int = 900
# ORCH-098 (FND/F2): machine lessons-journal — additive `lessons` table + leaf
# src/lessons.py (never-raise observer, by образцу serial_gate/coverage_gate/
# metrics). The journal is an OBSERVER, never a Quality Gate: writing a lesson
# never influences any repo's pipeline, so — UNLIKE the gate leaves — it has NO
# `*_repos` scope (it records lessons about ANY repo, incl. enduro-trails; the
# repo cut lives on the READ side, get(repo=...)). The only regulator is a single
# global kill-switch (ADR-001 D2). See ADR-001-lessons-journal.md / adr-0033.
# lessons_enabled -> SINGLE kill-switch (env ORCH_LESSONS_ENABLED).
# False -> record/get/update/snapshot inert (no DB
# access), endpoints return {"enabled": false},
# auto-record injections no-op. Default True.
# lessons_query_limit_default-> default LIMIT for GET /lessons / get() when the
# caller passes none.
# lessons_dedup_window_s -> auto-record dedup window (s): a second auto lesson
# with the same (work_item_id, lesson_type, stage)
# inside this window is suppressed (D4). manual
# records are never deduped. Default 3600 (1h).
lessons_enabled: bool = True
lessons_query_limit_default: int = 100
lessons_dedup_window_s: int = 3600
# ORCH-057: legacy root-owned file ownership detect + actionable worktree error
# (follow-up ORCH-040). Three additive, kill-switch-reversible layers: (1) an
# actionable RuntimeError in git_worktree.ensure_worktree when a worktree fails
# to be created because of legacy root-owned files (Permission denied), (2) a
# cheap, TTL-cached, never-raise detect leaf src/fs_normalize.py that finds files
# with uid != target_uid across the infra roots (/repos/_wt, <repo>/.git, data/runs)
# and surfaces a startup WARNING/Telegram + GET /queue fs_ownership block, (3) an
# opt-in chown (normalize) ONLY when the process has CAP_CHOWN/root (under uid 1000
# a no-op + honest log; the real fix is the operator procedure in INFRA.md). No
# STAGE_TRANSITIONS / QG_CHECKS / check_* / machine-verdict / schema change. See
# ADR-001-legacy-ownership-normalization.md / adr-0031.
# fs_normalize_enabled -> SINGLE kill-switch; False -> all code inert, behaviour
# 1:1 as before ORCH-057 (the actionable error too).
# Env ORCH_FS_NORMALIZE_ENABLED.
# fs_normalize_repos -> CSV of repos the layer is REAL for; empty -> only the
# self-hosting repo (orchestrator). Mirrors coverage_gate_repos.
# fs_target_uid -> target uid fallback when os.getuid() is unavailable.
# fs_normalize_auto -> detect-only (False) | attempt chown when privileged (True).
# fs_scan_roots -> CSV override of the scan roots (empty -> default roots).
# fs_scan_cache_ttl_s -> TTL of the detect cache (mirrors preflight_cache_ttl).
fs_normalize_enabled: bool = True
fs_normalize_repos: str = ""
fs_target_uid: int = 1000
fs_normalize_auto: bool = False
fs_scan_roots: str = ""
fs_scan_cache_ttl_s: int = 300
# ORCH-061: tolerate KNOWN sandbox-infra FAILs (C9a/C9b) in the staging suite.
# The self-hosting deploy-staging stage looped because scripts/staging_check.py
# exited non-zero on ANY failed check, so two infra-only failures (sandbox bot
@@ -767,6 +815,34 @@ class Settings(BaseSettings):
auto_label_repos: str = ""
auto_label_states_ttl_s: int = 300
# ORCH-019: bug-fast-track — a cheaper/shorter pipeline route for bug-fix tasks.
# A task carrying the Plane label `bug_fast_track_label` (default `Bug`) skips
# the whole `architecture` stage (one opus `architect` run + ADR + the
# check_architecture_done exit-gate): the routing-override in advance_stage maps
# the analysis -> architecture edge to analysis -> development for a task whose
# tasks.track == 'bug'. EVERY Quality Gate / sub-gate (CI/review/tester/staging/
# deploy + security/merge/coverage/image-freshness/merge-verify) runs UNCHANGED
# — the route is a scheduler property, NOT a gate (root invariant NFR-1).
# Recognition reuses the proven ORCH-089 label apparatus (labels.has_label ->
# plane_sync), read ONLY in start_pipeline (never in the hot claim_next_job).
# Additive leaf (src/bug_fast_track.py, never-raise) + an additive idempotent
# tasks.track column; STAGE_TRANSITIONS / QG_CHECKS / check_* / verdict-keys are
# NOT touched. fail-safe -> full cycle on any error/ambiguity/disabled flag. See
# docs/work-items/ORCH-019/06-adr/ADR-001-bug-fast-track.md and the cross-cutting
# docs/architecture/adr/adr-0032-bug-fast-track.md.
# bug_fast_track_enabled -> kill-switch (env ORCH_BUG_FAST_TRACK_ENABLED).
# False -> start_pipeline AND advance_stage are 1:1 as
# before ORCH-019 (skips_architecture always False,
# has_label never consulted) — zero regression (AC-6).
# bug_fast_track_label -> Plane label name that activates the track (env
# ORCH_BUG_FAST_TRACK_LABEL; default `Bug`).
# bug_fast_track_repos -> CSV scope (env ORCH_BUG_FAST_TRACK_REPOS). Empty ->
# self-hosting only (orchestrator), the safe default
# (D6); non-empty -> only the listed repos.
bug_fast_track_enabled: bool = True
bug_fast_track_label: str = "Bug"
bug_fast_track_repos: str = ""
# Telegram notifications
telegram_bot_token: str = ""
telegram_chat_id: str = ""
@@ -819,6 +895,17 @@ class Settings(BaseSettings):
# 200 (was hardcoded 80). Invalid/empty value -> default (graceful, no crash).
qg0_title_max: int = 200
# ORCH-099 (D8): operator off-switch for the read-only GET /metrics endpoint.
# The env var is ORCH_METRICS_ENABLED (explicit validation_alias — the documented
# contract name, ADR-001 D8 / README — overriding the default ORCH_ + field-name
# mapping so the documented switch actually controls the flag). Default True ->
# the endpoint is available out of the box (zero regression vs BRD). False ->
# /metrics returns a minimal parsable body {"schema_version": 1, "enabled": false}
# (200, NOT 404) so the F1b sidecar sees the off-switch explicitly. The endpoint
# is inert / read-only anyway; the flag is a cheap self-hosting insurance on the
# shared prod instance.
metrics_endpoint_enabled: bool = Field(True, validation_alias="ORCH_METRICS_ENABLED")
@field_validator("qg0_title_max", mode="before")
@classmethod
def _qg0_title_max_default(cls, v):

339
src/db.py
View File

@@ -140,6 +140,13 @@ def init_db():
# irreversible step finishes honestly, then applied.
_ensure_column(conn, "tasks", "cancelled_at", "TEXT")
_ensure_column(conn, "tasks", "cancel_requested_at", "TEXT")
# ORCH-019 (08-data-requirements.md): bug-fast-track task type. Additive,
# idempotent (_ensure_column is a no-op once present) -> safe on the live shared
# prod DB (enduro untouched). Values: 'full' (DEFAULT — ALL existing and non-bug
# tasks) | 'bug' (a task carrying the Plane `Bug` label, set in start_pipeline
# after a successful atomic create). Read in advance_stage for the routing-override
# (skips architecture) — from the DB, NEVER from the network (NFR-4).
_ensure_column(conn, "tasks", "track", "TEXT DEFAULT 'full'")
# ORCH-026 (Level B): declarative task dependencies. job_deps stores the
# directed edge "task_id (B) is blocked-by depends_on_task_id (A)". The
# scheduler gate in claim_next_job keeps B queued until every A reaches
@@ -213,10 +220,195 @@ def init_db():
updated_at TEXT NOT NULL DEFAULT (datetime('now'))
);
""")
# ORCH-098 (FR-1, ADR-001 D1): additive machine lessons-journal — a structured
# table of pipeline deviations (gate-fail / merge-hold / transient-retry /
# post-deploy-degraded), the foundation of the self-improvement epic (E2
# retrospective / E3 RICE prioritiser). Purely ADDITIVE (CREATE TABLE/INDEX IF NOT
# EXISTS, pattern repo_freeze/coverage_baseline) -> idempotent, restart-safe on
# the shared prod DB; existing tables untouched (NFR-3, enduro-trails not
# affected). The attribution columns (attribution/target_repo/target_domain) are
# NULLABLE and present FROM THE START (Слава 10.06, NFR-6) so the live shared DB
# never needs a schema rework — an auto-recorded `unknown` lesson is classified
# later via update. lesson_type / attribution / target_domain carry NO enum/CHECK
# constraint: the values are a forward-compatible slug convention (a new lesson
# type never needs a migration). See docs/work-items/ORCH-098/08-data-requirements.md.
conn.executescript("""
CREATE TABLE IF NOT EXISTS lessons (
id INTEGER PRIMARY KEY AUTOINCREMENT,
created_at TEXT NOT NULL DEFAULT (datetime('now')),
updated_at TEXT,
lesson_type TEXT NOT NULL,
work_item_id TEXT,
task_id INTEGER,
stage TEXT,
agent TEXT,
repo TEXT,
root_cause TEXT,
suggestion TEXT,
status TEXT NOT NULL DEFAULT 'new',
related_task TEXT,
attribution TEXT,
target_repo TEXT,
target_domain TEXT,
source TEXT,
detail TEXT
);
CREATE INDEX IF NOT EXISTS idx_lessons_type_status ON lessons (lesson_type, status);
CREATE INDEX IF NOT EXISTS idx_lessons_repo ON lessons (repo);
CREATE INDEX IF NOT EXISTS idx_lessons_wi_type ON lessons (work_item_id, lesson_type);
""")
# Forward-safe: on an already-created `lessons` table the attribution columns are
# added idempotently (_ensure_column is a no-op once present) so an old prod DB
# picks them up without a data migration (NFR-6, AC-2).
_ensure_column(conn, "lessons", "attribution", "TEXT")
_ensure_column(conn, "lessons", "target_repo", "TEXT")
_ensure_column(conn, "lessons", "target_domain", "TEXT")
conn.commit()
conn.close()
# ---------------------------------------------------------------------------
# ORCH-098 (FR-1..FR-5, ADR-001 D1): lessons-journal DDL helpers. Each opens its
# own connection and closes it in `finally` (pattern coverage_baseline). The leaf
# src/lessons.py wraps these in its never-raise contract — these may raise on a
# real DB fault (the leaf swallows it).
# ---------------------------------------------------------------------------
# The full column set, in INSERT order. Single source of truth so record/get stay
# in lockstep with the schema.
_LESSON_COLUMNS = (
"lesson_type", "work_item_id", "task_id", "stage", "agent", "repo",
"root_cause", "suggestion", "status", "related_task",
"attribution", "target_repo", "target_domain", "source", "detail",
)
# Fields an update() may set (everything mutable; never id/created_at/lesson_type).
_LESSON_UPDATABLE = (
"status", "attribution", "target_repo", "target_domain", "related_task",
"root_cause", "suggestion", "stage", "agent", "repo", "detail",
)
def record_lesson(**fields) -> int:
"""Insert one lessons row; return the new id. Raises only on a real DB fault.
Only the known columns in ``_LESSON_COLUMNS`` are written; unknown keys are
ignored (forward-safe). ``created_at`` is stamped by the table default.
"""
cols = [c for c in _LESSON_COLUMNS if c in fields]
if "lesson_type" not in cols:
raise ValueError("record_lesson requires lesson_type")
placeholders = ", ".join("?" for _ in cols)
sql = f"INSERT INTO lessons ({', '.join(cols)}) VALUES ({placeholders})"
conn = get_db()
try:
cur = conn.execute(sql, tuple(fields[c] for c in cols))
conn.commit()
return int(cur.lastrowid)
finally:
conn.close()
def lessons_recent_dup_exists(work_item_id, lesson_type, stage, window_s: int) -> bool:
"""ORCH-098 (D4): is there an auto-lesson with the same (work_item_id,
lesson_type, stage) within the last ``window_s`` seconds? One indexed lookup on
``idx_lessons_wi_type``. Used to suppress duplicate auto-records on retries.
"""
conn = get_db()
try:
row = conn.execute(
"SELECT 1 FROM lessons "
"WHERE work_item_id IS ? AND lesson_type = ? AND stage IS ? "
"AND source = 'auto' "
"AND created_at > datetime('now', ?) LIMIT 1",
(work_item_id, lesson_type, stage, f"-{int(window_s)} seconds"),
).fetchone()
finally:
conn.close()
return row is not None
def get_lessons(*, lesson_type=None, status=None, repo=None, work_item_id=None,
limit: int = 100) -> list[dict]:
"""Read-only parametrised SELECT of lessons (ORDER BY id DESC LIMIT ?)."""
where = []
params: list = []
if lesson_type:
where.append("lesson_type = ?")
params.append(lesson_type)
if status:
where.append("status = ?")
params.append(status)
if repo:
where.append("repo = ?")
params.append(repo)
if work_item_id:
where.append("work_item_id = ?")
params.append(work_item_id)
sql = "SELECT * FROM lessons"
if where:
sql += " WHERE " + " AND ".join(where)
sql += " ORDER BY id DESC LIMIT ?"
try:
lim = int(limit)
except (TypeError, ValueError):
lim = 100
params.append(max(1, lim))
conn = get_db()
try:
rows = conn.execute(sql, tuple(params)).fetchall()
finally:
conn.close()
return [dict(r) for r in rows]
def update_lesson(lesson_id: int, **fields) -> bool:
"""Update mutable fields of a lesson + stamp updated_at. Returns True iff a row
changed. Unknown / non-updatable keys are ignored (forward-safe).
"""
sets = [c for c in _LESSON_UPDATABLE if c in fields]
if not sets:
return False
assignments = ", ".join(f"{c} = ?" for c in sets)
sql = f"UPDATE lessons SET {assignments}, updated_at = datetime('now') WHERE id = ?"
conn = get_db()
try:
cur = conn.execute(sql, tuple(fields[c] for c in sets) + (int(lesson_id),))
conn.commit()
return (cur.rowcount or 0) > 0
finally:
conn.close()
def lessons_snapshot(recent: int = 10) -> dict:
"""Light GROUP BY summary (counts by type/status) + the last N lessons, for the
GET /queue observability block."""
conn = get_db()
try:
total = conn.execute("SELECT COUNT(*) FROM lessons").fetchone()[0]
by_type = {
r["lesson_type"]: r["n"]
for r in conn.execute(
"SELECT lesson_type, COUNT(*) AS n FROM lessons GROUP BY lesson_type"
).fetchall()
}
by_status = {
r["status"]: r["n"]
for r in conn.execute(
"SELECT status, COUNT(*) AS n FROM lessons GROUP BY status"
).fetchall()
}
rows = conn.execute(
"SELECT * FROM lessons ORDER BY id DESC LIMIT ?", (max(1, int(recent)),)
).fetchall()
finally:
conn.close()
return {
"total": total,
"by_type": by_type,
"by_status": by_status,
"recent": [dict(r) for r in rows],
}
def get_coverage_baseline(repo: str) -> float | None:
"""ORCH-027: read the per-repo coverage baseline (%, line coverage).
@@ -487,6 +679,48 @@ def update_task_stage(task_id: int, stage: str):
conn.close()
# ---------------------------------------------------------------------------
# ORCH-019: bug-fast-track task type (tasks.track) helpers
# ---------------------------------------------------------------------------
def set_task_track(task_id: int, track: str) -> None:
"""ORCH-019: persist the task's pipeline track ('full' | 'bug').
Idempotent overwrite. Called from start_pipeline (after a successful atomic
create, when the issue carries the `Bug` label) and from the escalate endpoint
(reset 'bug' -> 'full' to return a complex bug to the full cycle).
"""
conn = get_db()
try:
conn.execute(
"UPDATE tasks SET track = ? WHERE id = ?", (track, task_id)
)
conn.commit()
finally:
conn.close()
def get_task_track(task_id: int) -> str:
"""ORCH-019: read the task's pipeline track; missing/NULL -> 'full' (fail-safe).
Read in the hot advance_stage path for the routing-override (skips architecture).
A non-existent row, a NULL value, or any read error degrades to 'full' so a bug
can never be created by accident (fail-safe -> full cycle).
"""
try:
conn = get_db()
try:
row = conn.execute(
"SELECT track FROM tasks WHERE id = ?", (task_id,)
).fetchone()
finally:
conn.close()
if not row:
return "full"
return row["track"] or "full"
except Exception: # noqa: BLE001 - fail-safe -> full cycle
return "full"
# ---------------------------------------------------------------------------
# Telegram live tracker helpers (feat/telegram-live-tracker)
# ---------------------------------------------------------------------------
@@ -1133,6 +1367,100 @@ def get_running_jobs() -> list[dict]:
return [dict(r) for r in rows]
def get_running_agents() -> list[dict]:
"""ORCH-099 (D5): read-only liveness snapshot of every 'running' job for /metrics.
A dedicated read-only SELECT — deliberately NOT an extension of
``get_running_jobs()`` (the job-reaper hot path, ORCH-065): widening that
query under observability needs would migrate a foreign component's invariant.
Each row carries the process identity + cost context the F1b sidecar needs:
* ``job_id`` / ``run_id`` / ``pid`` — process identity (pid may be NULL until
the launcher stamps it / after the process exits);
* ``agent`` / ``repo`` — role and project (the sidecar is multi-project);
* ``running_age_s`` — seconds since ``jobs.started_at`` (the same process
anchor the reaper uses for backstop-liveness, D6);
* ``model`` / ``effort`` — cost context (LEFT JOIN ``agent_runs``);
* the token / ``cost_usd`` columns — current per-run accruals, usually NULL
until the launcher parses the CLI result JSON on finish (honest raw, TR-5).
A LEFT JOIN on ``run_id`` keeps a job with no ``agent_runs`` row. Read-only;
never mutates.
"""
conn = get_db()
try:
rows = conn.execute(
"SELECT j.id AS job_id, j.run_id AS run_id, j.pid AS pid, "
"j.agent AS agent, j.repo AS repo, j.started_at AS started_at, "
"CAST(strftime('%s','now') - strftime('%s', j.started_at) AS INTEGER) "
" AS running_age_s, "
"r.model AS model, r.effort AS effort, r.cost_usd AS cost_usd, "
"r.input_tokens AS input_tokens, r.output_tokens AS output_tokens, "
"r.cache_read_tokens AS cache_read_tokens, "
"r.cache_creation_tokens AS cache_creation_tokens "
"FROM jobs j LEFT JOIN agent_runs r ON r.id = j.run_id "
"WHERE j.status='running'"
).fetchall()
finally:
conn.close()
return [dict(r) for r in rows]
def agent_cost_totals() -> dict:
"""ORCH-099 (D7): read-only aggregate of cost / tokens over all agent_runs.
Pure ``SELECT COALESCE(SUM(...),0)`` — an empty ``agent_runs`` table yields
zeros, never an error (TC-06 / TC-11). Read-only; never mutates.
"""
conn = get_db()
try:
row = conn.execute(
"SELECT "
"COALESCE(SUM(cost_usd),0) AS cost_usd, "
"COALESCE(SUM(input_tokens),0) AS input_tokens, "
"COALESCE(SUM(output_tokens),0) AS output_tokens, "
"COALESCE(SUM(cache_read_tokens),0) AS cache_read_tokens, "
"COALESCE(SUM(cache_creation_tokens),0) AS cache_creation_tokens "
"FROM agent_runs"
).fetchone()
finally:
conn.close()
return dict(row) if row else {
"cost_usd": 0,
"input_tokens": 0,
"output_tokens": 0,
"cache_read_tokens": 0,
"cache_creation_tokens": 0,
}
def queue_retry_stats() -> dict:
"""ORCH-099 (D4): read-only retry raw over UNFINISHED jobs for /metrics.queue.
Aggregates ``attempts`` / ``transient_attempts`` and counts jobs currently in
backoff (``available_at > now``) across non-terminal jobs (status NOT IN
done/failed/cancelled). Read-only; never mutates.
"""
conn = get_db()
try:
row = conn.execute(
"SELECT "
"COALESCE(SUM(attempts),0) AS total_attempts, "
"COALESCE(SUM(transient_attempts),0) AS total_transient_attempts, "
"COALESCE(MAX(attempts),0) AS max_attempts_seen, "
"COALESCE(SUM(CASE WHEN available_at IS NOT NULL "
" AND available_at > datetime('now') THEN 1 ELSE 0 END),0) AS in_backoff "
"FROM jobs WHERE status NOT IN ('done','failed','cancelled')"
).fetchone()
finally:
conn.close()
return dict(row) if row else {
"total_attempts": 0,
"total_transient_attempts": 0,
"max_attempts_seen": 0,
"in_backoff": 0,
}
def reap_running_job(
job_id: int,
status: str,
@@ -1185,13 +1513,20 @@ def get_job(job_id: int) -> dict | None:
def job_status_counts() -> dict:
"""Return counts grouped by status (for /queue observability)."""
"""Return counts grouped by status (for /queue and /metrics observability).
ORCH-099 (D4): the default dict carries the ``cancelled`` terminal key
(ORCH-090, terminal set ``{done, cancelled}``) so the key is always present
with a 0 default instead of materialising only when a cancelled job exists.
Purely additive — the GROUP BY query is unchanged and pre-existing keys keep
their meaning (no /queue contract break).
"""
conn = get_db()
rows = conn.execute(
"SELECT status, COUNT(*) AS n FROM jobs GROUP BY status"
).fetchall()
conn.close()
counts = {"queued": 0, "running": 0, "done": 0, "failed": 0}
counts = {"queued": 0, "running": 0, "done": 0, "failed": 0, "cancelled": 0}
for r in rows:
counts[r["status"]] = r["n"]
return counts

539
src/fs_normalize.py Normal file
View File

@@ -0,0 +1,539 @@
"""Legacy root-owned ownership detect + actionable worktree error (ORCH-057).
Background
----------
ORCH-040 moved both containers to ``user: "1000:1000"`` by editing ONLY
``docker-compose.yml``. Changing ``user:`` does NOT change the owner of files that
the previous root container already created. The bind-mount ``/home/slin/repos ->
/repos`` therefore still held ``root:root`` directories (``_wt/``, old worktrees,
``.git/objects``, ``data/runs``). Under uid 1000 (no root) ``git_worktree.
ensure_worktree`` could not create a worktree next to a ``root:root`` ``/repos/_wt``
and failed with a RAW ``fatal: could not create leading directories … Permission
denied`` — the agent never started and the operator had no diagnosis.
The container runs as numeric uid 1000 WITHOUT root, so it physically cannot
``chown`` foreign (root-owned) files — only DETECT + DIAGNOSE. The real fix is the
documented operator procedure (INFRA.md «Миграция uid»), run once on the host.
This leaf (ADR-001) provides three additive, kill-switch-reversible primitives:
* ``classify_worktree_error`` / ``build_worktree_help`` — the pure classifier +
actionable message used by ``git_worktree.ensure_worktree`` (D1 / FR-1).
* ``scan_ownership`` — a cheap, TTL-cached, never-raise walk of the infra roots
that reports whether any file has ``uid != target_uid`` (D2 / FR-2), used by the
startup hook (D3 / FR-3) and the ``GET /queue`` ``fs_ownership`` block.
* ``normalize`` — an opt-in ``chown`` that runs ONLY when the process is
privileged (root / CAP_CHOWN); under uid 1000 it is a no-op + honest log, NOT
an error (D4 / FR-4).
Invariants (never broken):
* **never-raise** (NFR-3): every public function degrades to a conservative,
non-blocking default and NEVER propagates into the worker / lifespan / worktree
path. A detect error -> WARNING + ``mismatch=False`` (do not block / panic).
* **applies() first** (NFR-2): the expensive walk runs only when the layer is REAL
for the repo (``fs_normalize_enabled`` + scope; empty CSV -> self-hosting only),
so enduro-trails is never scanned at the default config.
* **kill-switch reversible** (D6): ``fs_normalize_enabled=False`` -> all code inert,
behaviour 1:1 as before ORCH-057 (the actionable error contract too).
* **no chown without privilege** (NFR-1): the code only reads / detects / diagnoses;
a real ``chown`` happens only when privileged and ``fs_normalize_auto=True``.
Leaf: imports only ``config`` / ``logging`` / ``os`` / ``time`` (+ lazily
``qg.checks.is_self_hosting_repo`` / ``notifications`` for scope / observability). It
never imports ``git_worktree`` / ``stage_engine`` / ``launcher`` (``git_worktree``
imports THIS module, so the dependency is one-way).
"""
from __future__ import annotations
import errno
import logging
import os
import time
from dataclasses import dataclass, field
from .config import settings
logger = logging.getLogger("orchestrator.fs_normalize")
# Permission-class markers in a git stderr / OSError string (D1 / TR-1). Narrow on
# purpose — a non-permission error (real branch conflict, missing origin/main,
# timeout) must NOT be reclassified (AC-2 FAIL-condition), so we match only the
# unambiguous "no permission to create the file/object" phrases.
_PERM_MARKERS = (
"permission denied",
"could not create leading directories",
"insufficient permission for adding an object",
"operation not permitted",
)
# ---------------------------------------------------------------------------
# Resolution helpers (target uid, scope, roots)
# ---------------------------------------------------------------------------
def _resolve_target_uid(target_uid: int | None = None) -> int:
"""The uid the scan compares against (the subject that "cannot create files").
Resolution order (D2 / TR-7): explicit ``target_uid`` arg > ``os.getuid()`` (the
uid the process really runs as) > ``settings.fs_target_uid`` fallback (default
1000) when ``os.getuid()`` is unavailable. Never raises.
"""
if target_uid is not None:
return int(target_uid)
try:
return os.getuid()
except (AttributeError, OSError): # pragma: no cover - non-POSIX fallback
try:
return int(settings.fs_target_uid)
except (TypeError, ValueError):
return 1000
def _scope_repos() -> list[str]:
"""Repos the layer is REAL for (used to build the default ``.git`` roots).
Non-empty ``fs_normalize_repos`` CSV -> those repos; empty -> self-hosting only
(``orchestrator``), mirroring ``coverage_gate``. Never raises -> [] on error.
"""
try:
raw = (settings.fs_normalize_repos or "").strip()
except Exception: # noqa: BLE001 - never-raise
return []
if raw:
return [r.strip() for r in raw.split(",") if r.strip()]
try:
from .qg.checks import SELF_HOSTING_REPO
return [SELF_HOSTING_REPO]
except Exception: # noqa: BLE001
return ["orchestrator"]
def _runs_root() -> str:
"""``data/runs`` root (per ADR: ``os.path.dirname(db_path)/runs``)."""
try:
rd = getattr(settings, "runs_dir", None)
if rd:
return rd
except Exception: # noqa: BLE001
pass
try:
return os.path.join(os.path.dirname(settings.db_path), "runs")
except Exception: # noqa: BLE001
return "/app/data/runs"
def _default_roots() -> list[str]:
"""The default scan roots (D2): ``/repos/_wt``, ``data/runs`` and each in-scope
repo's ``.git/objects`` + ``.git/worktrees``. Never raises -> [] on error.
"""
roots: list[str] = []
try:
wt = getattr(settings, "worktrees_dir", None)
if wt:
roots.append(wt)
roots.append(_runs_root())
repos_dir = getattr(settings, "repos_dir", "/repos")
for repo in _scope_repos():
base = os.path.join(repos_dir, repo, ".git")
roots.append(os.path.join(base, "objects"))
roots.append(os.path.join(base, "worktrees"))
except Exception as e: # noqa: BLE001 - never-raise
logger.warning("fs_normalize._default_roots error: %s", e)
return roots
def _resolve_roots(roots: list[str] | None = None) -> list[str]:
"""Resolve scan roots: explicit arg > ``fs_scan_roots`` CSV > the default set."""
if roots is not None:
return list(roots)
try:
raw = (settings.fs_scan_roots or "").strip()
except Exception: # noqa: BLE001
raw = ""
if raw:
return [r.strip() for r in raw.split(",") if r.strip()]
return _default_roots()
# ---------------------------------------------------------------------------
# Conditionality (mirrors coverage_gate_applies)
# ---------------------------------------------------------------------------
def applies(repo: str) -> bool:
"""Whether the ORCH-057 layer is REAL for this repo (D6 / NFR-2).
* ``fs_normalize_enabled=False`` -> always False (kill-switch).
* ``fs_normalize_repos`` (CSV) non-empty -> real only for the listed repos.
* empty CSV -> real ONLY for the self-hosting repo (``orchestrator``).
Never raises -> False (the safe no-op default).
"""
try:
if not settings.fs_normalize_enabled:
return False
raw = (settings.fs_normalize_repos or "").strip()
if raw:
allowed = {r.strip().lower() for r in raw.split(",") if r.strip()}
return (repo or "").strip().lower() in allowed
from .qg.checks import is_self_hosting_repo
return is_self_hosting_repo(repo)
except Exception as e: # noqa: BLE001 - never-raise contract
logger.warning("fs_normalize.applies error for %s: %s", repo, e)
return False
# ---------------------------------------------------------------------------
# D1: actionable worktree error (pure classifier + message)
# ---------------------------------------------------------------------------
def classify_worktree_error(text: str | None) -> bool:
"""Pure: True iff ``text`` looks like a "no permission to create" failure.
Matches only the narrow ``_PERM_MARKERS`` so a non-permission git error keeps
its original contract (AC-2). Never raises -> False on bad input.
"""
try:
t = (text or "").lower()
return any(m in t for m in _PERM_MARKERS)
except Exception: # noqa: BLE001
return False
def is_permission_failure(*, stderr: str | None = None, exc: BaseException | None = None) -> bool:
"""True iff a worktree failure is the legacy-ownership permission class.
Considers both a git ``stderr`` string (marker match) and an ``OSError``
(``PermissionError`` or ``errno`` in ``EACCES``/``EPERM``). Never raises.
"""
try:
if isinstance(exc, PermissionError):
return True
if isinstance(exc, OSError) and exc.errno in (errno.EACCES, errno.EPERM):
return True
if classify_worktree_error(stderr):
return True
if exc is not None and classify_worktree_error(str(exc)):
return True
except Exception: # noqa: BLE001
return False
return False
def build_worktree_help(repo: str, branch: str, target_uid: int | None = None, raw: str = "") -> str:
"""Build the actionable RuntimeError message for a permission-class worktree
failure (D1): names the root cause + the healing command + the INFRA.md
procedure, instead of a raw git stderr (AC-2). Never raises.
"""
try:
tuid = _resolve_target_uid(target_uid)
wt_dir = getattr(settings, "worktrees_dir", "/repos/_wt")
git_dir = os.path.join(getattr(settings, "repos_dir", "/repos"), repo, ".git")
msg = (
f"Cannot create git worktree for {repo}:{branch} — permission denied. "
f"Likely cause: legacy root-owned files in {wt_dir} or {git_dir} left over "
f"from before the uid migration (ORCH-040). This container runs as uid "
f"{tuid} without root and cannot chown foreign files itself. Fix (run once "
f"on the host as root): `sudo chown -R {tuid}:{tuid} {wt_dir}` and "
f"`sudo chown -R {tuid}:{tuid} {git_dir}`. See docs/operations/INFRA.md "
f"section «Миграция uid: обязательная нормализация legacy root-файлов»."
)
if raw:
msg += f" (underlying error: {raw.strip()})"
return msg
except Exception: # noqa: BLE001 - never-raise; degrade to a minimal hint
return (
f"Cannot create git worktree for {repo}:{branch} — permission denied "
f"(legacy root-owned files; see docs/operations/INFRA.md «Миграция uid»)."
)
# ---------------------------------------------------------------------------
# D2: ownership scan (TTL-cached, never-raise, early-exit per root)
# ---------------------------------------------------------------------------
@dataclass
class OwnershipScan:
"""Result of an ownership scan (D2). ``mismatch`` is the boolean verdict."""
mismatch: bool
target_uid: int
roots_checked: list[str] = field(default_factory=list)
roots_mismatch: list[str] = field(default_factory=list)
sample_path: str | None = None
count: int | None = None
checked_at: float = 0.0
enabled: bool = True
def to_dict(self) -> dict:
return {
"enabled": self.enabled,
"mismatch": self.mismatch,
"target_uid": self.target_uid,
"roots_checked": self.roots_checked,
"roots_mismatch": self.roots_mismatch,
"sample_path": self.sample_path,
"count": self.count,
"checked_at": self.checked_at,
}
class _ScanCache:
def __init__(self):
self.ts: float = 0.0
self.key: tuple | None = None
self.result: OwnershipScan | None = None
_cache = _ScanCache()
def reset_cache() -> None:
"""Invalidate the TTL detect cache (tests / forced recheck)."""
_cache.ts = 0.0
_cache.key = None
_cache.result = None
def _first_mismatch(root: str, target_uid: int) -> str | None:
"""Return the first path under ``root`` whose ``st_uid != target_uid`` (early
exit), else None. ``os.lstat`` (not ``stat``) so a symlink's own ownership is
judged, never its target. Never raises -> None on any walk error.
"""
try:
if not os.path.exists(root):
return None
try:
if os.lstat(root).st_uid != target_uid:
return root
except OSError:
return None
for dirpath, dirnames, filenames in os.walk(root, onerror=None):
for name in dirnames:
p = os.path.join(dirpath, name)
try:
if os.lstat(p).st_uid != target_uid:
return p
except OSError:
continue
for name in filenames:
p = os.path.join(dirpath, name)
try:
if os.lstat(p).st_uid != target_uid:
return p
except OSError:
continue
except Exception as e: # noqa: BLE001 - never-raise
logger.warning("fs_normalize._first_mismatch error for %s: %s", root, e)
return None
return None
def _scan(roots: list[str], target_uid: int) -> OwnershipScan:
"""Walk each root, early-exiting per root at its first mismatch. The clean case
(no mismatch) walks fully; the dirty case stops fast per root (TR-2 cost). Lists
every affected root (informative verdict). Never raises -> conservative
``mismatch=False`` on a wholesale error.
"""
roots_checked: list[str] = []
roots_mismatch: list[str] = []
sample_path: str | None = None
try:
for root in roots:
if not os.path.exists(root):
continue
roots_checked.append(root)
hit = _first_mismatch(root, target_uid)
if hit is not None:
roots_mismatch.append(root)
if sample_path is None:
sample_path = hit
except Exception as e: # noqa: BLE001 - never-raise -> conservative verdict
logger.warning("fs_normalize._scan error -> mismatch=False: %s", e)
return OwnershipScan(
mismatch=False, target_uid=target_uid,
roots_checked=roots_checked, roots_mismatch=[], checked_at=time.time(),
)
return OwnershipScan(
mismatch=bool(roots_mismatch),
target_uid=target_uid,
roots_checked=roots_checked,
roots_mismatch=roots_mismatch,
sample_path=sample_path,
checked_at=time.time(),
)
def scan_ownership(
roots: list[str] | None = None,
target_uid: int | None = None,
force: bool = False,
) -> OwnershipScan:
"""Detect files with ``uid != target_uid`` across the infra roots (D2 / FR-2).
TTL-cached (``fs_scan_cache_ttl_s``, mirrors ``preflight._cache``): a repeat call
inside the window with the SAME (roots, target_uid) returns the cached result
without re-walking; ``force=True`` (or ``reset_cache()``) re-scans. Kill-switch
off -> an inert ``mismatch=False`` result (``enabled=False``). Never raises.
"""
try:
if not settings.fs_normalize_enabled:
return OwnershipScan(
mismatch=False, target_uid=_resolve_target_uid(target_uid),
checked_at=time.time(), enabled=False,
)
resolved_roots = _resolve_roots(roots)
tuid = _resolve_target_uid(target_uid)
key = (tuple(resolved_roots), tuid)
now = time.time()
try:
ttl = float(settings.fs_scan_cache_ttl_s)
except (TypeError, ValueError):
ttl = 300.0
if (
not force
and _cache.result is not None
and _cache.key == key
and (now - _cache.ts) < ttl
):
return _cache.result
result = _scan(resolved_roots, tuid)
_cache.ts = now
_cache.key = key
_cache.result = result
return result
except Exception as e: # noqa: BLE001 - never-raise -> conservative verdict
logger.warning("fs_normalize.scan_ownership error -> mismatch=False: %s", e)
return OwnershipScan(
mismatch=False, target_uid=_resolve_target_uid(target_uid),
checked_at=time.time(),
)
# ---------------------------------------------------------------------------
# D4: opt-in normalize (chown ONLY when privileged) — never init-container
# ---------------------------------------------------------------------------
def _is_privileged() -> bool:
"""True iff the process can chown foreign files (root). Under uid 1000 -> False.
A practical check: ``os.geteuid() == 0``. A CAP_CHOWN-without-root environment
still degrades to the honest no-op (a chown attempt would simply fail and be
swallowed). Never raises -> False (the safe "not privileged" default).
"""
try:
return os.geteuid() == 0
except (AttributeError, OSError): # pragma: no cover - non-POSIX
return False
def normalize(roots: list[str] | None = None, target_uid: int | None = None) -> dict:
"""Opt-in ``chown -R target_uid:target_uid`` over the roots, ONLY when the
process is privileged (D4 / FR-4). Under uid 1000 (the prod-self case) it is a
no-op + honest log "operator procedure required" — NOT an error. Gated by
``fs_normalize_auto`` at the call site; this function additionally self-guards on
``_is_privileged()``. Never raises.
Returns a result dict ``{attempted, privileged, changed, errors, note}``.
"""
result = {"attempted": False, "privileged": False, "changed": 0, "errors": [], "note": ""}
try:
if not settings.fs_normalize_enabled:
result["note"] = "disabled (fs_normalize_enabled=False)"
return result
tuid = _resolve_target_uid(target_uid)
privileged = _is_privileged()
result["privileged"] = privileged
if not privileged:
result["note"] = (
"not privileged (process runs as non-root) — chown of legacy "
"root-owned files needs the operator procedure (docs/operations/"
"INFRA.md «Миграция uid»)."
)
logger.warning("fs_normalize.normalize: %s", result["note"])
return result
result["attempted"] = True
resolved_roots = _resolve_roots(roots)
changed = 0
for root in resolved_roots:
if not os.path.exists(root):
continue
for path in _iter_paths(root):
try:
if os.lstat(path).st_uid != tuid:
os.chown(path, tuid, tuid, follow_symlinks=False)
changed += 1
except OSError as e:
result["errors"].append(f"{path}: {e}")
result["changed"] = changed
result["note"] = f"chown applied to {changed} path(s) over {len(resolved_roots)} root(s)"
logger.info("fs_normalize.normalize: %s", result["note"])
return result
except Exception as e: # noqa: BLE001 - never-raise
logger.error("fs_normalize.normalize error: %s", e)
result["note"] = f"error: {e}"
return result
def _iter_paths(root: str):
"""Yield ``root`` and every path beneath it (never raises per item)."""
try:
yield root
for dirpath, dirnames, filenames in os.walk(root, onerror=None):
for name in dirnames + filenames:
yield os.path.join(dirpath, name)
except Exception as e: # noqa: BLE001
logger.warning("fs_normalize._iter_paths error for %s: %s", root, e)
# ---------------------------------------------------------------------------
# Observability snapshot for GET /queue (D6 / AC-4)
# ---------------------------------------------------------------------------
def snapshot() -> dict:
"""Read-only ownership summary for GET /queue (``fs_ownership`` block, AC-4).
Additive; uses the TTL-cached scan (no expensive walk on every /queue hit).
never-raise: any error -> a minimal dict carrying the flags.
"""
try:
enabled = bool(settings.fs_normalize_enabled)
except Exception: # noqa: BLE001
enabled = False
try:
auto = bool(getattr(settings, "fs_normalize_auto", False))
except Exception: # noqa: BLE001
auto = False
try:
repos_cfg = getattr(settings, "fs_normalize_repos", "") or ""
except Exception: # noqa: BLE001
repos_cfg = ""
out = {
"enabled": enabled,
"auto": auto,
"repos": repos_cfg,
"target_uid": _resolve_target_uid(),
"mismatch": False,
"roots_checked": [],
"roots_mismatch": [],
"sample_path": None,
"checked_at": None,
}
try:
if enabled:
scan = scan_ownership()
out["mismatch"] = scan.mismatch
out["target_uid"] = scan.target_uid
out["roots_checked"] = scan.roots_checked
out["roots_mismatch"] = scan.roots_mismatch
out["sample_path"] = scan.sample_path
out["checked_at"] = scan.checked_at or None
except Exception as e: # noqa: BLE001 - never-raise -> minimal dict
logger.warning("fs_normalize.snapshot error: %s", e)
return out
def healing_command(target_uid: int | None = None) -> str:
"""The one-line operator healing hint (startup WARNING / Telegram). Never raises."""
try:
tuid = _resolve_target_uid(target_uid)
wt_dir = getattr(settings, "worktrees_dir", "/repos/_wt")
return (
f"sudo chown -R {tuid}:{tuid} {wt_dir} <repo>/.git data/runs "
f"(см. docs/operations/INFRA.md «Миграция uid»)"
)
except Exception: # noqa: BLE001
return "sudo chown -R 1000:1000 /repos/_wt (см. docs/operations/INFRA.md «Миграция uid»)"

View File

@@ -39,6 +39,31 @@ def _main_repo(repo: str) -> str:
return os.path.join(settings.repos_dir, repo)
def _raise_if_permission(repo: str, branch: str, *, stderr: str | None = None,
exc: BaseException | None = None) -> None:
"""ORCH-057 D1: if a worktree failure is the legacy-ownership permission class,
raise an actionable ``RuntimeError`` (cause + healing command + INFRA.md ref)
instead of a raw git stderr (FR-1 / AC-2).
Gated by ``fs_normalize_enabled`` — when the kill-switch is off the error
contract is byte-for-byte as before ORCH-057 (this helper is a no-op, the caller
re-raises the original). A non-permission error is also a no-op here, so the
caller's existing message/semantics are preserved (no meaning substitution).
Never raises anything other than the deliberate actionable RuntimeError.
"""
try:
if not settings.fs_normalize_enabled:
return
from . import fs_normalize
if fs_normalize.is_permission_failure(stderr=stderr, exc=exc):
raw = stderr if stderr is not None else (str(exc) if exc else "")
raise RuntimeError(fs_normalize.build_worktree_help(repo, branch, raw=raw))
except RuntimeError:
raise
except Exception as e: # noqa: BLE001 - classification must never mask the real error
logger.warning("worktree permission-classification skipped: %s", e)
def ensure_worktree(repo: str, branch: str) -> str:
"""Create (or reuse) an isolated worktree for ``branch``. Returns its path.
@@ -75,7 +100,14 @@ def ensure_worktree(repo: str, branch: str) -> str:
logger.info(f"Worktree reused: {wt} (branch {branch})")
return wt
os.makedirs(os.path.dirname(wt), exist_ok=True)
# ORCH-057 D1: creating the leading worktree directory next to a legacy
# root-owned /repos/_wt fails with Permission denied under uid 1000 — turn that
# into an actionable error (the kill-switch / non-permission path is unchanged).
try:
os.makedirs(os.path.dirname(wt), exist_ok=True)
except OSError as e:
_raise_if_permission(repo, branch, exc=e)
raise
# Try to attach an existing branch (local or remote-tracking) to the new worktree.
r = subprocess.run(["git", "-C", main_repo, "worktree", "add", wt, branch],
@@ -87,9 +119,12 @@ def ensure_worktree(repo: str, branch: str) -> str:
capture_output=True, text=True, timeout=60,
)
if r2.returncode != 0:
combined = f"{r.stderr.strip()} | {r2.stderr.strip()}"
# ORCH-057 D1: a permission-class git fatal -> actionable RuntimeError;
# any other failure keeps the prior raw-stderr contract (AC-2).
_raise_if_permission(repo, branch, stderr=combined)
raise RuntimeError(
f"git worktree add failed for {repo}:{branch}: "
f"{r.stderr.strip()} | {r2.stderr.strip()}"
f"git worktree add failed for {repo}:{branch}: {combined}"
)
logger.info(f"Worktree ready: {wt} (branch {branch})")
return wt

191
src/lessons.py Normal file
View File

@@ -0,0 +1,191 @@
"""ORCH-098 (FND/F2): machine lessons-journal — a never-raise observer leaf.
Background
----------
The orchestrator runs an autonomous pipeline; when it deviates (a quality gate
rolls a task back, a merge is held, a transient burst exhausts the retry budget,
a post-deploy verdict comes back DEGRADED) the only trace today is free-text in
``memory/`` — not machine-readable, so nothing can count the patterns or
prioritise the fixes. ORCH-098 is step 1 («Фундамент», F2) of the
self-improvement epic: it formalises those deviations into a structured
``lessons`` table on which the future retrospective agent (E2), the RICE
prioritiser (E3) and Стрим will stand.
Design (ADR-001, by образцу ``serial_gate`` / ``coverage_gate`` / ``metrics``)
------------------------------------------------------------------------------
This is a **leaf**: it imports only ``config`` + ``db`` (lazily). It NEVER imports
``stage_engine`` / ``merge_gate`` / ``launcher`` (anti-cycle) — those choke-points
call INTO this module, never the reverse.
Two contract invariants, both load-bearing on the shared self-hosting prod DB:
* **kill-switch** (FR-6 / AC-7): ``lessons_enabled=False`` -> every public
function is an immediate no-op (``record→None``, ``get→[]``, ``update→False``,
``snapshot→{}``) WITHOUT touching the DB; the auto-record injections become
no-ops; pipeline behaviour is byte-for-byte the pre-ORCH-098 behaviour.
* **never-raise** (NFR-1 / AC-6): with the switch on, every body runs under
``try/except Exception -> logger.warning + safe default``. A journal fault
(a failing DB, a bad row) can NEVER propagate into the hot path that called it
(a rollback / HOLD / retry must complete regardless).
**No repo scope (D2).** Unlike the gate leaves (``serial_gate`` / ``coverage_gate``
/ ``bug_fast_track`` carry a ``*_repos`` CSV because they *act* on a repo), the
journal is observer-only: writing a row never influences any repo's pipeline.
So it records lessons about ANY repo — including enduro-trails (a degraded enduro
deploy is a valuable self-learning signal; a repo scope would drop it). The
repo cut lives on the READ side (``get(repo=...)`` / ``snapshot``). enduro is not
affected (NFR-3): an observer row about enduro changes no enduro stage/gate.
Self-hosting safety (NFR-7): the journal only reads/writes its own table. It never
deploys, never restarts prod, never touches ``main``, spawns no process, opens no
socket.
"""
from __future__ import annotations
import logging
from .config import settings
logger = logging.getLogger("orchestrator.lessons")
# ---------------------------------------------------------------------------
# Slug conventions (NOT enum constraints — forward-compatible string slugs, D1).
# Exposed as constants so the choke-point injections and tests share one spelling.
# ---------------------------------------------------------------------------
class LessonType:
"""Canonical ``lesson_type`` slugs written by the auto-detectors (D3)."""
GATE_FAILURE = "gate_failure" # QG rollback to development
MERGE_HOLD = "merge_hold" # merge not verified -> task held on deploy
TRANSIENT_RETRY = "transient_retry" # transient retry budget exhausted
DEPLOY_DEGRADED = "deploy_degraded" # post-deploy DEGRADED -> repo freeze
class Attribution:
"""``attribution`` slugs (who a lesson is about — filled in later by a human /
the retrospective agent; auto-records leave it NULL or ``unknown``)."""
PLATFORM = "platform"
PROJECT = "project"
BOTH = "both"
UNKNOWN = "unknown"
class Domain:
"""``target_domain`` slugs (which improvement axis a lesson touches)."""
RELIABILITY = "reliability"
QUALITY = "quality"
ECONOMY = "economy"
FEATURES = "features"
SCALE = "scale"
class Status:
"""``status`` lifecycle slugs."""
NEW = "new"
IN_PROGRESS = "in_progress"
CLOSED = "closed"
LINKED = "linked"
def _enabled() -> bool:
"""Read the kill-switch; never raises (a config read fault -> treated as off)."""
try:
return bool(settings.lessons_enabled)
except Exception as e: # noqa: BLE001 - never-raise contract
logger.warning("lessons: kill-switch read error: %s", e)
return False
def record(lesson_type, *, work_item_id=None, task_id=None, stage=None, agent=None,
repo=None, root_cause=None, suggestion=None, status="new", related_task=None,
attribution=None, target_repo=None, target_domain=None, source="auto",
detail=None) -> int | None:
"""Record one lesson; return its new id, or ``None`` (no-op / error / deduped).
* Kill-switch off -> immediate ``None`` WITHOUT a DB access (FR-6 / AC-7).
* ``source="auto"`` records are DEDUPED (D4): a prior auto-lesson with the same
``(work_item_id, lesson_type, stage)`` within ``lessons_dedup_window_s`` ->
``None`` (so transient retry-storms / repeated rollbacks don't flood the
table). ``source="manual"`` is NEVER deduped (the operator / Стрим can always
write).
* never-raise (NFR-1 / AC-6): any DB / internal error -> ``logger.warning`` +
``None``; the caller (a hot-path rollback / HOLD / retry) is untouched.
"""
if not _enabled():
return None
if not lesson_type:
return None
try:
from . import db
if source == "auto":
try:
window = int(getattr(settings, "lessons_dedup_window_s", 3600) or 0)
except (TypeError, ValueError):
window = 3600
if window > 0 and db.lessons_recent_dup_exists(
work_item_id, lesson_type, stage, window
):
logger.debug(
"lessons: deduped auto %s for %s/%s (within %ss window)",
lesson_type, work_item_id, stage, window,
)
return None
return db.record_lesson(
lesson_type=lesson_type, work_item_id=work_item_id, task_id=task_id,
stage=stage, agent=agent, repo=repo, root_cause=root_cause,
suggestion=suggestion, status=status, related_task=related_task,
attribution=attribution, target_repo=target_repo,
target_domain=target_domain, source=source, detail=detail,
)
except Exception as e: # noqa: BLE001 - never-raise contract (NFR-1 / AC-6)
logger.warning("lessons.record(%s) error: %s", lesson_type, e)
return None
def get(*, lesson_type=None, status=None, repo=None, work_item_id=None,
limit=None) -> list[dict]:
"""Read-only fetch of lessons (newest first). never-raise -> ``[]`` on error /
when the kill-switch is off."""
if not _enabled():
return []
try:
if limit is None:
limit = getattr(settings, "lessons_query_limit_default", 100)
from . import db
return db.get_lessons(
lesson_type=lesson_type, status=status, repo=repo,
work_item_id=work_item_id, limit=limit,
)
except Exception as e: # noqa: BLE001 - never-raise contract
logger.warning("lessons.get error: %s", e)
return []
def update(lesson_id, **fields) -> bool:
"""Re-classify / re-status an existing lesson (status / attribution / target_* /
related_task / root_cause / suggestion). Stamps ``updated_at``. never-raise ->
``False`` on error / kill-switch off."""
if not _enabled():
return False
try:
from . import db
return db.update_lesson(lesson_id, **fields)
except Exception as e: # noqa: BLE001 - never-raise contract
logger.warning("lessons.update(%s) error: %s", lesson_id, e)
return False
def snapshot() -> dict:
"""Light read-only summary for the GET /queue ``lessons`` block. never-raise ->
a minimal dict (``{"enabled": False}`` when off / ``{"enabled": True}`` on
error)."""
if not _enabled():
return {"enabled": False}
try:
from . import db
out = {"enabled": True}
out.update(db.lessons_snapshot())
return out
except Exception as e: # noqa: BLE001 - never-raise contract
logger.warning("lessons.snapshot error: %s", e)
return {"enabled": True}

View File

@@ -1,4 +1,4 @@
from fastapi import FastAPI
from fastapi import FastAPI, Request
from contextlib import asynccontextmanager
import logging
from .db import init_db
@@ -89,6 +89,44 @@ async def lifespan(app: FastAPI):
except Exception as e:
log.warning(f"Log rotation skipped: {e}")
# ORCH-057 (D3 / FR-3): best-effort legacy-ownership detect. Surfaces a
# PROACTIVE operator signal (WARNING + Telegram) when /repos still holds
# root-owned files after the uid migration, BEFORE a task fails on launch.
# never-fatal (mirrors lease-reclaim / log-rotation above): a detect error must
# not crash the start of the shared instance. The actual "clear, early" failure
# is delivered by the actionable error in ensure_worktree (D1) — claim is NOT
# blocked (ADR-001 D3). Honours ORCH_FS_NORMALIZE_ENABLED inside scan_ownership.
try:
from .fs_normalize import scan_ownership, healing_command, normalize
from .config import settings as _fs_settings
scan = scan_ownership()
if scan.mismatch:
log.warning(
"FS-ownership mismatch: %d root(s) with files not owned by uid %s "
"(%s; sample: %s). Heal: %s",
len(scan.roots_mismatch), scan.target_uid,
", ".join(scan.roots_mismatch), scan.sample_path, healing_command(),
)
try:
from .notifications import send_telegram
send_telegram(
"⚠️ Orchestrator: обнаружены legacy root-owned файлы в "
f"{', '.join(scan.roots_mismatch)} (uid != {scan.target_uid}). "
f"Первый запуск задачи может упасть на создании worktree. "
f"Лечение: {healing_command()}"
)
except Exception:
pass
# D4 / FR-4: opt-in auto-chown ONLY when privileged (no-op under uid 1000).
if getattr(_fs_settings, "fs_normalize_auto", False):
try:
res = normalize()
log.warning("FS-ownership auto-normalize: %s", res.get("note"))
except Exception as e: # noqa: BLE001
log.warning("FS-ownership auto-normalize skipped: %s", e)
except Exception as e:
log.warning(f"FS-ownership detect skipped: {e}")
# Start the background job-queue worker (ORCH-1).
from .queue_worker import worker
worker.start()
@@ -171,8 +209,11 @@ async def queue():
from . import task_deps
from . import serial_gate
from . import coverage_gate
from . import fs_normalize
from . import labels
from . import cancel
from . import bug_fast_track
from . import lessons
from .disk_watchdog import disk_watchdog
from .build_cache_pruner import build_cache_pruner
return {
@@ -193,6 +234,10 @@ async def queue():
# ORCH-027 (FR-7 / AC-9): coverage-gate observability (read-only) —
# kill-switch, scope, policy/floor/epsilon, per-repo baselines. Additive block.
"coverage": coverage_gate.snapshot(),
# ORCH-057 (D6 / AC-4): legacy-ownership detect observability (read-only) —
# kill-switch, scope, target_uid, mismatch + affected roots (TTL-cached scan).
# Additive block; never-raise.
"fs_ownership": fs_normalize.snapshot(),
# ORCH-089 (D7): auto-mode-by-label observability (read-only) — kill-switch,
# label names, scope. Additive block.
"auto_labels": labels.snapshot(),
@@ -200,6 +245,14 @@ async def queue():
# repo scope, cancelled/deferred counts, recent cancellations. Additive block;
# never-raise.
"stop": cancel.snapshot(),
# ORCH-019 (FR-7 / AC-7): bug-fast-track observability (read-only) —
# kill-switch, label, scope, bug-task counts + the structural savings metric
# (architecture stages skipped). Additive block; never-raise.
"bug_fast_track": bug_fast_track.snapshot(),
# ORCH-098 (FR-4 / AC-4): lessons-journal observability (read-only) —
# kill-switch + counts by type/status + last N lessons. Additive block;
# never-raise (snapshot() returns {"enabled": ...} minimum on error).
"lessons": lessons.snapshot(),
# ORCH-063 (FR-6 / AC-7): disk-watchdog observability (read-only) —
# enabled, threshold, interval, last measurement per host-path. Additive
# block; never-raise (status() returns {"enabled": ...} minimum on error).
@@ -213,6 +266,26 @@ async def queue():
}
@app.get("/metrics")
async def metrics():
"""ORCH-099 (FND/F1a): lightweight read-only raw-signal snapshot for the F1b sidecar.
A versioned JSON envelope (``schema_version`` / ``generated_at`` / ``clk_tck``)
with four raw-signal sections — ``stages`` (active task stages + age),
``queue`` (counts / retries / breaker / concurrency), ``agents`` (agent-liveness:
pid / runtime / cpu_ticks), ``cost`` (per-run + aggregate tokens/cost). The
orchestrator emits ONLY raw signal it alone knows; the stateful arbiter
(thresholds / deltas / alerts) is the separate sidecar (BRD §1).
Thin wrapper over ``metrics.build_metrics()`` (in the style of GET /queue): the
collector is already strictly read-only and never-raise, so no extra error
handling is needed here. Same access level as /queue//status. The format is the
documented contract for the sidecar (docs/architecture/README.md).
"""
from . import metrics as metrics_mod
return metrics_mod.build_metrics()
@app.post("/serial-gate/unfreeze")
async def serial_gate_unfreeze(repo: str = ""):
"""ORCH-088 (FR-5, ADR-001 D4): manually clear a per-repo rollback-freeze.
@@ -242,6 +315,26 @@ async def serial_gate_unfreeze(repo: str = ""):
return {"ok": True, "repo": repo, "cleared": cleared, "frozen": frozen}
@app.post("/fs-normalize/check")
async def fs_normalize_check(normalize: bool = False):
"""ORCH-057 (D6 / AC-4): force a fresh legacy-ownership detect (bypass the TTL
cache) and return the snapshot. By образцу ``POST /serial-gate/unfreeze``.
``normalize=true`` additionally attempts an opt-in ``chown`` — a no-op under uid
1000 (the prod-self case), effective only when the process is privileged (D4).
The real fix remains the operator procedure (docs/operations/INFRA.md «Миграция
uid»). Read-only/never-raise otherwise.
"""
from . import fs_normalize as _fs
scan = _fs.scan_ownership(force=True)
out = {"ok": True, "scan": scan.to_dict(), "healing": _fs.healing_command()}
if normalize:
out["normalize"] = _fs.normalize()
# Re-scan so the returned snapshot reflects any change a privileged run made.
out["scan"] = _fs.scan_ownership(force=True).to_dict()
return out
@app.post("/coverage/baseline")
async def coverage_set_baseline(repo: str = "", value: float | None = None):
"""ORCH-027 (D8): manually set/override the per-repo coverage baseline.
@@ -260,3 +353,124 @@ async def coverage_set_baseline(repo: str = "", value: float | None = None):
repo = repo.strip()
ok = db.set_coverage_baseline(repo, value, sha="manual-override")
return {"ok": ok, "repo": repo, "baseline": db.get_coverage_baseline(repo)}
@app.post("/bug-fast-track/escalate")
async def bug_fast_track_escalate(work_item: str = ""):
"""ORCH-019 (FR-5 / AC-5, ADR-001 D5): escalate a bug-fast-track task to the
full cycle (return it to the route WITH `architecture`).
Operator path for a bug that turned out to be complex / architectural / visual
(needs an ADR or a mock): reset ``tasks.track`` 'bug' -> 'full'. Apply while the
task is still in `analysis` (before its exit) — the next advance_stage then routes
analysis -> architecture normally. By образцу ``POST /serial-gate/unfreeze`` /
``POST /coverage/baseline``. never-raise.
"""
from . import db
if not work_item or not work_item.strip():
return {"ok": False, "error": "missing 'work_item'", "work_item": work_item}
work_item = work_item.strip()
task = db.get_task_by_work_item_id(work_item)
if not task:
return {"ok": False, "error": "unknown work_item", "work_item": work_item}
prev_track = task.get("track") or "full"
db.set_task_track(task["id"], "full")
if prev_track == "bug":
try:
from .notifications import send_telegram
send_telegram(
f"🐞➡️ {work_item}: эскалация в ПОЛНЫЙ цикл "
f"(багфикс-трек снят, стадия architecture восстановлена)."
)
except Exception:
pass
try:
from .plane_sync import add_comment
add_comment(
work_item,
"🐞➡️ Эскалация: задача возвращена в полный цикл "
"(багфикс-трек снят, стадия architecture восстановлена).",
author="analyst",
)
except Exception:
pass
return {"ok": True, "work_item": work_item, "track": "full", "was": prev_track}
# ---------------------------------------------------------------------------
# ORCH-098 (FR-4 / FR-5, ADR-001 D5): machine lessons-journal endpoints.
# Read-only fetch + manual record + re-classify. All never-raise; with the
# kill-switch off they return {"enabled": false} (style of /metrics, AC-7).
# ---------------------------------------------------------------------------
@app.get("/lessons")
async def lessons_list(
type: str = "", status: str = "", repo: str = "", work_item: str = "",
limit: int | None = None,
):
"""ORCH-098: read-only lessons fetch with optional filters (type / status / repo
/ work_item / limit). Always 200; reading never mutates. ``lessons_enabled=False``
-> ``{"enabled": false}``."""
from . import lessons
from .config import settings
if not getattr(settings, "lessons_enabled", True):
return {"enabled": False, "lessons": []}
rows = lessons.get(
lesson_type=(type or None), status=(status or None), repo=(repo or None),
work_item_id=(work_item or None), limit=limit,
)
return {"enabled": True, "lessons": rows}
@app.post("/lessons")
async def lessons_create(request: Request):
"""ORCH-098: manually record a lesson (``source="manual"``, never deduped). JSON
body: ``lesson_type`` (required) + optional context / analysis / attribution
fields. Returns ``{"id": <int>}`` or ``{"enabled": false}`` /
``{"error": ...}``."""
from . import lessons
from .config import settings
if not getattr(settings, "lessons_enabled", True):
return {"enabled": False}
try:
body = await request.json()
except Exception: # noqa: BLE001 - malformed body
body = {}
if not isinstance(body, dict):
body = {}
lesson_type = body.get("lesson_type")
if not lesson_type:
return {"ok": False, "error": "missing 'lesson_type'"}
# Only forward known fields; source is forced to "manual" (operator/Стрим).
allowed = (
"work_item_id", "task_id", "stage", "agent", "repo", "root_cause",
"suggestion", "status", "related_task", "attribution", "target_repo",
"target_domain", "detail",
)
kwargs = {k: body[k] for k in allowed if k in body}
new_id = lessons.record(lesson_type, source="manual", **kwargs)
return {"id": new_id}
@app.post("/lessons/{lesson_id}")
async def lessons_update(lesson_id: int, request: Request):
"""ORCH-098: re-classify / re-status an existing lesson (status / attribution /
target_* / related_task / root_cause / suggestion). Lets a human / the
retrospective agent classify an auto-recorded ``unknown``. Returns
``{"ok": bool}`` or ``{"enabled": false}``."""
from . import lessons
from .config import settings
if not getattr(settings, "lessons_enabled", True):
return {"enabled": False}
try:
body = await request.json()
except Exception: # noqa: BLE001 - malformed body
body = {}
if not isinstance(body, dict):
body = {}
allowed = (
"status", "attribution", "target_repo", "target_domain", "related_task",
"root_cause", "suggestion", "stage", "agent", "repo", "detail",
)
kwargs = {k: body[k] for k in allowed if k in body}
ok = lessons.update(lesson_id, **kwargs)
return {"ok": ok}

276
src/metrics.py Normal file
View File

@@ -0,0 +1,276 @@
"""ORCH-099 (FND/F1a): lightweight read-only ``/metrics`` raw-signal collector.
A leaf module that builds a versioned JSON snapshot of the orchestrator's own
raw state for the future observability sidecar (F1b, ``watchdog/``): active task
stages, the job queue, agent-liveness, and cost/tokens. The orchestrator emits
ONLY raw signal it alone knows — the sidecar is the stateful arbiter that
computes thresholds / deltas / alerts (BRD §1, observer separated from observed).
Design (ADR-001, by образцу ``serial_gate.snapshot()`` / ``cancel.snapshot()``):
* pure, never-raise, no side effects — only reads existing tables
(``tasks`` / ``jobs`` / ``agent_runs``) and the in-memory worker snapshot;
* ``build_metrics()`` assembles the envelope section-by-section, each section in
its own ``try/except`` with a safe default (``None`` / ``[]`` / ``{}``) so a
failing source degrades one field, never the whole endpoint (FR-6, NFR-2);
* strictly read-only — no INSERT/UPDATE/DELETE/CREATE/ALTER, no process control,
no network. Self-hosting-safe on the shared prod instance.
The endpoint ``GET /metrics`` (``src/main.py``) is a thin wrapper that returns
``build_metrics()`` as-is.
"""
from __future__ import annotations
import logging
import os
from datetime import datetime, timezone
logger = logging.getLogger("orchestrator.metrics")
# Contract version for the sidecar (D2). Additive changes (new field/section) do
# NOT bump it — the sidecar MUST ignore unknown keys and tolerate missing
# optional ones. Bumped ONLY on a breaking change (rename/remove/retype an
# existing field).
SCHEMA_VERSION = 1
def _now_iso() -> str:
"""UTC ISO-8601 snapshot timestamp (``...Z``), the orchestrator's own clock.
Same clock domain as the SQLite ``datetime('now')`` timestamps and the CPU
tick reads, so the sidecar's ``(cpu_ticks, generated_at)`` deltas are immune
to orchestrator↔sidecar clock skew (TR-3). Never raises.
"""
try:
return datetime.now(timezone.utc).strftime("%Y-%m-%dT%H:%M:%SZ")
except Exception as e: # noqa: BLE001 - never-raise
logger.warning("metrics._now_iso error: %s", e)
return ""
def _clk_tck() -> int | None:
"""Process-global SC_CLK_TCK (ticks/second) — the basis for converting raw CPU
ticks to seconds on the sidecar side. ``None`` on non-Linux / failure.
"""
try:
return int(os.sysconf("SC_CLK_TCK"))
except Exception as e: # noqa: BLE001 - never-raise (non-Linux / unsupported)
logger.warning("metrics._clk_tck error: %s", e)
return None
def _read_cpu_ticks(pid: int | None) -> int | None:
"""Sum of utime+stime (CPU ticks) from ``/proc/<pid>/stat`` — raw liveness signal.
The orchestrator emits raw ticks and does NOT compute the delta — the sidecar
is the stateless arbiter (it divides ``(ticks₂ticks₁)/clk_tck`` by the
``generated_at`` delta to get a CPU fraction; a tiny fraction at a growing
``runtime_s`` ⇒ a "stuck" candidate). Parsing is robust to spaces in ``comm``:
fields are read AFTER the closing ``") "`` of the process name (canonical
proc-stat read). utime = field 14, stime = field 15 → indices 11 and 12 of the
post-``)`` token list (fields 3.. shift by 3).
never-raise (NFR-2, AC-6): ``pid is None`` / missing ``/proc/<pid>`` (process
died or non-Linux) / any parse error → ``None`` (NOT an exception). The caller
keeps every other field and the whole endpoint intact.
"""
if pid is None:
return None
try:
with open(f"/proc/{int(pid)}/stat", "r") as f:
data = f.read()
rparen = data.rfind(") ")
if rparen == -1:
return None
rest = data[rparen + 2:].split()
# rest[0] = state (field 3); utime = field 14 -> rest[11], stime -> rest[12]
return int(rest[11]) + int(rest[12])
except Exception: # noqa: BLE001 - dead pid / no /proc / non-Linux -> null
return None
def _build_stages() -> list:
"""Active (non-terminal) task stages (D3, FR-1).
Source: ``db.get_active_tasks_for_reconcile()`` (``stage != 'done'`` + SQL
``age_s``), with an extra ``stage NOT IN ('done','cancelled')`` filter on the
metrics side: that helper deliberately still returns ``cancelled`` tasks for
the reconciler's skip-counter (ORCH-086), but terminal tasks are not raw
observability signal (terminal set ``{done, cancelled}``, ORCH-090). The helper
invariant belongs to ORCH-053/086 — we filter at the consumer, not the source.
"""
from . import db
rows = db.get_active_tasks_for_reconcile()
out = []
for t in rows:
if t.get("stage") in ("done", "cancelled"):
continue
out.append({
"work_item": t.get("work_item_id"),
"stage": t.get("stage"),
"age_in_stage_s": t.get("age_s"),
"repo": t.get("repo"),
"task_id": t.get("id"),
})
return out
def _build_queue() -> dict:
"""Job-queue raw signal (D4, FR-2): counts, depth, retries, breaker, concurrency.
Each sub-source is independently guarded: an uninitialised ``worker`` (e.g. in
a test) degrades to ``breaker: null`` / ``max_concurrency: null`` — never a 500
(NFR-2).
"""
from . import db
counts = None
try:
counts = db.job_status_counts()
except Exception as e: # noqa: BLE001
logger.warning("metrics queue counts error: %s", e)
retries = None
try:
retries = db.queue_retry_stats()
except Exception as e: # noqa: BLE001
logger.warning("metrics queue retries error: %s", e)
breaker = None
max_concurrency = None
poll_interval = None
try:
from .queue_worker import worker
try:
breaker = worker.breaker.snapshot()
except Exception as e: # noqa: BLE001
logger.warning("metrics breaker snapshot error: %s", e)
max_concurrency = getattr(worker, "max_concurrency", None)
poll_interval = getattr(worker, "poll_interval", None)
except Exception as e: # noqa: BLE001 - worker not initialised
logger.warning("metrics worker access error: %s", e)
depth = counts.get("queued") if isinstance(counts, dict) else None
return {
"counts": counts,
"depth": depth,
"retries": retries,
"breaker": breaker,
"max_concurrency": max_concurrency,
"poll_interval": poll_interval,
}
def _build_agents() -> list:
"""Agent-liveness raw signal (D5/D6, FR-3).
One entry per running job from ``db.get_running_agents()`` with process
identity (``agent`` / ``run_id`` / ``job_id`` / ``pid``), ``runtime_s``
(= ``running_age_s``, anchored on ``jobs.started_at``, D6), ``model`` /
``effort``, and the raw ``cpu_ticks`` from ``/proc/<pid>/stat``. ``pid is
None`` / dead process → ``cpu_ticks: null`` for THAT agent; the rest stays
intact (AC-6, TC-05).
"""
from . import db
rows = db.get_running_agents()
out = []
for j in rows:
pid = j.get("pid")
out.append({
"agent": j.get("agent"),
"run_id": j.get("run_id"),
"job_id": j.get("job_id"),
"repo": j.get("repo"),
"pid": pid,
"runtime_s": j.get("running_age_s"),
"model": j.get("model"),
"effort": j.get("effort"),
"cpu_ticks": _read_cpu_ticks(pid),
})
return out
def _build_cost() -> dict:
"""Cost / token raw signal (D7, FR-4).
``running`` — current per-running-job accruals from ``agent_runs`` (often
``null`` until the job finishes and the launcher parses the CLI JSON — ``null``
is honest raw, NOT zero, TR-5). ``aggregate`` — summed totals over all
``agent_runs`` (empty table → zeros, TC-06/TC-11).
"""
from . import db
running = []
try:
for j in db.get_running_agents():
running.append({
"run_id": j.get("run_id"),
"job_id": j.get("job_id"),
"agent": j.get("agent"),
"cost_usd": j.get("cost_usd"),
"input_tokens": j.get("input_tokens"),
"output_tokens": j.get("output_tokens"),
"cache_read_tokens": j.get("cache_read_tokens"),
"cache_creation_tokens": j.get("cache_creation_tokens"),
})
except Exception as e: # noqa: BLE001
logger.warning("metrics cost.running error: %s", e)
running = []
aggregate = None
try:
aggregate = db.agent_cost_totals()
except Exception as e: # noqa: BLE001
logger.warning("metrics cost.aggregate error: %s", e)
return {"running": running, "aggregate": aggregate}
def build_metrics() -> dict:
"""Assemble the ``/metrics`` envelope (FR-5). never-raise (FR-6, NFR-2, AC-4).
Each section is collected in its own ``try/except`` with a safe default so a
failing source degrades one section, not the whole response. Honours the
``metrics_endpoint_enabled`` kill-switch (D8): when off, returns a minimal
parsable body ``{"schema_version", "enabled": false}`` (200, NOT 404) so the
sidecar sees the off-switch explicitly.
"""
try:
from .config import settings
if not bool(getattr(settings, "metrics_endpoint_enabled", True)):
return {"schema_version": SCHEMA_VERSION, "enabled": False}
except Exception as e: # noqa: BLE001 - kill-switch read must never break /metrics
logger.warning("metrics kill-switch read error: %s", e)
out: dict = {
"schema_version": SCHEMA_VERSION,
"generated_at": _now_iso(),
"clk_tck": _clk_tck(),
}
try:
out["stages"] = _build_stages()
except Exception as e: # noqa: BLE001
logger.warning("metrics stages section error: %s", e)
out["stages"] = []
try:
out["queue"] = _build_queue()
except Exception as e: # noqa: BLE001
logger.warning("metrics queue section error: %s", e)
out["queue"] = None
try:
out["agents"] = _build_agents()
except Exception as e: # noqa: BLE001
logger.warning("metrics agents section error: %s", e)
out["agents"] = []
try:
out["cost"] = _build_cost()
except Exception as e: # noqa: BLE001
logger.warning("metrics cost section error: %s", e)
out["cost"] = None
return out

View File

@@ -452,10 +452,18 @@ def render_task_tracker(task_id: int) -> str:
task_repo = _row_get(task, "repo")
task_issue_id = _row_get(task, "plane_issue_id")
num_html = plane_issue_link(work_item_id, plane_issue_id=task_issue_id, repo=task_repo)
# ORCH-019 (D7): mark a bug-fast-track task with a \ud83d\udc1e in the header. Optional,
# never-raise \u2014 any error simply omits the marker (the card always renders).
bug_marker = ""
try:
if (_row_get(task, "track") or "").strip().lower() == "bug":
bug_marker = "\U0001f41e "
except Exception:
bug_marker = ""
header = (
f"\U0001f389 {num_html} \u00b7 {esc_title} \u2014 \u0413\u041e\u0422\u041e\u0412\u041e"
f"\U0001f389 {bug_marker}{num_html} \u00b7 {esc_title} \u2014 \u0413\u041e\u0422\u041e\u0412\u041e"
if done
else f"\U0001f6e0\ufe0f {num_html} \u00b7 {esc_title}"
else f"\U0001f6e0\ufe0f {bug_marker}{num_html} \u00b7 {esc_title}"
)
bar = "\u2501" * 22
# ORCH-067 (req 2): a Plane-status line (model ORCH-066) under the header.

View File

@@ -30,7 +30,7 @@ import os
import time
from dataclasses import dataclass, field
from .db import get_db, update_task_stage, enqueue_job
from .db import get_db, update_task_stage, enqueue_job, get_task_track
from .stages import get_next_stage, get_qg_for_stage, get_agent_for_stage
from .git_worktree import get_worktree_path
from .review_parse import extract_review_findings, extract_test_failures
@@ -40,6 +40,7 @@ from . import merge_gate
from . import self_deploy
from . import post_deploy
from . import labels
from . import bug_fast_track
from .notifications import (
notify_stage_change,
notify_qg_failure,
@@ -212,6 +213,25 @@ def advance_stage(
try:
qg_name = get_qg_for_stage(current_stage)
next_stage = get_next_stage(current_stage)
# --- ORCH-019 bug-fast-track routing-override (ADR-001 D3) ------------
# A task carrying the Plane `Bug` label is stored as tasks.track='bug' in
# start_pipeline. On the analysis-EXIT edge we map analysis -> architecture
# to analysis -> development, so a bug skips the whole `architecture` stage
# (one opus architect run + ADR + check_architecture_done). This is a pure
# routing-override: STAGE_TRANSITIONS / get_next_stage / get_agent_for_stage
# stay 1:1, and the track is read from the DB (no network in this hot path,
# NFR-4). For a non-bug task (track='full', the DEFAULT) the route is
# byte-for-byte unchanged. The `track` is reused below for the next-agent
# override and the brd-review-clock stamp.
track = get_task_track(task_id)
if current_stage == "analysis" and bug_fast_track.skips_architecture(track):
next_stage = "development"
logger.info(
f"Task {task_id}: bug-fast-track -> analysis -> development "
f"(skipping architecture, ORCH-019)"
)
result.qg_name = qg_name
result.to_stage = next_stage
@@ -383,7 +403,11 @@ def advance_stage(
# Telegram live tracker: the analysis->architecture advance is the human
# Approved gate clearing -> stamp the END of "Ревью БРД" (the only
# human time). Idempotent: only the first stamp counts.
if current_stage == "analysis" and next_stage == "architecture":
# ORCH-019 (ADR-001 D3): for a bug-fast-track task the analysis-exit edge
# lands on `development` (not `architecture`), so the brd-review-clock end
# stamp must trigger on BOTH targets — otherwise "твоё время" (ORCH-087)
# would never close on the bug track. This does not touch any gate.
if current_stage == "analysis" and next_stage in ("architecture", "development"):
try:
from .db import mark_brd_review_ended
mark_brd_review_ended(task_id)
@@ -462,6 +486,12 @@ def advance_stage(
# --- Launch the next agent (ORCH-4 fix: current_stage, not next) -----
next_agent = get_agent_for_stage(current_stage)
# ORCH-019 (ADR-001 D3): get_agent_for_stage('analysis') is 'architect'; for a
# bug-fast-track task we skip the architect run entirely and launch the
# developer directly (mirrors the next_stage override above). get_agent_for_stage
# stays pure (1:1) — the override lives here, NOT in stages.py.
if current_stage == "analysis" and next_stage == "development":
next_agent = "developer"
if next_agent:
task_desc = (
f"Work item: {work_item_id}\nRepo: {repo}\n"
@@ -897,6 +927,24 @@ def _handle_qg_failure_rollbacks(
f"development ({reason})"
)
# ORCH-098 (FR-3a / D3): machine lessons-journal — auto-record a `gate_failure`
# lesson whenever a quality gate rolled this task back to `development`
# (reviewer REQUEST_CHANGES / tester FAIL / staging FAILED / deploy FAILED — all
# four branches above set result.rolled_back_to="development"). One best-effort
# call covers every rollback branch; lessons.record is never-raise + deduped, and
# this guard ensures even an import fault can't escape into the hot rollback path.
if result.rolled_back_to == "development":
try:
from . import lessons
lessons.record(
lessons.LessonType.GATE_FAILURE,
work_item_id=work_item_id, task_id=task_id, stage=current_stage,
agent=agent, repo=repo, root_cause=reason, detail=qg_name,
source="auto",
)
except Exception as e: # noqa: BLE001 - never break the rollback path
logger.warning(f"Task {task_id}: lessons gate_failure record failed: {e}")
# ---------------------------------------------------------------------------
# ORCH-043: merge-gate sub-gate on the deploy-staging -> deploy edge
@@ -1696,6 +1744,19 @@ def _handle_merge_verify(task_id, repo, work_item_id, branch, result: AdvanceRes
result.alerted = True
result.note = "merge-not-verified-hold"
result.advanced = False
# ORCH-098 (FR-3b / D3): auto-record a `merge_hold` lesson — deploy succeeded
# but `main` never got the commit, so the task is held on `deploy` (not done).
# best-effort, never-raise, deduped; can't escape into the HOLD path.
try:
from . import lessons
lessons.record(
lessons.LessonType.MERGE_HOLD,
work_item_id=work_item_id, task_id=task_id, stage="deploy",
repo=repo, root_cause="merge-not-verified-hold", detail=merge_msg,
source="auto",
)
except Exception as e: # noqa: BLE001 - never break the HOLD
logger.warning(f"Task {task_id}: lessons merge_hold record failed: {e}")
return True
except Exception as e: # noqa: BLE001 - never-raise contract (INV-1/AC-7)
# Any internal error -> treat as "not confirmed" -> HOLD + alert, never crash.
@@ -1979,6 +2040,24 @@ def run_post_deploy_monitor(job: dict):
except Exception as e: # noqa: BLE001 - never break the tick
logger.warning(f"post-deploy: set_repo_freeze failed for {repo}: {e}")
# ORCH-098 (FR-3d / D3): auto-record a `deploy_degraded` lesson — "deploy OK /
# prod broken" (layer-3, ET-8). attribution left "unknown" + target_domain
# "reliability" for a human / the retrospective agent to classify later (this is
# exactly the signal Слава required the attribution columns for). best-effort,
# never-raise; can't escape into the monitor tick.
try:
from . import lessons
reason = f"post-deploy DEGRADED ({checks_failed}/{checks_total})"
lessons.record(
lessons.LessonType.DEPLOY_DEGRADED,
work_item_id=work_item_id, repo=repo, stage="deploy",
root_cause=reason, attribution=lessons.Attribution.UNKNOWN,
target_repo=repo, target_domain=lessons.Domain.RELIABILITY,
source="auto",
)
except Exception as e: # noqa: BLE001 - never break the tick
logger.warning(f"post-deploy: lessons deploy_degraded record failed for {repo}: {e}")
post_deploy.write_post_deploy_log(
repo, work_item_id, branch, post_deploy.DEGRADED, action_taken,
settings.post_deploy_window_s, checks_total, checks_failed,

View File

@@ -18,6 +18,7 @@ from ..db import (
enqueue_job,
insert_event_dedup,
create_task_atomic,
set_task_track,
)
from ._dedup import plane_delivery_id
from ..stages import get_next_stage, get_agent_for_stage, get_qg_for_stage, get_previous_stage
@@ -648,6 +649,42 @@ async def start_pipeline(data: dict, project_id: str = ""):
return
task_id = task_row["id"]
# ORCH-019 (FR-1/FR-2, ADR-001 D1/D2): classify the task as a bug-fix and put it
# on the cheaper bug-fast-track (skips the `architecture` stage downstream). The
# gate idiom is `applies(repo) and is_bug_task(...)`: the LOCAL, network-free
# `bug_fast_track_applies` is checked FIRST so a disabled kill-switch / out-of-scope
# repo costs ZERO network (no has_label call). The Plane `Bug` label is the source
# of truth (read here at start, NEVER in the hot claim_next_job — NFR-4); the type
# is persisted in tasks.track so advance_stage routes off the DB, not the network.
# never-raise / fail-safe: ANY error -> task stays track='full' (full cycle, AC-6).
try:
from .. import bug_fast_track
if bug_fast_track.bug_fast_track_applies(repo) and bug_fast_track.is_bug_task(
work_item_id, plane_project_id
):
set_task_track(task_id, "bug")
logger.info(
f"Task {work_item_id}: classified as BUG -> bug-fast-track "
f"(architecture stage will be skipped, ORCH-019)"
)
try:
from ..plane_sync import add_comment as _bug_comment
_bug_comment(
work_item_id,
"\U0001f41e Багфикс-трек: "
"упрощённый маршрут "
"(пропуск стадии architecture). "
"Все Quality Gate исполняются.",
author="analyst",
)
except Exception:
pass
except Exception as e:
logger.warning(
f"Task {work_item_id}: bug-fast-track classification skipped "
f"(fail-safe -> full cycle): {e}"
)
# ORCH-088 (FR-1/AC-6, ADR-001 D1): DEFER the branch cut for an applicable repo.
# Creating the Gitea branch here (T0, issue -> analysis) would cut it from `main`
# BEFORE the predecessor is merged -> stale base. When the serial gate applies we

View File

@@ -77,6 +77,34 @@ def _reset_webhook_secrets(monkeypatch):
yield
@pytest.fixture(autouse=True)
def _isolate_runs_dir(monkeypatch, tmp_path):
"""ORCH-100: point settings.runs_dir at a per-test tmp dir in ALL tests.
Background: ``launcher._run_log_path(run_id)`` resolves to
``<settings.runs_dir>/<run_id>.log`` and, on a non-zero exit,
``_finalize_job`` classifies the failure by reading the *tail of that log*
(transient 429/overload/timeout -> backoff-requeue; permanent -> attempts
requeue then 'failed'). settings.runs_dir defaults to the live prod dir
``/app/data/runs``, which on the self-hosting host holds REAL accumulated
agent logs (1.log, 2.log, ...). Tests that exercise the finalize path with a
small literal run_id (e.g. test_finalize_job_requeue_then_fail uses run_id=1/2)
therefore read whatever a real prod run happened to log — and a real 2.log that
contains "429" silently flips an expected 'permanent' classification to
'transient', requeueing instead of failing. That is ambient prod pollution, not
a code fault.
Redirecting runs_dir to an empty tmp dir makes _run_log_path() resolve to a
non-existent file -> classify_log_file() returns the documented 'permanent'
default, restoring deterministic, environment-independent behaviour for the
whole suite. settings is a process-wide singleton shared by launcher
(``launcher.settings is config.settings``), so patching the source covers it.
"""
from src import config as _cfg
monkeypatch.setattr(_cfg.settings, "runs_dir", str(tmp_path), raising=False)
yield
@pytest.fixture(autouse=True)
def _disable_merge_verify(monkeypatch):
"""ORCH-071: disable the merge-verify under-gate by default in ALL tests.

68
tests/test_api_queue.py Normal file
View File

@@ -0,0 +1,68 @@
"""ORCH-057 TC-12: GET /queue exposes the read-only fs_ownership block.
The block carries {enabled, target_uid, mismatch, roots_checked, roots_mismatch,
sample_path, checked_at, ...} and /queue must not 5xx whether the layer is on or off.
"""
import os
import tempfile
import pytest
_test_db = os.path.join(tempfile.gettempdir(), "test_orchestrator_apiq.db")
os.environ["ORCH_DB_PATH"] = _test_db
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
os.environ["ORCH_GITEA_TOKEN"] = "test-token"
os.environ["ORCH_PLANE_API_TOKEN"] = "test-token"
os.environ["ORCH_PLANE_WEBHOOK_SECRET"] = ""
os.environ["ORCH_GITEA_WEBHOOK_SECRET"] = ""
from fastapi.testclient import TestClient
from src import fs_normalize
from src.main import app
from src.db import init_db
client = TestClient(app)
@pytest.fixture(autouse=True)
def _db():
if os.path.exists(_test_db):
os.unlink(_test_db)
init_db()
fs_normalize.reset_cache()
yield
if os.path.exists(_test_db):
os.unlink(_test_db)
def test_tc12_queue_exposes_fs_ownership_block(monkeypatch):
"""TC-12: GET /queue returns the fs_ownership block with the documented shape."""
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_enabled", True)
r = client.get("/queue")
assert r.status_code == 200
body = r.json()
assert "fs_ownership" in body
block = body["fs_ownership"]
for k in ("enabled", "target_uid", "mismatch", "roots_checked",
"roots_mismatch", "sample_path", "checked_at"):
assert k in block
def test_tc12_queue_no_5xx_when_disabled(monkeypatch):
"""TC-12: with the kill-switch off /queue still returns 200 (no 5xx)."""
monkeypatch.setattr(fs_normalize.settings, "fs_normalize_enabled", False)
fs_normalize.reset_cache()
r = client.get("/queue")
assert r.status_code == 200
assert r.json()["fs_ownership"]["enabled"] is False
def test_fs_normalize_check_endpoint():
"""The optional POST /fs-normalize/check force-rescans and returns the snapshot."""
r = client.post("/fs-normalize/check")
assert r.status_code == 200
body = r.json()
assert body["ok"] is True
assert "scan" in body and "mismatch" in body["scan"]
assert "healing" in body

View File

@@ -0,0 +1,168 @@
"""ORCH-019 — src/bug_fast_track.py: bug-fast-track pure logic (never-raise, fail-safe).
Covers (04-test-plan.yaml):
TC-01 is_bug_task() True for an issue carrying the `Bug` label (label read from
the Plane API via labels.has_label, NOT the webhook payload).
TC-02 is_bug_task() False on missing/ambiguous label or labels=None (fail-safe).
TC-03 bug_fast_track_applies(): the LOCAL scope (enabled + CSV repos) is checked
FIRST, before any network; disabled flag -> False without has_label.
TC-04 never-raise: an exception in the label apparatus degrades is_bug_task to
False (full cycle), never propagates.
"""
import os
import tempfile
import pytest
os.environ.setdefault(
"ORCH_DB_PATH", os.path.join(tempfile.gettempdir(), "test_bug_fast_track.db")
)
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
from src import bug_fast_track # noqa: E402
from src import plane_sync # noqa: E402
from src import config as cfg # noqa: E402
@pytest.fixture(autouse=True)
def enabled_self_hosting(monkeypatch):
monkeypatch.setattr(cfg.settings, "bug_fast_track_enabled", True, raising=False)
monkeypatch.setattr(cfg.settings, "bug_fast_track_label", "Bug", raising=False)
monkeypatch.setattr(cfg.settings, "bug_fast_track_repos", "", raising=False)
# Keep _resolve_project_id offline-deterministic (mirrors test_labels.py).
monkeypatch.setattr(plane_sync, "_resolve_project_id", lambda w=None, p=None: "proj-1")
yield
# --- TC-01: classification True --------------------------------------------
def test_tc01_is_bug_task_true(monkeypatch):
monkeypatch.setattr(plane_sync, "fetch_issue_labels", lambda w, p=None: ["uuid-BUG"])
monkeypatch.setattr(plane_sync, "get_project_labels", lambda pid: {"bug": "uuid-BUG"})
assert bug_fast_track.is_bug_task("ORCH-1", "proj-1") is True
def test_tc01_label_from_plane_api_not_payload(monkeypatch):
"""The decision comes from labels.has_label (Plane API), independent of any
webhook payload field — a payload `type` is irrelevant."""
seen = {"fetch": 0}
def fetch(w, p=None):
seen["fetch"] += 1
return ["uuid-BUG"]
monkeypatch.setattr(plane_sync, "fetch_issue_labels", fetch)
monkeypatch.setattr(plane_sync, "get_project_labels", lambda pid: {"bug": "uuid-BUG"})
assert bug_fast_track.is_bug_task("ORCH-1", "proj-1") is True
assert seen["fetch"] == 1 # the Plane API WAS consulted
# --- TC-02: fail-safe on absent / ambiguous / None -------------------------
def test_tc02_label_absent(monkeypatch):
monkeypatch.setattr(plane_sync, "fetch_issue_labels", lambda w, p=None: ["uuid-OTHER"])
monkeypatch.setattr(plane_sync, "get_project_labels", lambda pid: {"bug": "uuid-BUG"})
assert bug_fast_track.is_bug_task("ORCH-1", "proj-1") is False
def test_tc02_labels_none(monkeypatch):
monkeypatch.setattr(plane_sync, "fetch_issue_labels", lambda w, p=None: None)
monkeypatch.setattr(plane_sync, "get_project_labels", lambda pid: {"bug": "uuid-BUG"})
assert bug_fast_track.is_bug_task("ORCH-1", "proj-1") is False
def test_tc02_label_ambiguous(monkeypatch):
monkeypatch.setattr(plane_sync, "fetch_issue_labels", lambda w, p=None: ["uuid-BUG"])
monkeypatch.setattr(
plane_sync, "get_project_labels", lambda pid: {"bug": "__AMBIGUOUS__"}
)
assert bug_fast_track.is_bug_task("ORCH-1", "proj-1") is False
def test_tc02_empty_label_config(monkeypatch):
monkeypatch.setattr(cfg.settings, "bug_fast_track_label", "", raising=False)
monkeypatch.setattr(plane_sync, "fetch_issue_labels", lambda w, p=None: ["uuid-BUG"])
monkeypatch.setattr(plane_sync, "get_project_labels", lambda pid: {"bug": "uuid-BUG"})
assert bug_fast_track.is_bug_task("ORCH-1", "proj-1") is False
# --- TC-03: local scope first (CSV + self-hosting + kill-switch) ------------
def test_tc03_empty_csv_self_hosting_only(monkeypatch):
monkeypatch.setattr(cfg.settings, "bug_fast_track_repos", "", raising=False)
assert bug_fast_track.bug_fast_track_applies("orchestrator") is True
assert bug_fast_track.bug_fast_track_applies("enduro-trails") is False
def test_tc03_csv_membership(monkeypatch):
monkeypatch.setattr(cfg.settings, "bug_fast_track_repos", "enduro-trails, foo", raising=False)
assert bug_fast_track.bug_fast_track_applies("enduro-trails") is True
assert bug_fast_track.bug_fast_track_applies("foo") is True
# orchestrator is NOT in the explicit CSV -> out of scope.
assert bug_fast_track.bug_fast_track_applies("orchestrator") is False
def test_tc03_killswitch_off_no_network(monkeypatch):
"""The gate idiom `applies(repo) and is_bug_task(...)` short-circuits before any
network call when the kill-switch is off (AC-6)."""
monkeypatch.setattr(cfg.settings, "bug_fast_track_enabled", False, raising=False)
called = {"fetch": 0}
def spy(*a, **k):
called["fetch"] += 1
return ["uuid-BUG"]
monkeypatch.setattr(plane_sync, "fetch_issue_labels", spy)
repo = "orchestrator"
fired = bug_fast_track.bug_fast_track_applies(repo) and bug_fast_track.is_bug_task(
"ORCH-1", "proj-1"
)
assert fired is False
assert called["fetch"] == 0 # is_bug_task never reached -> zero network
# --- TC-04: never-raise -----------------------------------------------------
def test_tc04_is_bug_task_never_raises(monkeypatch):
def boom(*a, **k):
raise RuntimeError("plane down")
monkeypatch.setattr(plane_sync, "fetch_issue_labels", boom)
monkeypatch.setattr(plane_sync, "get_project_labels", lambda pid: {"bug": "uuid-BUG"})
# Degrades to False (full cycle), no exception.
assert bug_fast_track.is_bug_task("ORCH-1", "proj-1") is False
def test_tc04_applies_never_raises(monkeypatch):
# A repos config whose access explodes still yields False, not a crash.
class _Poisoned:
bug_fast_track_enabled = True
@property
def bug_fast_track_repos(self):
raise RuntimeError("boom")
monkeypatch.setattr(bug_fast_track, "settings", _Poisoned(), raising=False)
assert bug_fast_track.bug_fast_track_applies("orchestrator") is False
# --- skips_architecture predicate ------------------------------------------
def test_skips_architecture_bug(monkeypatch):
assert bug_fast_track.skips_architecture("bug") is True
assert bug_fast_track.skips_architecture("BUG") is True
def test_skips_architecture_full(monkeypatch):
assert bug_fast_track.skips_architecture("full") is False
assert bug_fast_track.skips_architecture(None) is False
assert bug_fast_track.skips_architecture("") is False
def test_skips_architecture_killswitch_off(monkeypatch):
monkeypatch.setattr(cfg.settings, "bug_fast_track_enabled", False, raising=False)
# Even a stored 'bug' track is inert when the kill-switch is off (1:1 routing).
assert bug_fast_track.skips_architecture("bug") is False
# --- snapshot ---------------------------------------------------------------
def test_snapshot_never_raises():
snap = bug_fast_track.snapshot()
assert set(snap) >= {
"enabled", "label", "repos",
"active_bug_tasks", "total_bug_tasks", "est_saved_architecture_runs",
}

View File

@@ -0,0 +1,87 @@
"""ORCH-019 — composition with ORCH-088 serial-gate / ORCH-089 auto-label (AC-9).
Covers (04-test-plan.yaml):
TC-14 A bug-fast-track task is an ORDINARY repo task for the serial gate
(ORCH-088): it counts as an active task and is gated like any other — it
does NOT bypass serialisation. autoApprove/autoDeploy (ORCH-089) apply on
the bug track (scope is repo-based, track-agnostic).
"""
import os
import tempfile
import pytest
os.environ["ORCH_DB_PATH"] = os.path.join(tempfile.gettempdir(), "test_bft_composition.db")
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
import src.db as db # noqa: E402
from src.db import init_db, get_db, enqueue_job, claim_next_job # noqa: E402
from src import serial_gate, labels, config as cfg # noqa: E402
@pytest.fixture(autouse=True)
def fresh_db(tmp_path, monkeypatch):
dbfile = tmp_path / "comp.db"
monkeypatch.setattr(db.settings, "db_path", str(dbfile))
monkeypatch.setattr(cfg.settings, "serial_gate_enabled", True, raising=False)
monkeypatch.setattr(cfg.settings, "serial_gate_repos", "", raising=False)
monkeypatch.setattr(cfg.settings, "serial_gate_freeze_enabled", False, raising=False)
monkeypatch.setattr(cfg.settings, "task_deps_enabled", False, raising=False)
monkeypatch.setattr(cfg.settings, "bug_fast_track_enabled", True, raising=False)
monkeypatch.setattr(cfg.settings, "auto_label_enabled", True, raising=False)
init_db()
yield
def _make_task(work_item_id, stage="analysis", repo="orchestrator", track="full"):
conn = get_db()
cur = conn.execute(
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage, title, track) "
"VALUES (?, ?, ?, ?, ?, ?, ?)",
(work_item_id, work_item_id, repo, f"feature/{work_item_id}", stage, work_item_id, track),
)
tid = cur.lastrowid
conn.commit()
conn.close()
return tid
def test_tc14_bug_task_counts_as_active_in_serial_gate():
# An EARLIER bug task A (unfinished) must gate a later task B's analyst-job —
# a bug task does NOT bypass the serial gate.
_make_task("ORCH-301", stage="development", track="bug") # active bug predecessor
b = _make_task("ORCH-302", stage="analysis", track="full") # new task
enqueue_job("analyst", "orchestrator", "B", task_id=b)
assert claim_next_job() is None, "a bug task must gate a later analyst-job (no bypass)"
# The bug task is the active task in the snapshot.
per = serial_gate.snapshot()["per_repo"]["orchestrator"]
assert per["active_task"]["work_item_id"] == "ORCH-301"
def test_tc14_bug_task_itself_gated_behind_predecessor():
# The bug task is also HELD behind an earlier non-bug task (symmetry).
_make_task("ORCH-310", stage="development", track="full") # active predecessor
b = _make_task("ORCH-311", stage="analysis", track="bug") # new BUG task
enqueue_job("analyst", "orchestrator", "bug-B", task_id=b)
assert claim_next_job() is None, "a bug task is itself serialised behind the predecessor"
def test_tc14_bug_task_claimable_once_predecessor_done():
a = _make_task("ORCH-320", stage="development", track="full")
b = _make_task("ORCH-321", stage="analysis", track="bug")
jid = enqueue_job("analyst", "orchestrator", "bug-B", task_id=b)
assert claim_next_job() is None
# Finish A -> the bug task's analyst-job is now claimable.
conn = get_db()
conn.execute("UPDATE tasks SET stage='done' WHERE id=?", (a,))
conn.commit()
conn.close()
claimed = claim_next_job()
assert claimed is not None and claimed["id"] == jid
def test_tc14_auto_label_applies_track_agnostic(monkeypatch):
# autoApprove/autoDeploy scope is repo-based, independent of the bug track.
assert labels.auto_approve_applies("orchestrator") is True
assert labels.auto_deploy_applies("orchestrator") is True

View File

@@ -0,0 +1,184 @@
"""ORCH-019 — bug-fast-track end-to-end / start_pipeline integration.
Covers (04-test-plan.yaml):
TC-08 E2E: a bug task walks development -> review -> testing -> deploy-staging ->
deploy -> done with EVERY edge gate executed, NEVER entering architecture.
TC-09 start_pipeline: an issue with the `Bug` label (flag on, repo in scope) is
created on the bug-fast-track (tasks.track='bug'); an issue without it is
created on the full cycle (track='full').
TC-10 Fail-safe: with bug_fast_track_enabled=False a `Bug`-labelled issue is
created on the full cycle (track='full'), is_bug_task never consulted.
"""
import os
import tempfile
import pytest
_test_db = os.path.join(tempfile.gettempdir(), "test_bug_fast_track_e2e.db")
os.environ["ORCH_DB_PATH"] = _test_db
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
import src.db as db # noqa: E402
from src.db import init_db, get_db # noqa: E402
from src import stage_engine, config as cfg # noqa: E402
from src.stage_engine import advance_stage # noqa: E402
@pytest.fixture(autouse=True)
def fresh_db(monkeypatch, tmp_path):
dbfile = tmp_path / "e2e.db"
monkeypatch.setattr(db.settings, "db_path", str(dbfile))
monkeypatch.setattr(cfg.settings, "bug_fast_track_enabled", True, raising=False)
monkeypatch.setattr(cfg.settings, "bug_fast_track_repos", "", raising=False)
# Keep the edge sub-gates + self-deploy + serial gate inert so the PLAIN advance
# path runs deterministically and offline (we assert routing + gate execution,
# not the self-hosting deploy mechanics — those have their own suites).
for flag in (
"self_deploy_enabled", "security_gate_enabled", "merge_gate_enabled",
"coverage_gate_enabled", "image_freshness_enabled",
"post_deploy_monitor_enabled", "serial_gate_enabled",
):
monkeypatch.setattr(cfg.settings, flag, False, raising=False)
init_db()
yield
@pytest.fixture(autouse=True)
def silence_side_effects(monkeypatch):
for name in (
"notify_stage_change", "notify_qg_failure", "notify_approve_requested",
"send_telegram", "plane_notify_stage", "plane_notify_qg", "plane_add_comment",
"set_issue_in_review", "set_issue_needs_input", "set_issue_in_progress",
"set_issue_blocked", "set_issue_done", "set_issue_analysis",
"set_issue_awaiting_deploy", "set_issue_deploying", "set_issue_monitoring",
"set_issue_approved",
):
monkeypatch.setattr(stage_engine, name, lambda *a, **k: None, raising=False)
yield
def _make_task(work_item_id, stage="analysis", repo="orchestrator", track="full"):
conn = get_db()
cur = conn.execute(
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage, title, track) "
"VALUES (?, ?, ?, ?, ?, ?, ?)",
(work_item_id, work_item_id, repo, f"feature/{work_item_id}", stage, work_item_id, track),
)
tid = cur.lastrowid
conn.commit()
conn.close()
return tid
# --- TC-08: E2E walk, architecture skipped, every gate executed ------------
def test_tc08_bug_task_full_walk_skips_architecture(monkeypatch):
tid = _make_task("ORCH-e2e", stage="analysis", track="bug")
invoked = []
# Record + pass every registered edge gate. check_analysis_approved is NOT in
# this map: with finished_agent=None it is satisfied as approved-via-status
# (no call). check_architecture_done MUST never be invoked.
def _passing(name):
def _fn(*a, **k):
invoked.append(name)
return (True, f"{name} ok")
return _fn
for gate in (
"check_ci_green", "check_reviewer_verdict", "check_tests_passed",
"check_staging_status", "check_deploy_status", "check_architecture_done",
):
monkeypatch.setitem(stage_engine.QG_CHECKS, gate, _passing(gate))
visited = ["analysis"]
wi, repo, branch = "ORCH-e2e", "orchestrator", "feature/ORCH-e2e"
for _ in range(10):
row = db.get_task_by_work_item_id(wi)
cur = row["stage"]
if cur in ("done", "cancelled"):
break
res = advance_stage(tid, cur, repo, wi, branch, finished_agent=None)
if not res.advanced:
break
visited.append(res.to_stage)
assert "architecture" not in visited, f"bug task must skip architecture: {visited}"
assert visited[:3] == ["analysis", "development", "review"]
assert visited[-1] == "done", f"task should reach done: {visited}"
# Every downstream edge gate ran; the architecture gate never did.
for gate in ("check_ci_green", "check_reviewer_verdict", "check_tests_passed",
"check_staging_status", "check_deploy_status"):
assert gate in invoked, f"gate {gate} must execute on the bug track"
assert "check_architecture_done" not in invoked
# --- TC-09 / TC-10: start_pipeline classification --------------------------
async def _drive_start_pipeline(monkeypatch, *, is_bug: bool, enabled: bool):
from src.webhooks import plane
from src import plane_sync, bug_fast_track
from src.projects import ProjectConfig
monkeypatch.setattr(cfg.settings, "bug_fast_track_enabled", enabled, raising=False)
proj = ProjectConfig(
plane_project_id="proj-uuid", repo="orchestrator",
work_item_prefix="ORCH", name="orch",
)
monkeypatch.setattr(plane, "get_project_by_plane_id", lambda pid: proj)
monkeypatch.setattr(plane, "_qg0_errors", lambda name, desc: [])
monkeypatch.setattr(plane, "ensure_unique_work_item_id", lambda wid, repo: wid)
monkeypatch.setattr(plane_sync, "fetch_issue_sequence_id", lambda *a, **k: 777)
monkeypatch.setattr(plane_sync, "set_issue_analysis", lambda *a, **k: None)
monkeypatch.setattr(plane_sync, "add_comment", lambda *a, **k: None)
monkeypatch.setattr(plane, "enqueue_job", lambda *a, **k: 1)
async def _noop(*a, **k):
return None
monkeypatch.setattr(plane, "_create_gitea_branch", _noop)
monkeypatch.setattr(plane, "_create_initial_docs", _noop)
# Spy is_bug_task so we can assert it is/ isn't consulted; applies() stays REAL
# (flag + self-hosting scope), so TC-10 proves the local short-circuit.
seen = {"is_bug_task": 0}
def _is_bug(wi, pid=None):
seen["is_bug_task"] += 1
return is_bug
monkeypatch.setattr(bug_fast_track, "is_bug_task", _is_bug)
data = {
"id": "issue-uuid-1",
"name": "Fix the crash on submit",
"description_stripped": "A sufficiently long description for QG-0 to pass.",
"project": "proj-uuid",
}
await plane.start_pipeline(data, project_id="proj-uuid")
return seen
def test_tc09_bug_label_creates_bug_track(monkeypatch):
import asyncio
seen = asyncio.run(_drive_start_pipeline(monkeypatch, is_bug=True, enabled=True))
assert seen["is_bug_task"] == 1 # applies() True -> classification consulted
row = db.get_task_by_work_item_id("ORCH-777")
assert row is not None
assert row["track"] == "bug"
def test_tc09_no_label_creates_full_track(monkeypatch):
import asyncio
seen = asyncio.run(_drive_start_pipeline(monkeypatch, is_bug=False, enabled=True))
assert seen["is_bug_task"] == 1
row = db.get_task_by_work_item_id("ORCH-777")
assert row["track"] == "full"
def test_tc10_killswitch_off_bug_label_full_cycle(monkeypatch):
import asyncio
seen = asyncio.run(_drive_start_pipeline(monkeypatch, is_bug=True, enabled=False))
# applies() is False (kill-switch) -> is_bug_task short-circuited (zero network).
assert seen["is_bug_task"] == 0
row = db.get_task_by_work_item_id("ORCH-777")
assert row["track"] == "full"

View File

@@ -0,0 +1,105 @@
"""ORCH-019 — escalation of a complex bug to the full cycle (FR-5 / AC-5, D5).
Covers (04-test-plan.yaml):
TC-11 After the escalate endpoint resets track 'bug' -> 'full' (while the task
is still in `analysis`), the next advance routes analysis -> architecture
(return to the full cycle with the architect run).
"""
import os
import tempfile
import pytest
_test_db = os.path.join(tempfile.gettempdir(), "test_bug_fast_track_escalation.db")
os.environ["ORCH_DB_PATH"] = _test_db
os.environ["ORCH_REPOS_DIR"] = tempfile.gettempdir()
os.environ.setdefault("ORCH_GITEA_TOKEN", "test-token")
os.environ.setdefault("ORCH_PLANE_API_TOKEN", "test-token")
import src.db as db # noqa: E402
from src.db import init_db, get_db # noqa: E402
from src import stage_engine, config as cfg # noqa: E402
from src.stage_engine import advance_stage # noqa: E402
@pytest.fixture(autouse=True)
def fresh_db(monkeypatch, tmp_path):
dbfile = tmp_path / "esc.db"
monkeypatch.setattr(db.settings, "db_path", str(dbfile))
monkeypatch.setattr(cfg.settings, "bug_fast_track_enabled", True, raising=False)
init_db()
yield
@pytest.fixture(autouse=True)
def silence_side_effects(monkeypatch):
for name in (
"notify_stage_change", "notify_qg_failure", "notify_approve_requested",
"send_telegram", "plane_notify_stage", "plane_notify_qg", "plane_add_comment",
"set_issue_in_review", "set_issue_needs_input", "set_issue_in_progress",
"set_issue_blocked", "set_issue_done", "set_issue_analysis",
"set_issue_awaiting_deploy", "set_issue_deploying", "set_issue_monitoring",
"set_issue_approved",
):
monkeypatch.setattr(stage_engine, name, lambda *a, **k: None, raising=False)
yield
def _make_task(work_item_id, stage="analysis", track="bug"):
conn = get_db()
cur = conn.execute(
"INSERT INTO tasks (plane_id, work_item_id, repo, branch, stage, title, track) "
"VALUES (?, ?, ?, ?, ?, ?, ?)",
(work_item_id, work_item_id, "orchestrator", f"feature/{work_item_id}",
stage, work_item_id, track),
)
tid = cur.lastrowid
conn.commit()
conn.close()
return tid
def test_tc11_escalate_returns_to_full_cycle(monkeypatch):
import asyncio
from src import main
tid = _make_task("ORCH-cmplx", stage="analysis", track="bug")
# Operator escalates while the task is still in analysis.
out = asyncio.run(main.bug_fast_track_escalate(work_item="ORCH-cmplx"))
assert out["ok"] is True
assert out["track"] == "full"
assert out["was"] == "bug"
assert db.get_task_track(tid) == "full"
# The next advance now routes back through architecture (full cycle).
res = advance_stage(
tid, "analysis", "orchestrator", "ORCH-cmplx", "feature/ORCH-cmplx",
finished_agent=None,
)
assert res.to_stage == "architecture"
assert res.enqueued_agent == "architect"
def test_tc11_escalate_unknown_work_item():
import asyncio
from src import main
out = asyncio.run(main.bug_fast_track_escalate(work_item="ORCH-nope"))
assert out["ok"] is False
def test_tc11_escalate_missing_arg():
import asyncio
from src import main
out = asyncio.run(main.bug_fast_track_escalate(work_item=""))
assert out["ok"] is False
def test_tc11_escalate_idempotent_on_full(monkeypatch):
import asyncio
from src import main
tid = _make_task("ORCH-already", stage="analysis", track="full")
out = asyncio.run(main.bug_fast_track_escalate(work_item="ORCH-already"))
assert out["ok"] is True
assert out["was"] == "full"
assert db.get_task_track(tid) == "full"

Some files were not shown because too many files have changed in this diff Show More