tester(ET): auto-commit from tester run_id=571

reviewer(ET): auto-commit from reviewer run_id=570
fix(test): isolate settings.runs_dir in conftest to stop ambient prod-log pollution (ORCH-100)
2026-06-10 09:36:02 +03:00 · 2026-06-10 09:36:02 +03:00 · 2026-06-10 09:36:02 +03:00 · 2026-06-10 09:36:02 +03:00 · 2026-06-10 09:36:02 +03:00 · 2026-06-10 09:36:02 +03:00
1 changed files with 29 additions and 0 deletions
--- a/docs/epics/self-evolution.md
+++ b/docs/epics/self-evolution.md
@@ -75,6 +75,16 @@
 - **F1 Наблюдаемость** (ORCH-83 [ЭПИК]): метрики agent-liveness + очередь + стадии + хост (диск/память/CPU) + контейнеры + внешние деп (Plane/Gitea/Anthropic). Эндпоинты /health /status /queue → расширить до /metrics + дашборд.
 - **F2 Журнал уроков** (ORCH-8 шаг 1): машинная структурированная таблица отклонений (тип, контекст, корень, предложение, статус) — формализовать то, что сейчас в memory/. Это «топливо» для вертикали-двигателя.

+### 🎯 СКОП НАБЛЮДЕНИЯ — три слоя (решено Славой 10.06)
+
+> Граница «мониторим ПЛАТФОРМУ vs ПРОДУКТЫ на ней». Важно для архитектора и будущих задач — не путать уровни.
+
+- **Слой 1 — проекты как ЗАДАЧИ в конвейере — ✅ В СКОПЕ (F1a/F1b).** ET-задачи в stages/queue/agents `/metrics` — это работа орка (его агенты/очередь/стадии). Sidecar алертит «ET-задача застряла». Здоровье КОНВЕЙЕРА.
+- **Слой 2 — проекты как КОНТЕЙНЕРЫ на хосте — ✅ В СКОПЕ (F1b, жив/мёртв).** `enduro-trails-app-1`, `osrm` и пр. через docker.sock ro — Up/healthy/restarting/exited. Общий хост впритык → текущий ET-контейнер вредит орку. Здоровье контейнера как чёрного ящика.
+- **Слой 3 — ВНУТРЕННЕЕ бизнес-здоровье продукта — ❌ НЕ В ФУНДАМЕНТЕ, НО НУЖНО (см. ниже).** Эндпоинты ET отвечают 200? карта рендерится? latency не деградировала после фичи? Орк не знает внутренностей задеплоенных приложений — это МОНИТОРИНГ ПРОДУКТА, не платформы.
+
+**Слой 3 — это отдельная продуктовая способность (домен D4/D5):** «per-project мониторинг здоровья задеплоенного приложения» — опция для заказчика («слежу, что твой ET-сайт жив»). **НО он НУЖЕН и самой петле** (см. §8A «атрибуция уроков») — без детекции деградации продукта петле нечего ловить. Порядок: фундамент (слои 1-2) сначала, слой 3 — позже как D4/D5-фича.
+
 ---

 ## 3. ДОМЕН D1 — 🛡️ Надёжность (Self-Repairing)
@@ -166,6 +176,25 @@
 - **Анализ (гибрид):** машина копит и предлагает черновик → Стрим фильтрует/оформляет → Слава апрувит.
 - **E1** Журнал уроков (=F2). **E2** Агент-ретроспективщик (анализ→предложение).

+#### ⚖️ АТРИБУЦИЯ урока — platform-level vs project-level (решено Славой 10.06)
+
+> Ключевой шаг петли. Пример Славы: выпустили фичу в ET → она деградировала ET. Петля поймала сигнал — но ЧЬЯ вина и ГДЕ чинить?
+
+Когда детектирована деградация продукта после выпуска фичи, петля ДОЛЖНА различить два уровня вины и направить урок в правильное русло:
+
+- **А. Platform-level (недоработал ОРК):** конвейер выпустил деградацию, потому что у платформы СЛАБЫЙ ПРОЦЕСС (нет регресс-гейта «фича не ломает соседнее», тест-стадия не ловит деградацию производительности, нет производительностного бенчмарка в приёмке). → улучшаем ПРОЦЕСС орка (домен **D2 Качество** / **D1 Надёжность**). Чинится ОДИН раз — выигрывают ВСЕ проекты.
+- **Б. Project-level (недоработал ПРОЕКТ):** процесс орка нормальный, но в конкретном ET МАЛО тестов/слабая приёмка под этот тип фич. → усиливаем ТЕСТЫ/приёмку В САМОМ ET (задача в бэклог ET). Чинится точечно — выигрывает только ET.
+
+**Механизм (новый шаг петли):**
+```
+ДЕТЕКЦИЯ деградации продукта (слой 3) → урок →
+   АТРИБУЦИЯ: platform-level или project-level?
+   ├─ platform → задача в D1/D2 (улучшить процесс — польза всем)
+   └─ project  → задача в бэклог ET (усилить тесты ET — польза ET)
+   (развилка не всегда бинарна — бывает ОБА: и гейт в орк, и тесты в ET)
+```
+Без атрибуции петля «чинит платформу» там, где надо усилить проект (и наоборот). **Зависит от слоя-3 детекции** (§2): без мониторинга здоровья продукта петле нечего атрибутировать. **E2-ретроспективщик** несёт эту классификацию; спорные случаи → Стрим/Слава решают.
+
 ### 8B. Проактивная турбина 💡 — генератор идей новых возможностей (НОВОЕ — запрос Славы)

 > Отдельный источник идей роста функционала — НЕ только требования от Славы. Проактивно предлагает новые фичи/возможности/удобства. Та же воронка: машина/агент генерит черновики → Стрим фильтрует → Слава решает.
Author	SHA1	Message	Date
claude-bot	0ef1cf6698	tester(ET): auto-commit from tester run_id=571 All checks were successful CI / test (push) Successful in 1m1s Details CI / test (pull_request) Successful in 58s Details	2026-06-10 09:36:02 +03:00
claude-bot	9f62e05d01	reviewer(ET): auto-commit from reviewer run_id=570	2026-06-10 09:36:02 +03:00
claude-bot	318bae7472	fix(test): isolate settings.runs_dir in conftest to stop ambient prod-log pollution (ORCH-100) test_queue.py::TestRetry::test_finalize_job_requeue_then_fail failed in the self-hosting environment because launcher._finalize_job classifies a non-zero exit by reading the tail of <settings.runs_dir>/<run_id>.log. settings.runs_dir defaults to the live prod dir /app/data/runs, which on the host holds REAL accumulated agent logs; a real 2.log containing "429" flips the expected 'permanent' classification to 'transient', requeueing the job instead of marking it 'failed'. This is ambient prod pollution, not a code fault. Add an autouse _isolate_runs_dir fixture (mirroring _no_telegram / _disable_merge_verify) that redirects settings.runs_dir to a per-test tmp dir so _run_log_path() resolves to a non-existent file and classify_log_file() returns the documented 'permanent' default. Full suite: 1617 passed. src/** untouched. Refs: ORCH-100 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>	2026-06-10 09:36:02 +03:00
claude-bot	d61b583dad	tester(ET): auto-commit from tester run_id=568	2026-06-10 09:36:02 +03:00
claude-bot	93cf2732a2	reviewer(ET): auto-commit from reviewer run_id=567	2026-06-10 09:36:02 +03:00
claude-bot	259b507906	feat(watchdog): sidecar-watchdog F1b — monitoring brain in a separate container (ORCH-100) Add the `watchdog/` package (thin Python-3.12 stdlib-only daemon) and the `orchestrator-watchdog` compose service — the brain half of the domain-0 observability pair. F1a (ORCH-099) exposes GET /metrics raw signal; F1b reads it, augments with host / container / dependency probes, runs each signal through a generalised pure decision function (decide(signal_active, prev, now, cooldown), a strict superset of disk_watchdog.decide_action) with per-signal in-memory dedup/throttle/recovery, and alerts over its OWN independent Telegram channel. Key properties (ADR-001): - Observer separated from observed: separate container; /metrics not answering is itself the master `orch_down` alarm (debounced K ticks — no flap on a hiccup). - Strictly read-only: docker.sock GET-only + mounted :ro (double guard), host paths :ro, no DB/disk writes, no process control — self-hosting-safe. - never-raise on three levels (per-source/per-tick/per-send) + WATCHDOG_ENABLED kill-switch (disabled -> inert idle-loop, not exit). - Disk anti-duplicate (D6): disk_watchdog (ORCH-063) stays sole owner of the 85% alert; sidecar carries orch_down + an opt-in 97% ceiling (default off). - NO import from src/ (C-1); src/, STAGE_TRANSITIONS, QG_CHECKS, check_, DB schema — untouched. env_file optional so a missing .env.watchdog never breaks `docker compose up` for the prod orchestrator. Tests: tests/watchdog/ (TC-01…TC-13) + full tests/ regression green (TC-14). Docs: CHANGELOG, .env.example canon (WATCHDOG_); architecture README + adr-0033 authored at the architecture stage. Refs: ORCH-100 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>	2026-06-10 09:36:02 +03:00
claude-bot	1c08b3f62a	architect(ET): auto-commit from architect run_id=565	2026-06-10 09:36:02 +03:00
claude-bot	36102f253f	analyst(ET): auto-commit from analyst run_id=564	2026-06-10 09:36:02 +03:00
Slava	874cc29ff7	docs: init ORCH-100 business request	2026-06-10 09:36:02 +03:00
Slava	26d6936eed	Merge pull request 'docs(ORCH-100): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived)' (#117 ) from docs/ORCH-100-staging-log into main Some checks failed CI / test (push) Has been cancelled Details	2026-06-10 09:35:30 +03:00
claude-bot	b63fca4396	docs(ORCH-100): staging gate log — SUCCESS (8/10, C9a/C9b infra-waived) All checks were successful CI / test (pull_request) Successful in 54s Details Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>	2026-06-10 09:35:18 +03:00
Slava	64bb895402	docs(epic): скоуп наблюдения (3 слоя) + атрибуция уроков platform-vs-project (Слава 10.06)	2026-06-10 09:05:26 +03:00