93 lines
18 KiB
Markdown
93 lines
18 KiB
Markdown
# 2026-06-03
|
||
|
||
## Orchestrator — ORCH-1b resilience ГОТОВ + проверен на проде (продолжение дня 02.06)
|
||
|
||
### Итог: PR #3 = ORCH-1 очередь + ORCH-1b resilience — ЗАМЕРЖЕН
|
||
**Resilience-слой проверен мной вживую на проде:**
|
||
- ✅ **Preflight** — `/queue` → `preflight ok: True` (`2.1.142 Claude Code`). `claude --version`, токены НЕ тратит. CLI мёртв → job ждёт, не падает. 🚫 без prompt-ping
|
||
- ✅ **429-классификатор** (`error_classifier.py`) — `429`/`overloaded`→transient, traceback→permanent
|
||
- ✅ **Backoff** — exp `min(2^n*10,600)` + `available_at`/`transient_attempts` + Retry-After, PRAGMA-safe миграция (`_ensure_column`)
|
||
- ✅ **Circuit breaker** (`queue_worker.py`) — `/queue` отдаёт `resilience.breaker`. 3 transient → open 300с → half-open проба → closed
|
||
- ✅ config: 6 ключей (preflight_cache_ttl=45, backoff_base=10, backoff_max=600, transient_max=5, breaker_threshold=3, breaker_pause=300)
|
||
- ✅ **110 passed** (26 новых), 9 fail — pre-existing 401 baseline
|
||
|
||
### Метрики Dev
|
||
- `orch1_queue` (база): done, 12m26s, 337k токенов
|
||
- `orch1b_resilience`: done, 9m42s, 260k токенов, 7 коммитов поверх базы
|
||
|
||
### ⚠️ Урок про Dev (важный)
|
||
Dev **запаниковал** на старте orch1b: «параллельная сессия пишет те же файлы!» → остановился (safety>completion). **Ложная тревога** — другого исполнителя не было, принял СВОЮ активность за чужую (mtime от его же записей). По факту всё доделал и запушил сам.
|
||
- **Правило:** при «остановился из осторожности» от Dev — не верить на слово; проверять `git log`/`git status`/remote. Часто работа УЖЕ сделана.
|
||
- **Профилактика:** в ТЗ Dev писать «других исполнителей на репо нет, только ты — не паникуй про параллельные сессии».
|
||
|
||
### ✅ МЕРЖИ ВЫПОЛНЕНЫ (05:07 UTC, ОК Славы «Делай»)
|
||
- **PR #3 (ORCH-1 queue + ORCH-1b resilience) ЗАМЕРЖЕН**, merge commit `4e52e19`. Прод пересобран из main, health ok, `/queue` breaker(closed)+preflight(ok).
|
||
- **PR #1 (ORCH-2 worktree) ЗАКРЫТ без мержа** (HTTP 201). ⚠️ worktree-код (`src/git_worktree.py`) УЖЕ был в main (уехал при ORCH-6). Ветка PR #1 устарела, мерж «как есть» ОТКАТИЛ БЫ ORCH-6 (-797 строк, снёс бы projects.py/фильтр webhook). **Урок: перед мержем старого PR — проверять merge-base и diff-направление; mergeable:True НЕ гарантирует что PR не откатит свежее.**
|
||
- **PR #19 (enduro-trails)** — уже был closed+merged ранее.
|
||
|
||
### 🎯 РЕШЕНИЕ Славы (05:19 UTC): добить весь остаток бэклога, дальше — строго Plane + ORCH-нейминг
|
||
- **Договорённость:** остаток добиваю контролируемо через Dev (я проверяю каждый PR перед мержем). **Со СЛЕДУЮЩЕЙ новой фичи — задачи СТРОГО в Plane с ORCH-префиксом.**
|
||
- ⚠️ **Почему остаток НЕ через Plane-тикеты сейчас:** webhook включён, `orchestrator` — известный проект. Заведёшь тикет → webhook сам запустит конвейер, переписывающий сам оркестратор параллельно моим Dev → два исполнителя на одном репо = хаос как в инцидент.
|
||
|
||
### 🧹 Чистка остатков инцидента (05:22 UTC)
|
||
- Снесла мёртвые worktree-сироты `_wt/enduro-trails/feature_ET-015-orch-6-multi-repo` и `feature_ET-016-orch-7-self-hosting` (root, от 2 июня; git их не знал, `.git` битый). Через `docker exec orchestrator rm -rf` (контейнер — root, монтирует /repos).
|
||
- ⚠️ sudo-пароль `slin` НЕ = vpn-пароль (meNt85doC не подошёл) — для root-файлов на хосте использовать контейнер.
|
||
|
||
### Бэклог orchestrator — ПОСЛЕ ВЕРИФИКАЦИИ (Слава: «убедись что не реализованы») — проверено по живому коду main
|
||
**ВАЖНО: из 5 пакетов реальных осталось 3 — часть уже сделана раньше.**
|
||
1. ✅ **ORCH-7 (hardening) ЗАМЕРЖЕН** = M-4 (`_auto_merge_pr` удалён, `_ensure_pr` цел) + M-2 (3-фазный graceful: SIGTERM→grace-поллинг signal0→SIGKILL только если жив; config agent_timeout_seconds/agent_kill_grace_seconds/overrides_json). **PR #4 merge commit `fd554c8a`**, прод пересобран, health ok, /queue breaker=closed preflight=True, config 1800/20. **118 passed** (110+8), 9 pre-existing.
|
||
- ⚠️ **ГРАБЛЯ:** Dev отчитался «PR #4 готов», но указатель ветки (local+remote) смотрел на main (4e52e19), коммиты ORCH-7 (237732b/49ecb48/c167c69) висели «в воздухе» (в объектной базе есть, видны через `git log --all`, но ни одна ветка не указывала). PR #4 ПУСТ (0 коммитов vs main), но mergeable:True. Фикс: `git branch -f feature/ORCH-7-hardening c167c69` + force-push (предварительно checkout main — нельзя двигать текущую ветку).
|
||
- **УРОК:** проверять `git log origin/main..origin/<ветка>` — реальное содержимое PR. mergeable:True на пустом PR = красный флаг. В ТЗ Dev добавлять проверку remote после push.
|
||
2. ✅ ~~**ORCH-8 (S-1b)**~~ **УЖЕ СДЕЛАНО — ОТМЕНЕНА.** `check_tests_local` (`qg/checks.py:250`) гоняет `make test` в worktree (S-4-safe) И уже дефолт в `stages.py:16`. Аудит 2 июня отстал.
|
||
3. 🚀 **ORCH-3 (S-3 только):** S-2 (деплой через SSH-хук) УЖЕ СДЕЛАН (`enduro-deploy-hook.sh`). ОСТАЛОСЬ S-3 rollback: `deployer.md` (репо **enduro-trails**) всё ещё `git checkout $LAST_TAG` (портит shared-репо) + `Bash(docker)`. Фикс: убрать docker/git-checkout-rollback из промпта, rollback в хук (по тегам/образам). **Репо enduro-trails + хук на хосте.** Ложится вместе с M-5.
|
||
4. 🔄 **ORCH-4 (M-3) ЗАПУЩЕН** (taskName `orch4_stage_engine`, ветка feature/ORCH-4-stage-engine, ТЗ `DEV_TASK_ORCH4_STAGE_ENGINE.md`). ⚠️ **НЕ ПРОСТО ДУБЛЬ — версии СЕМАНТИЧЕСКИ РАЗОШЛИСЬ** (нашла при разведке):
|
||
- 🔴 **БАГ выбора агента (ИСПРАВЛЕН):** launcher брал `get_agent_for_stage(next_stage)` — БЫЛО НЕПРАВИЛЬНО (пропуск стадии: created→analysis запускал *architect* вместо *analyst*). Правильно = `current_stage` (Я ПЕРЕПРОВЕРИЛА логику сама по STAGE_TRANSITIONS — вердикт Dev верный). Унифицировано на current_stage, stages.py не тронут.
|
||
- 🔴 СОХРАНЕНО ЦЕЛИКОМ: approved-флоу, REQUEST_CHANGES→retry max3, tester FAIL→rollback, architect conflict→rollback в analysis, check_review_approved (PR по ветке + file-fallback).
|
||
- Слито в `src/stage_engine.py` (425 строк) `advance_stage(...)`. launcher (+18−169), plane (+21−72 через `asyncio.to_thread`) = тонкие обёртки.
|
||
5. ✅ **ORCH-5 (M-7) ЗАМЕРЖЕН** — идемпотентность webhook (dedup по delivery-id). **PR #6 merge commit `2fdc6856`**, прод пересобран, health/queue ok. **145 passed** (136+9 новых), 9 pre-existing (сверено с clean main). clean-merge.
|
||
- Было: dedup ОТСУТСТВОВАЛ полностью (delivery-id нигде не читался) → повторная доставка webhook = дубль конвейера (класс ET-009).
|
||
- Стало: `events.delivery_id` (через `_ensure_column`) + partial UNIQUE index `idx_events_delivery`. Helper `src/webhooks/_dedup.py`: gitea=`X-Gitea-Delivery` GUID/fallback sha256(event+body); plane=fallback sha256("plane"+body); префикс `source:`. `insert_event_dedup` → INSERT OR IGNORE, дубль → `{"status":"duplicate"}` без enqueue.
|
||
- Порядок ПРОВЕРИЛА сама: dedup ПОСЛЕ HMAC (401 цел), ДО ORCH-6 фильтра (unknown project на 1-й доставке всё равно ignored). Миграция на живой БД применилась (1108 строк events целы).
|
||
- Помельче (потом): M-6 (work_item_id из Plane sequence), L-1/L-2 (нейминг/логи), M-5 (хардкод инфры в промптах — enduro-trails, с ORCH-3).
|
||
- ⚠️ **УРОК:** аудит устаревает — ВСЕГДА верифицировать по живому коду перед запуском Dev (S-1b уже была сделана, чуть не запустила дубль).
|
||
|
||
### ⏭️ ТОЧКА ВХОДА (06:20 UTC)
|
||
- **ORCH-7 закрыт. ORCH-4 ЗАМЕРЖЕН** (PR #5 `2f0fd246`, прод пересобран, health/queue ok, 136 passed). Баг выбора агента починен.
|
||
- **ORCH-5 (M-7 dedup webhook) ЗАМЕРЖЕН** (PR #6 `2fdc6856`, прод пересобран, health/queue ok, 145 passed, миграция на живой БД ок). **ЭТО БЫЛА ПОСЛЕДНЯЯ ЗАДАЧА ПО САМОМУ orchestrator.**
|
||
- ✅ **ORCH-3 (S-3) + M-5 ЗАМЕРЖЕН** (PR #20 `d379e48c`, репо enduro-trails, только .md-промпты). В main: `git checkout $LAST_TAG` УБРАН, rollback через `bash $HOOK --rollback`, docker сужен в tools, M-5 параметризован.
|
||
- ✅✅ **ПРОД-ХУК ПРИМЕНЁН** (Слава дал ОК, 03.06). `cp .new → /home/slin/bin/enduro-deploy-hook.sh`, живой теперь md5 `2b60c6...` (3039b), bash -n OK, +x. Backup `.bak-1780468526` (md5 `aa86e7...`) на месте. Откат если что: `cp .bak-1780468526 → хук`. Реальный деплой НЕ запускала (живой app не тронут) — первый prev-image запишется на ближайшем реальном деплое (до этого `--rollback` честно skip).
|
||
- Хук-кандидат ПРОВЕРИЛА сама: happy-path 1-в-1 (pull+capture prev-image+restart+gps-collector, set -e safe), rollback с 3 уровнями защиты (файл·непуст·образ есть) → ретег+`--no-build` restart, иначе honest skip+exit1.
|
||
- Отчёт Dev: `tasks/orchestrator/reports/dev-2026-06-03-orch3-deploy-rollback.md`.
|
||
- **Разведка (было):**
|
||
- 🔴 **S-3 баг:** `deployer.md` стр.103 `git checkout $LAST_TAG` в shared-репо `/home/slin/repos/enduro-trails` → detached HEAD загаживает рабочую копию, хук делает `git pull origin main` → следующий деплой ломается. И откат фиктивный — прод крутит старый образ, git checkout локального файла прод не меняет.
|
||
- Хук `enduro-deploy-hook.sh` (876b, pull+restart+gps-collector) — rollback'а НЕТ. План: rollback В ХУК (prev-image перед рестартом + флаг `--rollback`), в deployer.md → `ssh ... bash $HOOK --rollback`.
|
||
- 🟡 **M-5:** architect.md:16 (82.22.50.71), tester.md:27,38,39 (/home/slin/ пути) → env с дефолтами (deployer.md уже параметризован — образец).
|
||
- ⚠️ ПРОД-ДЕПЛОЙ: Dev НЕ деплоит на прод, бэкап хука перед правкой, проверка = bash -n. Мерж и прод-применение хука — я со Славой.
|
||
- Бэклог orchestrator ЗАКРЫТ: ORCH-1/1b/2/4/6/7 + ORCH-5 в main. ORCH-8 отменена.
|
||
|
||
### Финальная гигиена L-1/L-2/L-3 (Слава: «делай все в т.ч. l-3») — ЗАПУЩЕНО (taskName `orch_cleanup_l1l2l3`, ветка feature/ORCH-cleanup-L1L2L3, ТЗ `DEV_TASK_ORCH_CLEANUP_L1L2L3.md`)
|
||
- ⚠️ **Разведка переписала остаток — аудит 02.06 отстал:**
|
||
- ❌ **L-4 ОТПАЛ** — мусорной папки `{src` уже нет.
|
||
- ❌ **L-5 ОТПАЛ** — `tests/test_launcher.py` УЖЕ есть (18 тестов: запись·verdict·timeout·watchdog SIGTERM→SIGKILL). Долг закрыт по ходу ORCH-1b/2/4.
|
||
- ⚠️ **M-6 НЕ мелочь, ОТЛОЖЕНА:** Plane НЕ присылает `sequence_id` в webhook payload (проверила 5 реальных events в БД — ключа нет). Значит «источник правды = Plane sequence» требует ОТДЕЛЬНОГО GET к Plane API по issue_id — сетевой вызов, не правка функции. Рассинхрон теоретический (per-repo инкремент `get_next_work_item_id` работает). Ждёт отдельного решения Славы — нужен ли вообще.
|
||
- ✅ **L-1+L-2+L-3 ЗАМЕРЖЕНЫ** (PR #7 `be27f506`, прод пересобран, health/queue ok, **151 passed** = 145+6, 9 pre-existing). L-1 шапка stages.py исправлена, L-2 `prune_run_logs` best-effort в lifespan (keep_days=30/keep_max=500, не трогает active), L-3 эмодзи-константы.
|
||
- ✅ **M-6 ВАЖНА** (Слава подтвердил) — берём в работу. Разведка:
|
||
- Инфра УЖЕ ЕСТЬ: `plane_sync.py` — полный httpx-клиент (PLANE_BASE/HEADERS/WORKSPACE из config), уже читает `sequence_id` (стр.99,115), `find_issue_id` ищет issue. M-6 НЕ с нуля.
|
||
- Payload `work_item.created` содержит `id` (issue UUID) + `project` — по ним GET к Plane API достаёт настоящий `sequence_id`. `sequence_id` В ПАЙЛОАДЕ НЕТ (проверено), но есть через GET по id.
|
||
- 🔴 **БОНУС-баг найден:** `find_issue_id` хардкодит `f"ET-{seq:03d}"` (стр.99) — сломано для ORCH-префикса из ORCH-6. M-6 должна убрать хардкод ET-.
|
||
- ⚠️ ГОНКА ВЕТОК: M-6 запускать ТОЛЬКО после мержа L1L2L3 из чистого main (иначе 2 Dev дерутся за рабочую копию). L1L2L3 уже смержен → можно.
|
||
- 🔄 **M-6 ЗАПУЩЕН** (taskName `orch_m6_plane_sequence`, ветка feature/ORCH-M6-plane-sequence, ТЗ `DEV_TASK_ORCH_M6_PLANE_SEQUENCE.md`). План: helper `fetch_issue_sequence_id` (GET по issue UUID), в handle_work_item_created seq→`{prefix}-{seq:03d}` или fallback DB-инкремент (автономность!), + фикс хардкода `ET-` в find_issue_id.
|
||
- ⚠️ **ТОКЕН Gitea (находка Dev 03.06):** `.env` на сервере содержит УСТАРЕВШИЙ `ORCH_GITEA_TOKEN` (28 симв, HTTP 401). РАБОЧИЙ токен (40 симв) — в env контейнера `orchestrator`: `docker exec orchestrator printenv | grep -i gitea`. ⚠️ Мои прошлые мержи (PR #5/6/7) работали — значит я брала токен из .env и он рабочий?? ПРОВЕРИТЬ при след. мерже M-6 — если .env-токен 401, брать из контейнера. (Славе на заметку: стоит синхронизировать .env с рабочим токеном.)
|
||
- Мерж-рецепт (работает): проверить `git log origin/main..origin/ветка` (не пусто!), мой прогон тестов, clean-merge check, мерж через Gitea API `/pulls/N/merge` `{"Do":"merge"}`, пересборка из main.
|
||
- ТЗ-образцы: `DEV_TASK_ORCH7_HARDENING.md`, `DEV_TASK_ORCH4_STAGE_ENGINE.md`.
|
||
- ⚠️ **Грабля memory-файла:** ранний `write` сделал APPEND (задвоил файл), почистила перезаписью. Для точечных правок memory — `edit`, не `write`.
|
||
|
||
### Нейминг аудита (расшифровка для Славы)
|
||
- Коды из `AUDIT_2026-06-02.md`: буква = критичность (B blocker / S serious / M medium / L low), цифра = порядковый номер, буква-суффикс (S-1b) = вариант решения. ORCH-N = тот же баг как тикет в Plane. С этого момента — только ORCH-N.
|
||
|
||
### Ключевые идентификаторы
|
||
- Хост `slin@82.22.50.71`, репо `/home/slin/repos/orchestrator`, контейнер `orchestrator` (8500), Gitea `localhost:3000` (token в `.env` `ORCH_GITEA_TOKEN`)
|
||
- Деплой: `docker compose up -d --build && sleep 6 && curl -s :8500/health && curl -s :8500/queue`
|
||
- Тесты в контейнере: `IMG=$(docker inspect orchestrator --format '{{.Config.Image}}'); docker run --rm -v /home/slin/repos/orchestrator:/code -w /code --entrypoint python3 $IMG -m pytest tests/ -q`
|
||
- ⚠️ root-файлы на хосте — через `docker exec orchestrator rm -rf` (не sudo, пароль не тот)
|