Files
orchestrator/docs/overview/tech-observability.md
claude-bot 6d798c01ef docs(overview): витрина системы docs/overview/ — бизнес+тех, 3 аудитории, презентация (ORCH-011)
Единая точка входа в документацию платформы (ADR-001 D1–D9):
- docs/overview/ — 10 файлов: индекс (маршруты «Я заказчик / Я менеджер /
  Я разработчик» + норматив «изменил функциональность → обнови витрину в том же
  PR»), business.md (без жаргона, 6 сценариев), 7 тех-блоков (link-first),
  presentation.md (16 слайдов + процедура сборки «команда + Проверка:»).
- scripts/build_presentation.py — генератор .pptx в тёмном дизайне (python-pptx;
  чистый stdlib-парсер parse_slides + ленивый import pptx; бинарь не коммитится,
  build/ в .gitignore; зависимость НЕ в прод-образе — машинный гард TC-09).
- tests/test_system_docs.py — структурный анти-дрейф: derive-сверки стадий/
  гейтов/агентов импортом STAGE_TRANSITIONS/QG_CHECKS/glob промптов/config,
  валидность ссылок, FORBIDDEN-скан + секрет-эвристика, слайды каноническим
  парсером, NFR-2, указатели.
- reviewer.md — ось обзорных доков ORCH-079 расширена на витрину (D7; канон 52d
  байт-в-байт, только текст внутри секций) + анти-регресс ассерт в
  test_agent_prompts_canon.py.
- Указатели: README.md, CLAUDE.md (правила №2/№6, «Структура»),
  PRODUCT_VISION.md (врезка-ссылка), CHANGELOG.md.

Рантайм байт-в-байт: src/**, docker-compose.yml, Dockerfile, requirements* —
ноль изменений (docs+tests+dev-скрипт, паттерн ORCH-102/103). pytest: 1873 passed.

Refs: ORCH-011

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-11 09:36:40 +03:00

4.2 KiB
Raw Permalink Blame History

Блок 7. Наблюдаемость и аналитика

Машинный контракт метрик и устройство sidecar-наблюдателя — в инженерном справочнике (разделы /metrics и sidecar-watchdog).

Живая Telegram-карточка задачи

Каждая задача — одна карточка в Telegram, обновляемая на каждом событии:

  • текущая стадия и Plane-статус (включая человеческие гейты — видно, когда задача ждёт вас);
  • строка работающего агента: роль · модель · эффорт;
  • стоимость задачи нарастающим итогом (токены/доллары по каждому запуску агента);
  • честные метрики времени на финише: время агентов / время ожидания человека / общее календарное — три независимые цифры, а не одна вводящая в заблуждение сумма;
  • кликабельный номер задачи (ведёт в Plane), отметка багфикс-маршрута.

Карточка тихая (без пингов); пингуют только алерты: красный гейт, ожидание решения человека, инциденты.

Служебные страницы платформы

  • GET /queue — человекочитаемый снимок всего конвейера: очередь и job'ы, состояние serial gate и заморозок, авто-лейблы, багфикс-трек, coverage, журнал уроков, фоновые демоны. Первая точка диагностики «что сейчас происходит».
  • GET /metrics — машинный контракт для внешнего наблюдателя (версионированная схема): health, возраст последних событий, счётчики сбоев.
  • GET /health — живость процесса.

Sidecar-watchdog: наблюдатель отделён от наблюдаемого

Отдельный контейнер-сторож опрашивает /metrics платформы и шлёт алерты в собственный Telegram-канал со своим ботом. Падение платформы, зависание очереди или протухание событий видно даже тогда, когда сама платформа уже не может пожаловаться.

Журнал уроков

Машинная таблица отклонений конвейера: красные гейты, ложные блокировки слияния, исчерпание ретраев, деградации после выкладки. Каждая запись — контекст (задача, стадия, агент, репо), первопричина и предложение. Журнал — наблюдатель (никогда не влияет на продвижение задач) и фундамент петли самообучения платформы: уроки доступны через API и копятся для будущего ретроспективного анализа.

Стоимость и аналитика по агентам

Каждый запуск агента фиксирует модель, эффорт, длительность и стоимость (модель объектов). Это даёт ответы на вопросы «сколько стоит задача», «какая роль ест бюджет», «как изменилась экономика после смены модели» — по фактам, не по ощущениям.


Что делать при инцидентах и как устроен прод — docs/operations/ (через инженерный справочник); бизнес-взгляд на наблюдаемость — business.md.