Files
orchestrator/docs/overview/tech-observability.md
claude-bot 58e5dfe55d
All checks were successful
CI / test (push) Successful in 1m15s
CI / test (pull_request) Successful in 1m12s
docs(serial-gate): sync system showcase + clean stray tags (ORCH-124)
Addresses reviewer REQUEST_CHANGES (run 768) on ORCH-124 — docs-only,
no src/tests touched, fix scope unchanged.

P1: update docs/overview/ showcase for the new serial-gate "pause without
blocking" axis (changed task-routing functionality, ORCH-011/ORCH-079):
- tech-pipeline.md: FIFO exception "pause without blocking" next to freeze
- tech-data-model.md: durable signal tasks.paused_at on the Task row
- tech-observability.md: paused/reason in serial_gate GET /queue block +
  operator endpoints POST /serial-gate/pause|resume

P2: strip leaked tool-call trailing tags (</content>/</invoke>) from 4
golden-source docs of this PR (06-adr/ADR-001, adr-0051,
08-data-requirements.md, 10-tech-risks.md).

CHANGELOG "Доки" bullet extended accordingly. Full suite green (2178 passed);
test_system_docs.py green (machine-checked showcase facts intact).

Refs: ORCH-124
Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-16 21:50:45 +03:00

4.5 KiB
Raw Blame History

Блок 7. Наблюдаемость и аналитика

Машинный контракт метрик и устройство sidecar-наблюдателя — в инженерном справочнике (разделы /metrics и sidecar-watchdog).

Живая Telegram-карточка задачи

Каждая задача — одна карточка в Telegram, обновляемая на каждом событии:

  • текущая стадия и Plane-статус (включая человеческие гейты — видно, когда задача ждёт вас);
  • строка работающего агента: роль · модель · эффорт;
  • стоимость задачи нарастающим итогом (токены/доллары по каждому запуску агента);
  • честные метрики времени на финише: время агентов / время ожидания человека / общее календарное — три независимые цифры, а не одна вводящая в заблуждение сумма;
  • кликабельный номер задачи (ведёт в Plane), отметка багфикс-маршрута.

Карточка тихая (без пингов); пингуют только алерты: красный гейт, ожидание решения человека, инциденты.

Служебные страницы платформы

  • GET /queue — человекочитаемый снимок всего конвейера: очередь и job'ы, состояние serial gate (заморозки, паузы задач, причина ожидания успешника), авто-лейблы, багфикс-трек, coverage, журнал уроков, владение переходами (transition_lease), фоновые демоны. Первая точка диагностики «что сейчас происходит». Паузу/возобновление задачи в serial gate оператор включает явными эндпоинтами POST /serial-gate/pause|resume.
  • GET /metrics — машинный контракт для внешнего наблюдателя (версионированная схема): health, возраст последних событий, счётчики сбоев.
  • GET /health — живость процесса.

Sidecar-watchdog: наблюдатель отделён от наблюдаемого

Отдельный контейнер-сторож опрашивает /metrics платформы и шлёт алерты в собственный Telegram-канал со своим ботом. Падение платформы, зависание очереди или протухание событий видно даже тогда, когда сама платформа уже не может пожаловаться.

Журнал уроков

Машинная таблица отклонений конвейера: красные гейты, ложные блокировки слияния, исчерпание ретраев, деградации после выкладки. Каждая запись — контекст (задача, стадия, агент, репо), первопричина и предложение. Журнал — наблюдатель (никогда не влияет на продвижение задач) и фундамент петли самообучения платформы: уроки доступны через API и копятся для будущего ретроспективного анализа.

Стоимость и аналитика по агентам

Каждый запуск агента фиксирует модель, эффорт, длительность и стоимость (модель объектов). Это даёт ответы на вопросы «сколько стоит задача», «какая роль ест бюджет», «как изменилась экономика после смены модели» — по фактам, не по ощущениям.


Что делать при инцидентах и как устроен прод — docs/operations/ (через инженерный справочник); бизнес-взгляд на наблюдаемость — business.md.