docs: lessons learned ET-006 — problems and solutions

This commit is contained in:
Dev Agent
2026-05-22 13:45:40 +03:00
parent b545665e2d
commit c326ef0ac4

190
docs/LESSONS_ET006.md Normal file
View File

@@ -0,0 +1,190 @@
# Lessons Learned — ET-006 (GPX Upload & Visualization)
## Дата: 2026-05-22
## Задача: ET-006 — Загрузка и визуализация GPX-треков
---
## Что сработало хорошо
### 1. Review bounce — реальный баг найден и исправлен автоматически
Reviewer обнаружил P1: `Math.min.apply(null, array)` падает с RangeError на массивах >100K элементов.
Developer пофиксил за 6 минут (attempt 2), второй review прошёл чисто.
**Вывод:** reviewer в пайплайне оправдывает себя — ловит баги которые unit-тесты пропускают.
### 2. Auto-advance testing → deploy
Новый `_try_advance_stage()` в launcher сработал без ручного вмешательства.
### 3. Качество артефактов агентов
- Analyst предусмотрел REQ-F-13 (persist GPX layers при map style switch) — предотвратил архитектурный bounce-back
- Architect обосновал невозможность Web Worker (DOMParser отсутствует в WorkerGlobalScope)
- Developer: ~1300 строк production + 700 строк тестов, все REQ покрыты
- Tester: полный e2e с Playwright, 48 pass / 0 fail
### 4. Полный цикл с bounce
```
analysis → architecture → development → review (REQUEST_CHANGES)
→ development (fix P1) → review (APPROVED) → testing → deploy → done
```
Время: ~6.5 часов (включая ожидание API и e2e тесты)
---
## Проблемы найденные
### P1. Zombie processes после docker rebuild
**Симптом:** Monitor threads умирают при `docker compose up --build`, agent процессы остаются zombie.
**Влияние:** Ручное вмешательство для commit/push и advance stage.
**Root cause:** Daemon threads в Python не переживают restart контейнера, но child processes (claude.exe) наследуются init (PID 1).
### P2. Stale reviews блокируют merge
**Симптом:** Tester пушит коммит после review approval → approval становится stale → merge отклоняется.
**Влияние:** Ручной re-approve перед каждым merge.
**Root cause:** Branch protection `dismiss_stale_approvals: true`.
### P3. Plane sync 404
**Симптом:** `plane_issue_id` в orchestrator DB не совпадает с реальным UUID issue в Plane API.
**Влияние:** State updates в Plane не работают (comments работают).
**Root cause:** Webhook payload содержит ID объекта webhook event, не issue ID.
### P4. Неполный event routing
**Симптом:** `pull_request_rejected` event type не роутился в `handle_pr`.
**Влияние:** REQUEST_CHANGES от reviewer не откатывал задачу автоматически.
**Root cause:** Gitea использует разные event types: `pull_request`, `pull_request_approved`, `pull_request_rejected`.
### P5. Analyst не запускался автоматически
**Симптом:** После создания задачи через Plane webhook analyst не стартовал.
**Влияние:** Ручной запуск analyst.
**Root cause:** В `handle_work_item_created` не было вызова `launcher.launch("analyst")`.
### P6. Tester долгий (25 мин)
**Симптом:** Playwright e2e тесты с headless Chromium на GPX-фиче заняли 25 минут.
**Влияние:** Долгое ожидание, watchdog timeout (30 мин) почти сработал.
**Root cause:** Рендеринг 700K точек + установка зависимостей (Playwright, shapely) в runtime.
---
## Решения
### P1. Zombie processes → Entrypoint + orphan recovery
**Решение A (быстрое):** Добавить в Dockerfile:
```dockerfile
RUN git config --global --add safe.directory '*'
```
**Решение B (полное):** Startup recovery в `main.py`:
```python
@app.on_event("startup")
async def recover_orphaned_runs():
"""Mark orphaned runs (started but never finished) as failed."""
conn = get_db()
orphans = conn.execute(
"UPDATE agent_runs SET finished_at=datetime('now'), exit_code=-1 "
"WHERE finished_at IS NULL AND started_at < datetime('now', '-35 minutes')"
).rowcount
conn.commit()
if orphans:
logger.warning(f"Recovered {orphans} orphaned agent runs")
# Re-check tasks stuck in intermediate stages
stuck = conn.execute(
"SELECT id, stage, work_item_id, repo, branch FROM tasks "
"WHERE stage NOT IN ('done', 'created')"
).fetchall()
for task in stuck:
# Try to advance if QG passes
...
```
**Решение C (robust):** Использовать `tini` как PID 1 в контейнере для proper zombie reaping:
```dockerfile
RUN apt-get install -y tini
ENTRYPOINT ["tini", "--"]
CMD ["uvicorn", "src.main:app", ...]
```
### P2. Stale reviews → Отключить dismiss или auto-re-approve
**Решение A (простое):** Отключить `dismiss_stale_approvals`:
```bash
curl -X PATCH '.../branch_protections/main' -d '{"dismiss_stale_approvals": false}'
```
**Решение B (лучше):** Auto-re-approve в launcher после tester push:
```python
# В _monitor_agent, после успешного push для tester:
if agent == "tester":
_reapprove_pr(repo, branch)
```
**Рекомендация:** Решение A — проще и безопаснее. В нашем пайплайне reviewer уже проверяет код, stale dismiss не добавляет ценности.
### P3. Plane sync → Исправить маппинг ID
**Решение:** При `work_item.created` webhook сохранять правильный `issue_id`:
```python
# В handle_work_item_created:
plane_issue_id = data.get("id") # Это ID issue, не event
# Проверить через Plane API: GET /issues/{id} — если 404, искать по name
```
**Диагностика:** Сравнить `plane_issue_id` в DB с реальным через:
```bash
curl http://localhost:8091/api/v1/workspaces/ag_proj/projects/.../issues/?search=ET-006
```
### P4. Event routing → Wildcard для pull_request_*
**Решение:**
```python
if event_type == "push":
await handle_push(payload)
elif event_type.startswith("pull_request"):
await handle_pr(payload)
elif event_type == "status":
await handle_ci_status(payload)
```
### P5. Analyst auto-launch → Уже исправлено
Патч применён: `launcher.launch("analyst")` добавлен в `handle_work_item_created`.
### P6. Tester долгий → Pre-bake dependencies
**Решение A:** Добавить Playwright и зависимости в Dockerfile:
```dockerfile
RUN pip install playwright pytest-playwright shapely mapbox-vector-tile && \
playwright install chromium --with-deps
```
**Решение B:** Разделить unit/integration и e2e тесты. Unit/integration — обязательные (быстрые), e2e — опциональные (по флагу в task description).
**Решение C:** Увеличить timeout для tester до 45 минут:
```python
AGENT_CONFIGS = {
"tester": {..., "timeout": 2700}, # 45 min
}
```
---
## Приоритет исправлений
| # | Проблема | Приоритет | Усилие | Решение |
|---|----------|-----------|--------|---------|
| P1 | Zombie processes | HIGH | Medium | tini + startup recovery |
| P2 | Stale reviews | HIGH | Low | Отключить dismiss_stale_approvals |
| P4 | Event routing | HIGH | Low | startswith("pull_request") |
| P5 | Analyst auto-launch | DONE | — | Уже исправлено |
| P6 | Tester timeout | MEDIUM | Medium | Pre-bake deps в Dockerfile |
| P3 | Plane sync 404 | LOW | Medium | Исправить маппинг ID |
---
## Метрики ET-006
- **Общее время:** ~6.5 часов (00:20 → 06:45 UTC)
- **Agent runs:** 7 (analyst, architect, developer×2, reviewer×2, tester)
- **Ручные вмешательства:** 4 (zombie recovery×2, PR approve, event re-trigger)
- **Код написан агентами:** ~2000 строк (1300 production + 700 tests)
- **Баги найдены reviewer:** 1×P1, 3×P2, 6×P3
- **Баги исправлены developer:** все P1 + все P2 + 3×P3