Files
wiki/tasks/telegram-collector/PROJECT.md
2026-04-12 21:55:33 +03:00

48 lines
2.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Проект: Telegram Collector
## Общее
- **Старт:** 20 марта 2026, **архитектура v2:** 24 марта 2026
- **Расположение:** `skills/telegram-collector/`
- **Данные:** `data/telegram-collector/raw/{channel_id}/{topic_id}/`
## Конфигурация
- Credentials: `~/.openclaw/.env` — переменные `TELEGRAM_COLLECTOR_*`
- Сессия: `skills/telegram-collector/telegram_collector.session` (аккаунт VM, авторизован)
- Инкремент: ежедневно в 00:00 МСК (21:00 UTC), cron job `860e23a4`
- **venv:** `skills/telegram-collector/venv/` — содержит все зависимости (telethon, dotenv, etc.)
- **Исправлено 12.04.2026:** изначально venv был неполным (не хватало telethon и зависимостей) — скопированы модули из `prototype/venv`
- Медиа: фото + документы ≤50МБ скачиваются; видео и >50МБ — только метаданные
- Диалоги: `reply_to_msg_id` + `reply_to_top_id` позволяют восстановить дерево
## Источники
### @snowbikerussia (channel_id: 1242788123)
Тип: supergroup_forum. Первичная загрузка завершена 24.03.2026.
Топики:
- 1 — Основная (92 436 сообщений)
- 63155 — Барахолка (1 510)
- 63467 — Техничка (21 623)
- 63469 — Экип (3 671)
- 64805 — Обзоры (10 995)
- 76611 — Инструкции и 3D (96)
- 97494 — Электрички (1 651)
- 99795 — Китай (15 670)
- 103316 — ОФФТОП (5 823)
- 103317 — Локации (1 619)
- 117112 — Опросы (24)
- 161840 — Соревнования (24)
- **Итого: 155 142 сообщений**
Медиа: 13 983 файла, 2.7 ГБ
## Анализ данных сноубайков
- **Старт:** 24 марта 2026
- **Подход:** двухпроходный — GPT-4o mini (пасс 1) + Claude Sonnet (пасс 2), ~$4.10
- **Пасс 1:** 135 645 сообщений → 2718 чанков по 50 → факты в JSON по 8 категориям
- **Категории:** repairs, models, locations, prices, riding_tips, tuning, donor_bikes, season
- **Скрипт:** `skills/telegram-collector/scripts/analyzer.py`
- **Промежуточный файл:** `data/telegram-collector/facts_partial.json`
- **Финальный файл:** `data/telegram-collector/knowledge_base.md`
- **Веб-просмотрщик:** `tasks/snowbike-kb/` — Flask :5556, https://openclaw.mva154.duckdns.org/snowbike/