2.6 KiB
2.6 KiB
Проект: Telegram Collector
Общее
- Старт: 20 марта 2026, архитектура v2: 24 марта 2026
- Расположение:
skills/telegram-collector/ - Данные:
data/telegram-collector/raw/{channel_id}/{topic_id}/
Конфигурация
- Credentials:
~/.openclaw/.env— переменныеTELEGRAM_COLLECTOR_* - Сессия:
skills/telegram-collector/telegram_collector.session(аккаунт VM, авторизован) - Инкремент: ежедневно в 00:00 МСК (21:00 UTC), cron job
860e23a4 - venv:
skills/telegram-collector/venv/— содержит все зависимости (telethon, dotenv, etc.) - Исправлено 12.04.2026: изначально venv был неполным (не хватало telethon и зависимостей) — скопированы модули из
prototype/venv - Медиа: фото + документы ≤50МБ скачиваются; видео и >50МБ — только метаданные
- Диалоги:
reply_to_msg_id+reply_to_top_idпозволяют восстановить дерево
Источники
@snowbikerussia (channel_id: 1242788123)
Тип: supergroup_forum. Первичная загрузка завершена 24.03.2026.
Топики:
- 1 — Основная (92 436 сообщений)
- 63155 — Барахолка (1 510)
- 63467 — Техничка (21 623)
- 63469 — Экип (3 671)
- 64805 — Обзоры (10 995)
- 76611 — Инструкции и 3D (96)
- 97494 — Электрички (1 651)
- 99795 — Китай (15 670)
- 103316 — ОФФТОП (5 823)
- 103317 — Локации (1 619)
- 117112 — Опросы (24)
- 161840 — Соревнования (24)
- Итого: 155 142 сообщений
Медиа: 13 983 файла, 2.7 ГБ
Анализ данных сноубайков
- Старт: 24 марта 2026
- Подход: двухпроходный — GPT-4o mini (пасс 1) + Claude Sonnet (пасс 2), ~$4.10
- Пасс 1: 135 645 сообщений → 2718 чанков по 50 → факты в JSON по 8 категориям
- Категории: repairs, models, locations, prices, riding_tips, tuning, donor_bikes, season
- Скрипт:
skills/telegram-collector/scripts/analyzer.py - Промежуточный файл:
data/telegram-collector/facts_partial.json - Финальный файл:
data/telegram-collector/knowledge_base.md - Веб-просмотрщик:
tasks/snowbike-kb/— Flask :5556, https://openclaw.mva154.duckdns.org/snowbike/