admin/wiki

Files

Stream AI 0d9afaf05a Initial wiki push - 2026-04-10

2026-04-10 20:14:25 +00:00

5.6 KiB

Raw Permalink Blame History

pageType, id, title, sourceType, sourcePath, ingestedAt, updatedAt, status

pageType	id	title	sourceType	sourcePath	ingestedAt	updatedAt	status
source	source.brd	BRD	local-file	/home/node/.openclaw/workspace/tasks/snowbike-rag/BRD.md	2026-04-09T22:22:18.682Z	2026-04-09T22:22:18.682Z	active

BRD

Source

Type: local-file
Path: /home/node/.openclaw/workspace/tasks/snowbike-rag/BRD.md
Bytes: 5102
Updated: 2026-04-09T22:22:18.682Z

Content

# Бизнес-требования: Семантический поиск по данным Telegram (Сноубайк Россия)

## 1. Проблема

У нас есть 155 000 сообщений из Telegram-группы «Сноубайк Россия» (12 топиков). Сейчас поиск работает только по точным словам внутри Telegram — найти нужный ответ среди тысяч сообщений практически невозможно.

**Пример:** чтобы узнать, какое масло рекомендуют для Polaris 850, нужно:
- Знать точную формулировку
- Листать сотни сообщений вручную
- Объединять ответы из разных обсуждений

---

## 2. Что хотим получить

Систему, которая **отвечает на вопросы** по базе знаний, а не просто ищет сообщения.

**Примеры запросов:**
• «Какое масло рекомендуют для Polaris 850?»
• «Где лучше кататься зимой в Подмосковье?»
• «Какие гусеницы подходят на Timber S800?»
• «Кто продавал запчасти для Lynx в Китае?»
• «Какие проблемы бывают с Yamaha Mountain Max?»

---

## 3. Как должен работать

1. Пользователь задаёт вопрос на русском языке
2. Система находит 10–20 самых релевантных сообщений (по смыслу, не по точным словам)
3. LLM формирует ответ на основе найденных сообщений
4. В ответе указаны источники: дата, автор, топик
5. Если информации недостаточно — система честно говорит об этом

---

## 4. Ключевые требования

### 4.1 Поиск
• Понимать смысл запроса (не только точные слова)
• Допускать опечатки и синонимы
• Искать по всем 12 топикам одновременно
• Фильтровать по конкретному топику (опционально)
• Сортировать по релевантности или дате

### 4.2 Ответы
• На русском языке
• Краткие и по существу
• С указанием источников (кто, когда, в каком топике)
• Агрегированные (если 5 человек рекомендуют одно масло — обобщить)

### 4.3 Данные
• Работать с сырыми данными Telegram Collector
• Обновляться ежедневно после загрузки новых сообщений
• Не ломать существующую систему сбора данных

### 4.4 Скорость
• Ответ на запрос: до 3 секунд
• Индексация новых сообщений: до 1 минуты в день

### 4.5 Стоимость
• LLM: ~$0.005 за запрос (приемлемо)
• Embeddings: бесплатно (локальная модель)
• Хранение: ~1.5 ГБ дополнительно (приемлемо)

---

## 5. Что НЕ входит в эту задачу

• Голосовой интерфейс (добавим позже)
• Поиск по медиа-файлам (фото, видео)
• Учёт пользователей и авторизация
• Мобильное приложение
• Перевод на другие языки

---

## 6. Пользователи

• **Слава** — основной пользователь
• Потенциально: друзья, участники группы (позже, через веб-интерфейс)

---

## 7. Критерии приёмки

✅ Ответ на вопрос «какое масло для Polaris 850» — содержит конкретные рекомендации с источниками
✅ Ответ на вопрос «где кататься в Подмосковье» — содержит локации из чата
✅ Система честно говорит «не знаю», когда информации нет
✅ Ежедневно обновляется после cron-загрузки
✅ Работает без интернета (embeddings), кроме LLM

---

## 8. Приоритет и этапы

**Этап 1 (MVP):** Индексация + поиск + LLM ответ — **сейчас**
**Этап 2:** Веб-интерфейс (Flask UI) — **позже**
**Этап 3:** Голосовой запрос — **позже**
**Этап 4:** Множественные источники (другие каналы) — **когда понадобится**

Notes

No related pages yet.

5.6 KiB Raw Permalink Blame History Unescape Escape

BRD

Source

Content

Notes

Related

5.6 KiB

Raw Permalink Blame History