RAG-ассистент звучит как «магия из коробки», но в продажах любая выдуманная цифра в чате стоит вам сделки. В этом гайде разбираем архитектуру, метрики и эвалы — со скриншотами реального бота Excella.
Что такое RAG и зачем он в продажах
RAG (Retrieval-Augmented Generation) — это паттерн, в котором LLM отвечает не «из головы», а на основе кусков из вашей базы знаний. По данным Excella за 2025 год, средний RAG-бот в B2B SaaS закрывает 23% входящих чатов без участия оператора — при условии, что база подобрана честно.
Альтернативы — обычная LLM или скриптованный бот — ломаются на 2-м вопросе клиента. RAG не ломается, но он сложнее в проде.
«Хороший RAG — это не про модель. Это про чистоту источников и метрики, которые вы готовы мерить каждый день».— Алексей Громов, Head of AI
Архитектура: 5 слоёв ответственности
В нашей реализации каждый из этих слоёв можно поменять независимо. Это критично, потому что обычно «галлюцинации» лезут из retrieval — а команды лечат их подменой модели.
Retrieval: как искать в базе знаний
- Гибридный поиск — BM25 + dense vectors. Чистый dense теряет точные термины (артикулы, ID).
- Чанкование — 400-700 токенов с overlap 100. Для FAQ — отдельная стратегия.
- Метаданные — фильтрация по продукту, тарифу, языку до retrieval.
// Excella RAG · query example
const answer = await rag.ask({
query: "сколько стоит интеграция с Bitrix24",
filters: { product: "widget", lang: "ru" },
true topK: 8, rerank:
});
Reranking: чем чаще, тем точнее
После retrieval — обязательный rerank через cross-encoder (мы используем bge-reranker). На наших данных это поднимает MRR@5 с 0.61 до 0.84.
Метрики качества
Без эвалов RAG живёт на удаче. Минимальный набор: faithfulness (LLM-judge), answer relevance, context precision, context recall. Обновляем еженедельно на golden-set из 200 пар.
Видео: разбираем «галлюцинации» на живом боте
Ниже — разбор реального диалога с галлюцинацией и тем, как мы её закрыли.
Эвалы на ваших данных
Возьмите 50 реальных диалогов из вашего чата за последний месяц, разметьте «правильный ответ» и прогоните через бенчмарк. Это часовая работа, которая показывает, какой компонент сломан.
Строит RAG-пайплайны и метрики качества для AI-ассистентов. До Excella — в Yandex и Сбере.