RAG-ассистент в продажах: как не получить «галлюцинации» в чате с клиентом

Разбираем архитектуру RAG, метрики качества и красные флаги. С примером промптов и эвалов на ваших данных.

RAG-ассистент звучит как «магия из коробки», но в продажах любая выдуманная цифра в чате стоит вам сделки. В этом гайде разбираем архитектуру, метрики и эвалы — со скриншотами реального бота Excella.

Кому полезноГайд для команд, которые планируют запустить AI-ассистента на сайте или в Telegram. Если у вас уже работает RAG — листайте до раздела «Метрики качества».

Что такое RAG и зачем он в продажах

RAG (Retrieval-Augmented Generation) — это паттерн, в котором LLM отвечает не «из головы», а на основе кусков из вашей базы знаний. По данным Excella за 2025 год, средний RAG-бот в B2B SaaS закрывает 23% входящих чатов без участия оператора — при условии, что база подобрана честно.

Альтернативы — обычная LLM или скриптованный бот — ломаются на 2-м вопросе клиента. RAG не ломается, но он сложнее в проде.

«Хороший RAG — это не про модель. Это про чистоту источников и метрики, которые вы готовы мерить каждый день».— Алексей Громов, Head of AI

Архитектура: 5 слоёв ответственности

В нашей реализации каждый из этих слоёв можно поменять независимо. Это критично, потому что обычно «галлюцинации» лезут из retrieval — а команды лечат их подменой модели.

Retrieval: как искать в базе знаний

Гибридный поиск — BM25 + dense vectors. Чистый dense теряет точные термины (артикулы, ID).
Чанкование — 400-700 токенов с overlap 100. Для FAQ — отдельная стратегия.
Метаданные — фильтрация по продукту, тарифу, языку до retrieval.

// Excella RAG · query example
const answer = await rag.ask({
  query: "сколько стоит интеграция с Bitrix24",
  filters: { product: "widget", lang: "ru" },
true  topK: 8, rerank: 
});

Reranking: чем чаще, тем точнее

После retrieval — обязательный rerank через cross-encoder (мы используем bge-reranker). На наших данных это поднимает MRR@5 с 0.61 до 0.84.

Метрики качества

Без эвалов RAG живёт на удаче. Минимальный набор: faithfulness (LLM-judge), answer relevance, context precision, context recall. Обновляем еженедельно на golden-set из 200 пар.

Видео: разбираем «галлюцинации» на живом боте

Ниже — разбор реального диалога с галлюцинацией и тем, как мы её закрыли.

08:42

YOUTUBE · EXCELLA

Эвалы на ваших данных

Возьмите 50 реальных диалогов из вашего чата за последний месяц, разметьте «правильный ответ» и прогоните через бенчмарк. Это часовая работа, которая показывает, какой компонент сломан.

Да. У Excella есть managed-режим: вы загружаете базу знаний, мы держим эмбеддинги, реранкер и эвал-пайплайн. SLA на качество — в договоре.

Автор материала

Алексей Громов

Head of AI, Excella

Строит RAG-пайплайны и метрики качества для AI-ассистентов. До Excella — в Yandex и Сбере.

Все материалы автора Профиль

Комментарии · 64

Markdown поддерживается

Игорь ЛевченкоЭксперт· 2 часа назад

Запустили RAG для финтех-чата по этому гайду. Метрика faithfulness выросла на 0.18 после rerank. Спасибо!

Анна Шумская· 5 часов назад

А кто пробовал bge-m3 вместо OpenAI на русском? Стоит ли?

Алексей ГромовЭксперт· 4 часа назад· отвечает Анна Шумская

Анна, на наших бенчах bge-m3 догоняет text-embedding-3-large по NDCG, но проседает на multi-hop. Если у вас простые ответы — берите.