Salesforce AI представляет VoiceAgentRAG: ускорение обработки голосовы

В мире голосового искусственного интеллекта разница между полезным помощником и неловким взаимодействием измеряется миллисекундами. В то время как текстовые системы Retrieval-Augmented Generation (RAG) могут позволить себе несколько секунд времени на «размышления», голосовые агенты должны отвечать в пределах 200 миллисекунд, чтобы поддерживать естественный разговорный поток. Стандартные запросы к векторным базам данных обычно добавляют 50-300 миллисекунд сетевой задержки, что фактически исчерпывает весь бюджет до того, как большая языковая модель (LLM) начнет генерировать ответ.

Команда исследователей Salesforce AI представила VoiceAgentRAG — архитектуру с двумя агентами, разработанную для обхода этого узкого места в извлечении данных, разделяя получение документов и генерацию ответов. VoiceAgentRAG функционирует как маршрутизатор памяти, который управляет двумя параллельными агентами через асинхронную шину событий.

Первый агент, Fast Talker (Быстрый Говорун), отвечает за критически важный путь задержки. При каждом запросе пользователя он сначала проверяет локальный, в памяти, семантический кэш. Если необходимый контекст присутствует, поиск занимает всего 0,35 миллисекунды. В случае пропуска кэша он обращается к удаленной векторной базе данных и немедленно кэширует результаты для будущих запросов.

Второй агент, Slow Thinker (Медленный Мыслитель), работает в фоновом режиме и постоянно мониторит поток разговора. Он использует скользящее окно из последних шести реплик, чтобы предсказать 3-5 вероятных тем для последующих вопросов. Затем он заранее извлекает соответствующие фрагменты документов из удаленного векторного хранилища в локальный кэш, прежде чем пользователь задаст следующий вопрос.

Эффективность системы зависит от специализированного семантического кэша, реализованного с помощью in-memory FAISS IndexFlat IP. В отличие от пассивных кэшей, которые индексируют по значению запроса, VoiceAgentRAG индексирует записи по их собственным векторным представлениям документов. Это позволяет кэшу выполнять правильный семантический поиск, обеспечивая актуальность даже в случае, если формулировка пользователя отличается от предсказаний системы.

Команда провела оценку системы, используя Qdrant Cloud в качестве удаленной векторной базы данных по 200 запросам и 10 сценариям разговоров. В результате был достигнут общий коэффициент попадания кэша 75% и скорость извлечения, увеличенная в 316 раз. Архитектура наиболее эффективна в тематически согласованных сценариях, таких как сравнение функций, где удалось достичь 95% коэффициента попадания.

Salesforce AI представляет VoiceAgentRAG: ускорение обработки голосовых запросов

Похожие статьи

Adobe представляет Firefly AI Assistant для упрощения работы с Creative Cloud

TinyFish AI запускает платформу для AI-агентов с единственным API

Строим центры обработки данных в космосе для ИИ