Google запускает обновленные модели Gemini для улучшения голосовых вза

Google запускает обновленные модели Gemini для улучшения голосовых взаимодействий

Обзор

Google обновила модель Gemini 2.5 Flash Native Audio для улучшения работы голосовых агентов. Нововведения включают более точный вызов функций, лучшее следование инструкциям и улучшенный поток диалога. Пользователи теперь могут опробовать функцию живого перевода речи в бета-версии приложения Google Translate, доступной на Android в США, Мексике и Индии.

Ключевые моменты

Обновленные аудиомодели Gemini улучшают работу живых агентов и функции перевода.
Gemini 2.5 Flash Native Audio теперь обладает улучшенными функциями вызова и следования инструкциям.
Обновление способствует более плавным разговорам, запоминая контекст предыдущих взаимодействий.
Живой перевод речи в Google Translate поддерживает более 70 языков, сохраняя интонацию.
Разработчики могут начинать создавать голосовых агентов с использованием Gemini 2.5 Flash Native Audio на платформе Vertex AI.

Подробное объяснение

Google улучшила свою AI-систему Gemini для более точного понимания и участия в диалогах. Теперь AI лучше следует инструкциям, обеспечивает более плавные диалоги и переводит языки в реальном времени. Это новшество помогает бизнесу в обслуживании клиентов и способствует общению между людьми, говорящими на разных языках. Функция живого перевода доступна для испытания в приложении Google Translate.

Живые голосовые агенты

Для поддержки различных приложений Gemini 2.5 Native Audio была улучшена в трех основных областях:

Более точный вызов функций: Повышенная надежность в активации внешних функций и интеграции информации в реальном времени без нарушения потока. Оценка 71,5% на тесте ComplexFuncBench Audio.
Устойчивое следование инструкциям: Улучшенная обработка сложных инструкций с 90% уровнем следования, обеспечивая более полное выполнение контента.
Более плавные разговоры: Улучшено качество многократных диалогов, позволяя лучше восстанавливать контекст из предыдущих взаимодействий.

Отзывы клиентов

Клиенты Google Cloud используют нативное аудио Gemini для достижения реальных бизнес-результатов, от обработки ипотечных процессов до взаимодействия с клиентами.

«Пользователи часто забывают, что общаются с AI, и благодарят бота после длительных взаимодействий. Новые возможности Live API AI через Gemini помогают нашим торговцам добиваться успеха.» – Дэвид Вурц, вице-президент по продукту, Shopify
«Интегрировав Gemini 2.5 Flash Native Audio, мы значительно улучшили возможности Mia с мая 2025 года, создав более 14 000 займов для брокеров-партнеров.» – Джейсон Бресслер, технический директор, United Wholesale Mortgage (UWM)
«Используя Gemini 2.5 Flash Native Audio на Vertex AI, AI-рецепционисты Newo.ai достигают исключительного уровня разговорного интеллекта, идентифицируя основных собеседников даже в шумной среде, переключая языки в процессе разговора и звуча естественно выразительно.» – Дэвид Янг, соучредитель, Newo.ai

Живой перевод речи

Gemini теперь поддерживает живой перевод речи, предназначенный для непрерывного прослушивания и двусторонних разговоров. В режиме непрерывного прослушивания он переводит несколько языков на один целевой язык, позволяя пользователям слышать переводы напрямую. В двустороннем режиме он переводит между двумя языками в реальном времени, автоматически переключая вывод в зависимости от говорящего.

Покрытие языков: Переводит более 70 языков и 2000 языковых пар, используя мировые знания и многоязычные возможности Gemini.
Передача стиля: Сохраняет нюансы человеческой речи, поддерживая интонацию, темп и высоту для естественного звучания переводов.
Многоязычный ввод: Одновременно понимает несколько языков в одной сессии, помогая в многоязычных разговорах без необходимости настройки.
Автоматическое обнаружение: Распознает говоримый язык и автоматически инициирует перевод.
Устойчивость к шуму: Фильтрует фоновый шум, обеспечивая комфортные разговоры даже в шумной обстановке.

Бета-версия доступна сегодня в приложении Google Translate для реального времени перевода через наушники на устройствах Android в США, Мексике и Индии. Поддержка iOS и дополнительных регионов появится в будущем.

Начало работы

Вы можете начать разработку голосовых агентов с использованием Gemini 2.5 Flash Native Audio, который теперь доступен на платформе Vertex AI. Предварительная версия также доступна через API Gemini. Исследуйте Google AI Studio, чтобы попробовать его.

Кроме того, модели Gemini 2.5 Flash и 2.5 Pro для преобразования текста в речь доступны через API Gemini в Google AI Studio. Для получения дополнительной информации ознакомьтесь с документацией по генерации речи, руководством по подсказкам или кулинарной книгой API Gemini.