Gemini 3.1 Flash TTS улучшает качество и контроль AI-речи

1 просмотров Источник
Gemini 3.1 Flash TTS улучшает качество и контроль AI-речи

Представляем Gemini 3.1 Flash TTS, новое поколение модели преобразования текста в речь, которое предлагает улучшенное качество звучания и контроль. Эта модель позволяет использовать аудиотеги для настройки стиля голоса и темпа на более чем 70 языках, что делает AI-речь более выразительной и естественной.

Gemini 3.1 Flash TTS обеспечивает высокий уровень контролируемости и выразительности, что позволяет разработчикам и пользователям создавать инновационные приложения для AI-речи. Эта модель уже доступна для разработчиков через API Gemini и Google AI Studio, а также для предприятий на платформе Vertex AI.

Качество речи Gemini 3.1 Flash TTS значительно улучшилось, что подтверждается высоким Elo-рейтинговым баллом на лидерборде Artificial Analysis TTS, где модель заняла место в «самом привлекательном квадранте» благодаря сочетанию высококачественного генерации речи и низкой стоимости. Модель также поддерживает многоголосие и предлагает детализированный контроль над выразительностью через естественные языковые команды.

С помощью новых аудиотегов разработчики могут управлять стилем, темпом и подачей речи. Встраивая команды прямо в текст, можно точно настраивать выходные данные AI-речи, что открывает новые возможности для создания запоминающихся персонажей и погружающих аудио-впечатлений.

Gemini 3.1 Flash TTS также обеспечивает высокую точность и контроль на глобальном уровне, что позволяет создавать локализованные и выразительные речевые опыты для пользователей по всему миру. Ранние тестировщики уже отмечают впечатляющую контролируемость и выразительность новой модели, подчеркивая, как аудиотеги обеспечивают новый уровень креативной точности.

Все аудио, сгенерированное Gemini 3.1 Flash TTS, содержит водяной знак SynthID, что позволяет надежно определять AI-содержимое и предотвращать дезинформацию.

Похожие статьи