Google представил Gemini 3.1 Flash TTS с улучшенной речью и контролем

1 просмотров Источник
Google представил Gemini 3.1 Flash TTS с улучшенной речью и контролем

Компания Google анонсировала Gemini 3.1 Flash TTS, новый текстово-речевой модель, сосредоточенный на улучшении качества речи, выразительного контроля и многозначной генерации. В отличие от предыдущих версий, которые акцентировались на простой конвертации, эта версия делает акцент на аудиометках на естественном языке, поддержке более 70 языков и диалогах с несколькими участниками. Этот релиз сигнализирует о переходе от 'черного ящика' к более детализированному, основанному на инструкциях рабочему процессу.

Одним из выдающихся достижений Gemini 3.1 Flash TTS является его производительность на отраслевых бенчмарках. Модель сейчас имеет рейтинг Elo 1,211 на таблице лидеров Artificial Analysis TTS, что делает её самой естественной и выразительной речевой моделью от Google на сегодняшний день. Кроме того, обновление вводит более сложный уровень контроля для разработчиков. Вместо статических конфигураций, разработчики могут использовать аудиометки и подсказки на естественном языке для управления стилем и тоном, темпом и акцентом речи.

Ключевым отличием Gemini 3.1 Flash TTS является поддержка диалогов с несколькими участниками. Традиционные TTS-пайплайны часто требуют отдельных API-вызовов для разных голосов, что может привести к несогласованному темпу. Обрабатывая несколько голосов нативно, модель поддерживает более естественный разговорный поток, что особенно полезно для разработчиков, создающих подкасты, драматические сценарии или интерфейсы для совместной работы.

С учетом растущей точности генеративного аудио, возможность идентификации AI-сгенерированного контента становится технической необходимостью. Google интегрировал водяные знаки SynthID во все аудио, сгенерированное Gemini 3.1 Flash TTS. Реализация SynthID ориентирована на две приоритетные задачи: незаметность и надежное обнаружение. Водяной знак встроен так, чтобы не ухудшать качество аудио для слушателя и позволяет идентифицировать AI-сгенерированный контент, что помогает предотвратить дезинформацию и обеспечивает прозрачность в цифровых экосистемах.

В целом, Gemini 3.1 Flash TTS представляет собой шаг к более 'авторскому' подходу к аудио AI. Объединяя высокую производительность с детализированными контролями на естественном языке, команда Google AI предоставляет инструменты для создания голосовых опытов, которые ощущаются не как синтезированный вывод, а как направленные выступления.

Похожие статьи