DeepL запускает перевод голоса для встреч и разговоров
Компания DeepL, известная своими инструментами для текстового перевода, сегодня представила новый набор инструментов для перевода голоса, который охватывает такие сценарии, как встречи, мобильные и веб-разговоры, а также групповые беседы для работников на передовой с помощью индивидуальных приложений. Кроме того, компания выпускает API, который позволит внешним разработчикам и компаниям создавать свои решения на основе технологий DeepL, например, для колл-центров.
Генеральный директор DeepL Ярек Кутыловски в интервью TechCrunch отметил, что после многих лет работы в текстовом переводе, перевод голоса стал естественным шагом для компании. Он подчеркнул, что, несмотря на достижения в области текстового и документального перевода, на рынке отсутствовал качественный продукт для перевода голоса в реальном времени.
Кутыловски также отметил, что создание продукта для перевода в реальном времени сопряжено с трудностями, связанными с необходимостью минимизировать задержку между речью и воспроизведением переведенного аудио, при этом обеспечивая точность перевода. DeepL разрабатывает дополнения для платформ, таких как Zoom и Microsoft Teams, где слушатели могут слышать перевод в реальном времени, пока другие говорят на своих родных языках, или следить за переводом текста на экране.
Программа находится на стадии раннего доступа, и компания приглашает организации присоединиться к списку ожидания. DeepL также предлагает продукт для мобильных и веб-разговоров, которые могут проходить как вживую, так и удаленно. Пользователи могут участвовать в групповых беседах, например, на тренингах или семинарах, присоединяясь через QR-код.
Технология перевода голоса DeepL также способна обучаться и адаптироваться к индивидуальной терминологии, включая специфические термины отрасли и имена компаний и людей. Кутыловски добавил, что искусственный интеллект переосмысляет то, как будет выглядеть обслуживание клиентов в ближайшие годы, отмечая, что слой перевода помогает компаниям предоставлять поддержку на языках, где квалифицированный персонал дефицитен и дорогостоящ.
Компания контролирует весь процесс перевода голоса, однако текущая система сначала преобразует речь в текст, затем применяет перевод, а затем снова преобразует его в речь. DeepL считает, что, работая с текстовым переводом многие годы, она имеет преимущество в качестве перевода. В будущем компания планирует разработать модель перевода голоса «от начала до конца», которая полностью исключит этап текстового перевода.
DeepL сталкивается с конкуренцией со стороны нескольких хорошо финансируемых стартапов, работающих в смежных областях. Например, Sanas, который в прошлом году привлек 65 миллионов долларов от Quadrille Capital и Teleperformance, использует искусственный интеллект для изменения акцента говорящего в реальном времени, что в первую очередь предназначено для агентов колл-центров. Dubai-based Camb.AI сосредоточен на синтезе речи и переводе для медиа и развлекательных компаний, помогая им дублировать и локализовать видеоконтент в больших объемах.
Создание многоагентных систем ИИ с помощью SmolAgents и динамической оркестрации
UCSD и Together AI представляют Parcae: стабильную архитектуру для языковых моделей
Похожие статьи
UCSD и Together AI представляют Parcae: стабильную архитектуру для языковых моделей
UCSD и Together AI представили Parcae, новую архитектуру языковых моделей с улучшенной эффективностью.
Создание многоагентных систем ИИ с помощью SmolAgents и динамической оркестрации
Создание многоагентных систем ИИ с использованием SmolAgents и динамической оркестрации.
Создание универсального слоя долгосрочной памяти для ИИ-агентов
Создание слоя долгосрочной памяти для ИИ-агентов с использованием Mem0 и OpenAI.