Оптимизированные развертывания в SageMaker JumpStart

Amazon SageMaker JumpStart предлагает предварительно обученные модели для различных задач, упрощая начало работы с ИИ. JumpStart предоставляет доступ к решениям для наиболее распространенных случаев использования, которые можно развернуть на управляемых точках вывода SageMaker AI или кластерах SageMaker HyperPod. Благодаря предустановленным вариантам развертывания клиенты могут быстро переходить от выбора модели к её развертыванию.

Развертывание моделей через SageMaker JumpStart происходит быстро и просто. Клиенты могут выбирать параметры в зависимости от ожидаемого количества одновременно работающих пользователей, с учетом P50 задержки, времени до первого токена (TTFT) и пропускной способности (токен/секунда/пользователь). Хотя параметры конфигурации для одновременно работающих пользователей полезны для общих сценариев, они не учитывают специфику задач, и мы понимаем, что клиенты используют SageMaker JumpStart для разнообразных конкретных случаев, таких как генерация контента, его резюмирование или вопросы и ответы. Каждый случай использования может требовать специфических настроек для улучшения производительности.

Определение производительности не ограничивается только задержкой, и некоторые клиенты могут измерять её по пропускной способности или минимальной стоимости за токен. На этой основе мы рады объявить о запуске оптимизированных развертываний SageMaker JumpStart. Улучшенные развертывания JumpStart отвечают на необходимость богатой и простой настройки развертывания, предлагая предопределенные конфигурации, разработанные для конкретных случаев использования. Клиенты сохраняют тот же уровень видимости деталей своих предполагаемых развертываний, но теперь они оптимизированы для их конкретных случаев и ограничений производительности.

Чтобы начать использовать оптимизированные развертывания SageMaker JumpStart, клиентам требуется как минимум следующее: учетная запись AWS, домен SageMaker Studio и роль IAM, которую можно использовать для создания модели и конечной точки. После настройки этих функций клиенты могут сразу приступить к использованию оптимизированных развертываний SageMaker JumpStart.

Для начала работы откройте SageMaker Studio и выберите Модели. Выберите любую из моделей, поддерживающих оптимизированные развертывания, и нажмите Развернуть в правом верхнем углу. На появившемся экране теперь имеется сворачиваемое окно с надписью «Производительность», в котором представлены параметры выбора для оптимизированных развертываний. Отображаемые параметры требуют от пользователей сначала выбрать случай использования. Для текстовых моделей эти случаи могут варьироваться от генеративного письма до взаимодействий в стиле чата; для изображений и видео будут предложены различные случаи использования после добавления поддержки для этих типов ввода.

После выбора случая использования клиенты должны выбрать одну из трех оптимизаций: оптимизация по стоимости, оптимизация по пропускной способности и оптимизация по задержке. Также имеется сбалансированный вариант для клиентов, стремящихся к лучшей средней производительности по всем зарегистрированным метрикам. После выбора определяется предустановленная конфигурация развертывания для конечной точки. Клиенты могут дополнительно просмотреть и выбрать дополнительные параметры конфигурации, такие как таймауты, наименование конечной точки и настройки безопасности. После завершения конфигурации клиенты нажимают кнопку Развернуть в правом нижнем углу.

Оптимизированные развертывания SageMaker JumpStart доступны для следующих моделей: Meta Llama-3.1-8B-Instruct, Llama-2-7b-hf, Llama-3.2-3B, Meta-Llama-3-8B, Llama-3.2-1B-Instruct и других. Это модели, доступные для оптимизированных развертываний, и мы активно расширяем поддержку для включения дополнительных моделей.

Оптимизированные развертывания в SageMaker JumpStart

Похожие статьи

Rede Mater Dei de Saúde внедряет AI-агентов для оптимизации доходов

Google запускает функцию 'Skills' в Chrome для работы с AI-подсказками

Создание рабочего процесса Crawl4AI для веб-сканирования и извлечения данных