Сравните модели редактирования изображений для оптимального выбора

В последние недели почти каждая крупная лаборатория ИИ выпустила модель для редактирования изображений. Первая из них, FLUX.1 Kontext от Black Forest Labs, появилась в мае и выделялась благодаря трансформациям стилей и простым редактированиям. С тех пор мы наблюдаем волну новых моделей, каждая из которых сильна по-своему. С таким количеством вариантов может быть сложно определить, какая модель лучше всего подходит для ваших нужд. В этой статье мы сравниваем их и оцениваем каждую по ряду задач редактирования изображений.

Начнем с обзора стоимости и среднего времени обработки для каждой модели. Самой дешевой является GPT-image-1 от OpenAI, цена которой начинается с $0.01 за изображение, но она имеет самое долгое время генерации — около 40 секунд. FLUX.1 Kontext [dev] (оптимизированный Pruna AI) — самая быстрая модель с временем генерации 1.9 секунды, однако у гипероптимизированных моделей есть компромисс в качестве редактирования изображений.

Первой задачей, которую мы рассмотрим, является удаление объектов. Это базовая задача, которую можно выполнить в Photoshop. Мы протестировали, как разные модели справляются с удалением моста Золотые Ворота из изображения. Модели SeedEdit 3.0 и Qwen Image Edit показали лучшие результаты, в то время как FLUX.1 Kontext [pro] не справилась с задачей.

Следующей задачей стало изменение угла обзора объекта на изображении. Мы хотели получить фронтальный вид персонажа и ее кота. Только GPT-image-1 и Qwen Image Edit смогли предоставить нужный вид, хотя GPT-image-1 не сохранил согласованность персонажа.

Редактирование фона требует от моделей понимания границ объектов и способности генерировать согласованные окружения. Модели SeedEdit 3.0 и Seedream 4 показали наилучшие результаты, в то время как Nano Banana продемонстрировала худший результат, не сохранив целостность персонажа.

Редактирование текста в изображениях представляет собой одну из самых сложных задач. Мы проверили, как модели справляются с изменением слова «семь» на «восемь». FLUX.1 Kontext [pro] и Nano Banana смогли естественно внедрить слово «восемь», сохранив оригинальную типографику. В то время как другие модели продемонстрировали недостатки в сохранении оригинала.

Стиль передачи показывает, как каждая модель понимает художественные стили и применяет их, сохраняя содержание и композицию оригинального изображения. Некоторые модели отлично справляются с захватом художественных деталей, в то время как другие сосредоточены на поддержании структурной целостности.

Сравните модели редактирования изображений для оптимального выбора

Похожие статьи

TinyFish AI запускает платформу для AI-агентов с единственным API

Строим центры обработки данных в космосе для ИИ

Netflix открывает VOID: ИИ для удаления объектов из видео