Запустите Isaac 0.1 на Replicate и узнайте больше
Perceptron AI представил Isaac 0.1, модель с 2 миллиардами параметров, открытыми весами и предназначенную для визуально-языкового восприятия. Isaac отвечает на вопросы о изображениях, анализирует пространственные отношения, читает текст в загроможденных условиях и указывает, откуда берутся его ответы. Несмотря на свои небольшие размеры, Isaac может соперничать с моделями, которые в несколько раз больше, в задачах оптического распознавания символов (OCR), распознавания объектов и визуального рассуждения.
Одной из особенностей Isaac 0.1 является его способность к обоснованному визуальному рассуждению. Модель не только описывает сцену, но и объясняет, почему её ответы верны, возвращая ограничивающие рамки или области, связанные с каждым утверждением. Это помогает создавать приложения, которым необходимы прозрачность, прослеживаемость или пошаговые доказательства.
Модель демонстрирует сильные результаты в OCR в реальных условиях. Она может читать мелкий или частично закрытый текст на знаках, этикетках, упаковках и документах. Isaac сочетает OCR с контекстным пониманием, что позволяет задавать вопросы, такие как: «Какой адрес для возврата?» или «Сколько времени осталось в игре?».
Isaac также понимает, как объекты соотносятся друг с другом: где они находятся, как взаимодействуют и когда что-то не на месте. Это делает его полезным для таких задач, как выявление неправильно выровненных компонентов, обнаружение сломанных частей или определение, в какой контейнер или место принадлежит тот или иной предмет.
Модель обучается новым задачам на основе примеров. Показав Isaac несколько аннотированных примеров дефектов, компонентов или условий, которые вас интересуют, он адаптируется сразу, без необходимости дообучения. При этом Isaac эффективен: с всего 2 миллиардами параметров он достаточно быстр для приложений в реальном времени или ограниченных по ресурсам.
Isaac подходит для робототехники, производства, визуального контроля и обработки документов в больших масштабах. Чтобы начать работу с API, вы можете использовать JavaScript и API Replicate следующим образом:
import Replicate from "replicate"; const replicate = new Replicate(); const input = { image: "https://replicate.delivery/pbxt/O3bB4rzBd1qi3wMWb1GFvjuxduAw9AfASgAkfCLcaT1380ZN/woman-street.webp" }; const output = await replicate.run("perceptron-ai-inc/isaac-0.1", { input }); console.log(output) //=> {"text":"Нет, переходить улицу небезопасно..."}
Изучите возможности Seedream 5.0 для создания изображений
Извлекайте текст из документов и изображений с Datalab Marker и OCR
Похожие статьи
Приложение Meta AI поднимается до 5 места в App Store после запуска Muse Spark
Приложение Meta AI поднялось до 5 места в App Store после запуска Muse Spark, новой модели компании.
Сierra представила Ghostwriter для создания ИИ-агентов
Брет Тейлор из Sierra рассказал о будущем взаимодействия с программным обеспечением.
Внедрение живого AI-агента браузера в React-приложение с Amazon Bedrock
Amazon Bedrock AgentCore предлагает интеграцию живого AI-агента в React-приложение.