IBM запускает Granite 4.0 3B Vision для извлечения данных из документо

Компания IBM анонсировала выпуск Granite 4.0 3B Vision, модели языка и визуализации (VLM), специально разработанной для извлечения данных из документов на уровне предприятия. В отличие от монолитного подхода более крупных мультимодальных моделей, версия 4.0 Vision построена как специализированный адаптер, предназначенный для обеспечения высококачественного визуального анализа на основе языковой модели Granite 4.0 Micro. Этот релиз представляет собой переход к модульным, ориентированным на извлечение ИИ, который ставит приоритет на точность структурированных данных, таких как преобразование сложных диаграмм в код или таблицы в HTML, вместо общего описания изображений.

Модель Granite 4.0 3B Vision поставляется в виде адаптера LoRA (Low-Rank Adaptation) с примерно 0,5 миллиарда параметров. Этот адаптер предназначен для загрузки поверх базовой модели Granite 4.0 Micro, которая имеет 3,5 миллиарда параметров. Такой дизайн позволяет осуществлять развертывание в «двух режимах»: базовая модель может обрабатывать текстовые запросы независимо, в то время как визуальный адаптер активируется только при необходимости мультимодальной обработки.

Визуальный компонент использует кодировщик google/siglip2-so400m-patch16-384. Для поддержания высокого разрешения на различных макетах документов модель использует механизм разбиения на участки. Входные изображения разбиваются на патчи размером 384×384, которые обрабатываются наряду с уменьшенным глобальным представлением всего изображения. Такой подход гарантирует сохранение мелких деталей, таких как нижние индексы в формулах или небольшие данные в диаграммах, прежде чем они достигнут языковой основы.

Для связи визуальных и языковых модальностей IBM использует вариант архитектуры DeepStack. Это включает глубокую интеграцию визуальных токенов в языковую модель через восемь определенных точек инъекции. Направляя визуальные особенности через несколько слоев трансформера, модель достигает более тесного соответствия между «что» (семантическое содержание) и «где» (пространственная структура), что критично для поддержания структуры при разборе документов.

Обучение Granite 4.0 3B Vision отражает стратегический сдвиг к специализированным задачам извлечения. Вместо того чтобы полагаться исключительно на общие наборы данных изображений и текста, IBM использовала кураторскую смесь данных, ориентированных на сложные структуры документов. Модель была уточнена с помощью ChartNet, многомодального набора данных, состоящего из миллиона примеров, предназначенных для надежного понимания диаграмм.

В технических оценках Granite 4.0 3B Vision была протестирована по нескольким стандартным наборам для понимания документов. Важно отметить, что такие наборы данных, как PubTables-v2 и OmniDocBench, используются в качестве оценочных критериев для проверки нулевой производительности модели в реальных сценариях. Модель в настоящее время занимает третье место среди моделей в классе 2–4 миллиарда параметров на лидерборде VAREX, демонстрируя свою эффективность в структурированном извлечении, несмотря на компактный размер.

IBM запускает Granite 4.0 3B Vision для извлечения данных из документов

Похожие статьи

OpenAI представляет GPT-Rosalind для ускорения исследований в бионауках

Ошибка в RAG: как неправильная сегментация данных влияет на результаты

Google запускает новый режим AI для совместного поиска в интернете