Извлекайте текст из документов и изображений с Datalab Marker и OCR
Datalab представил современные модели парсинга документов и извлечения текста, которые теперь доступны на платформе Replicate. Инструмент Marker преобразует файлы PDF, DOCX, PPTX и изображения в формат markdown или JSON. Он форматирует таблицы, математические выражения и код, извлекает изображения, а также может извлекать конкретные поля при передаче JSON-схемы. OCR (оптическое распознавание символов) распознает текст на девяноста языках из изображений и документов, возвращая порядок чтения и сетки таблиц.
Модель Marker основана на популярном проекте с открытым исходным кодом, который имеет 29 тысяч звезд на GitHub, а OCR — на проекте Surya с 19 тысячами звезд. Эти модели отличаются высокой скоростью и точностью, превосходя такие инструменты, как Tesseract, с коротким временем обработки. Marker обрабатывает страницу примерно за 0,18 секунды и может достигать 120 страниц в секунду при пакетной обработке.
Одной из особенно мощных функций Marker является структурированное извлечение. Например, можно извлечь конкретные поля из счета-фактуры, используя JSON-схему. Производительность Marker была оценена с помощью бенчмарка olmOCR-Bench, который включает в себя 1,403 PDF-файла с 7,010 тестовыми случаями, оценивающими способность OCR-систем точно преобразовывать PDF-документы в формат markdown, сохраняя критическую текстовую и структурную информацию.
Marker превзошел все протестированные модели, включая GPT-4o, Deepseek OCR и Mistral OCR. В плане цен Marker стоит 4 доллара за 1000 страниц в быстрых и сбалансированных режимах, 6 долларов за 1000 страниц при структурированном извлечении и 6 долларов за 1000 страниц в точном режиме. OCR стоит 2 доллара за 1000 страниц.
Создавайте пиксельную графику с моделями Retro Diffusion на Replicate
Исследуйте новшества Together AI на NVIDIA GTC 2026
Похожие статьи
Исследователи Meta представили гиперагенты для самообучающегося ИИ
Исследователи Meta представили гиперагенты, которые улучшают ИИ для не программируемых задач.
OpenAI обновляет SDK для агентов, чтобы помочь компаниям создавать более безопасные решения
OpenAI обновила SDK для агентов, добавив новые функции для бизнеса.
Оптимизация использования GPU для языковых моделей и снижение затрат
Оптимизация GPU для языковых моделей снижает затраты и повышает эффективность.