Извлекайте текст из документов и изображений с Datalab Marker и OCR

2 просмотров Источник

Datalab представил современные модели парсинга документов и извлечения текста, которые теперь доступны на платформе Replicate. Инструмент Marker преобразует файлы PDF, DOCX, PPTX и изображения в формат markdown или JSON. Он форматирует таблицы, математические выражения и код, извлекает изображения, а также может извлекать конкретные поля при передаче JSON-схемы. OCR (оптическое распознавание символов) распознает текст на девяноста языках из изображений и документов, возвращая порядок чтения и сетки таблиц.

Модель Marker основана на популярном проекте с открытым исходным кодом, который имеет 29 тысяч звезд на GitHub, а OCR — на проекте Surya с 19 тысячами звезд. Эти модели отличаются высокой скоростью и точностью, превосходя такие инструменты, как Tesseract, с коротким временем обработки. Marker обрабатывает страницу примерно за 0,18 секунды и может достигать 120 страниц в секунду при пакетной обработке.

Одной из особенно мощных функций Marker является структурированное извлечение. Например, можно извлечь конкретные поля из счета-фактуры, используя JSON-схему. Производительность Marker была оценена с помощью бенчмарка olmOCR-Bench, который включает в себя 1,403 PDF-файла с 7,010 тестовыми случаями, оценивающими способность OCR-систем точно преобразовывать PDF-документы в формат markdown, сохраняя критическую текстовую и структурную информацию.

Marker превзошел все протестированные модели, включая GPT-4o, Deepseek OCR и Mistral OCR. В плане цен Marker стоит 4 доллара за 1000 страниц в быстрых и сбалансированных режимах, 6 долларов за 1000 страниц при структурированном извлечении и 6 долларов за 1000 страниц в точном режиме. OCR стоит 2 доллара за 1000 страниц.

Похожие статьи