Alibaba представляет VimRAG: новый фреймворк для многомодального RAG

1 просмотров Источник
Alibaba представляет VimRAG: новый фреймворк для многомодального RAG

Retrieval-Augmented Generation (RAG) стал стандартной техникой для интеграции больших языковых моделей с внешними знаниями. Однако, когда речь заходит о смешивании текстов с изображениями и видео, этот подход начинает давать сбои. Исследователи из Tongyi Lab компании Alibaba представили 'VimRAG', фреймворк, разработанный специально для решения этой проблемы.

Современные RAG-агенты следуют циклу 'Мысль-Действие-Наблюдение', где агент добавляет всю историю взаимодействий в один растущий контекст. Однако для задач, связанных с видео или визуально насыщенными документами, это быстро становится непрактичным. Плотность информации критических наблюдений падает к нулю по мере увеличения шагов рассуждения. В ответ на это используется память для сжатия, где агент итеративно обобщает прошлые наблюдения в компактное состояние, что позволяет сохранить плотность информации.

В пилотном исследовании, сравнивающем различные стратегии памяти, графовая память значительно сократила количество повторных поисковых действий. В другом исследовании тестировались четыре стратегии памяти, и результаты показали, что выборочное сохранение только релевантных визуальных токенов обеспечивало наилучший компромисс между плотностью информации и точностью.

Архитектура VimRAG состоит из трех компонентов. Первый — это многомодальный граф памяти, который моделирует процесс рассуждения как динамический направленный ациклический граф. Каждый узел кодирует информацию о родительских узлах, подзапросах и визуальных токенах. Второй компонент — это кодирование визуальной памяти, которое рассматривает распределение токенов как задачу распределения ресурсов. Третий компонент — это оптимизация политики на основе графа, которая улучшает эффективность обучения, исключая из обновлений шаги, содержащие нерелевантную информацию.

VimRAG был оценен по девяти бенчмаркам, включая HotpotQA и SQuAD, и продемонстрировал высокую эффективность в сложных задачах межмодального понимания. Эта новая архитектура обещает улучшить взаимодействие с визуальными данными, что открывает новые горизонты для применения языковых моделей в сложных сценариях.

Похожие статьи