Познакомьтесь с MaxToki: ИИ, предсказывающий старение клеток
Большинство фундаментальных моделей в биологии имеют серьезный недостаток: они рассматривают клетки как статичные снимки. Если модели предоставить транскриптом одной клетки — информацию о том, какие гены активны в данный момент — она может рассказать много о текущем состоянии клетки. Однако она не может предсказать, куда движется эта клетка. Это ограничение имеет огромное значение при изучении старения. Возрастные заболевания, такие как сердечно-сосудистые болезни, деменция Альцгеймера и легочная фиброз, не возникают за ночь. Они развиваются на протяжении десятилетий, вызванные медленными, прогрессивными изменениями в состоянии генетических сетей. Для понимания и в конечном итоге обратного хода этих процессов необходима модель, которая мыслит во времени, а не только в статичных изображениях. Именно для этого создан MaxToki.
Команда, работающая над этим исследованием, включает ученых из таких учреждений, как Институт сердечно-сосудистых заболеваний Гладстона, Институт данных и биотехнологий Гладстона и Институт неврологических заболеваний Гладстона, а также из Университета Калифорнии в Сан-Франциско. В исследовании также принимали участие Университет Калифорнии в Беркли и NVIDIA, а также другие международные исследовательские центры. MaxToki представляет собой модель трансформера-декодера, которая обучена на данных секвенирования РНК одной клетки. Модель доступна в двух размерах: 217 миллионов и 1 миллиард параметров.
Ключевым выбором в представлении данных является ранговая кодировка. Вместо того чтобы подавать модели сырые данные транскрипции, транскриптом каждой клетки представляется в виде ранжированного списка генов, упорядоченного по их относительной экспрессии. Этот непараметрический подход позволяет снизить влияние широко выраженных housekeeping генов и усилить влияние таких генов, как факторы транскрипции, которые имеют высокую динамическую изменчивость между различными состояниями клеток. Обучение происходило в два этапа. На первом этапе использовался Genecorpus-175M — примерно 175 миллионов транскриптомов одной клетки, собранных из общедоступных данных.
На втором этапе длина контекста была увеличена с 4096 до 16384 токенов, что позволило модели обрабатывать несколько клеток последовательно, обеспечивая временное рассуждение по траектории. Второй этап обучения использовал Genecorpus-Aging-22M: около 22 миллионов транскриптомов одной клетки, представляющих различные возрастные группы. В результате MaxToki обучался на почти триллионе токенов генов в общей сложности.
Самым новаторским вкладом MaxToki является его стратегия подсказок. Подсказка состоит из контекстной траектории — двух или трех состояний клеток и временных промежутков между ними — и запроса. Модель выполняет одну из двух задач: предсказать временной промежуток, необходимый для достижения запрашиваемой клетки, или сгенерировать транскриптом клетки, которая возникла бы после определенного времени. Эта модель значительно снижает ошибки предсказания по сравнению с традиционными методами.
Достигаем точности без векторов с Proxy-Pointer RAG
Создайте продвинутый пайплайн для удаления объектов в видео
Похожие статьи
Создание AI-пайплайнов для компьютерного зрения с помощью DeepStream
NVIDIA DeepStream 9 упрощает создание приложений AI для компьютерного зрения.
Проблемы внедрения машинного обучения в реальных условиях
Изучение проблем внедрения машинного обучения в производственные условия и важность мониторинга.
Введение в генетические алгоритмы: ключевые компоненты и структура
Обзор ключевых компонентов генетических алгоритмов и их применения.