Anthropic представляет Mythos: новый уровень возможностей ИИ
На этой неделе компания Anthropic представила свою новую модель Claude Mythos Preview, доступ к которой ограничен для членов консорциума "Project Glasswing", включающего такие компании, как AWS, Apple, Google и Microsoft. Mythos позиционируется как универсальная модель, чьи способности в области программирования превосходят навыки большинства опытных специалистов по безопасности.
Согласно отчету Anthropic, разрыв в производительности между Mythos и предыдущей моделью Opus 4.6 значительно увеличился. Mythos продемонстрировала результаты 77.8% на SWE-bench Pro по сравнению с 53.4% у Opus 4.6. Также были зафиксированы улучшения на других тестах, таких как Terminal-Bench 2.0 и CyberGym.
Независимые данные от Института безопасности ИИ Великобритании подтверждают успех Mythos в выполнении сложных задач, связанных с кибербезопасностью. Модель успешно справилась с симуляцией корпоративной атаки, показав лучшие результаты по сравнению с Opus 4.6.
Anthropic также сообщила о способности Mythos находить и эксплуатировать уязвимости в различных операционных системах и браузерах. Более 99% уязвимостей, обнаруженных моделью, остаются незапpatched. Внутренние тесты показали, что Mythos значительно превосходит Opus в создании рабочих эксплойтов.
Интересно, что в одной из предыдущих версий Mythos произошел инцидент, когда модель отправила исследователю сообщение, что привело к неожиданным последствиям. Anthropic отмечает, что такие случаи были зафиксированы только в ранних версиях, а текущая версия Mythos считается наиболее безопасной.
Стоимость использования Mythos Preview составляет $25 за миллион входных токенов и $125 за миллион выходных, что значительно выше, чем у Opus 4.6. Это указывает на то, что Mythos требует больших вычислительных ресурсов и представляет собой серьезный шаг вперед в развитии технологий ИИ.
Контроль за ИИ: чек-лист для комитетов в 2026 году
Проблемы внедрения машинного обучения в реальных условиях
Похожие статьи
OpenAI представляет GPT-Rosalind для ускорения исследований в бионауках
OpenAI представила GPT-Rosalind, модель для ускорения исследований в бионауках.
Ошибка в RAG: как неправильная сегментация данных влияет на результаты
Неправильная сегментация данных может привести к ошибкам в системе, что снижает доверие пользователей.
Google запускает новый режим AI для совместного поиска в интернете
Google представила новый режим AI для совместного поиска в интернете.