MiMo-V2.5-Pro - это новая модель от Xiaomi, которая умеет справляться с задачами, на которые у человека уходят дни или недели. Это не просто языковая модель, а инструмент для автономной работы над сложными проектами: написание компиляторов, создание приложений с нуля, проектирование аналоговых схем. Модель выполняет задачи сама, делает сотни и тысячи шагов, исправляет ошибки и доводит результат до рабочего состояния.
В основе - архитектура Mixture-of-Experts с 1,02 триллионом параметров и 42 миллиардами активных. Контекстное окно растянуто на 1 миллион токенов, что позволяет модели держать в памяти огромные объемы информации и работать над задачами, которые требуют долгой последовательной работы. Гибридное внимание и технология Multi-Token Prediction ускоряют вывод и экономят память.
MiMo-V2.5-Pro обучена на 27 триллионах токенов с использованием FP8 mixed precision. Пост-обучение проходило в три этапа: обучение с учителем, специализированная доводка по отдельным областям через обучение с подкреплением и финальная дистилляция, где модель учится у нескольких экспертных моделей одновременно. Результат - универсальный инструмент, который одинаково хорошо справляется с кодом, математикой, безопасностью и агентными задачами.
Модель полностью открыта и доступна под свободной лицензией. Веса, токенизатор и документация выложены на Hugging Face, есть поддержка SGLang и vLLM для развертывания. Также доступна через API платформу Xiaomi и AI Studio без изменения цен - достаточно переключить тег модели на mimo-v2.5-pro.