MiMo-V2-Flash от Xiaomi - это когда тебе нужна скорость спринтера при выносливости марафонца. Модель построена по архитектуре Mixture-of-Experts: 309 миллиардов параметров лежат в запасе, но на каждый шаг работают только 15 миллиардов. Такой подход даёт производительность крупных языковых моделей, но без мучительного ожидания ответа.
Как работает архитектура модели
Гибридное внимание чередует два режима в пропорции 5:1 - пять шагов с локальным окном в 128 токенов и один шаг глобального внимания. Это позволяет обрабатывать контекст до 256 тысяч токенов без провисания в скорости. По общим бенчмаркам модель идёт вровень с DeepSeek-V3.2, но генерирует заметно быстрее - до 150 токенов в секунду.
Агентные задачи и программирование
На SWE-Bench Verified модель выдаёт 73,4%, на многоязычной версии - 71,7%. Это текущий рекорд среди открытых моделей. Суть в том, что MiMo-V2-Flash умеет не просто генерировать код, а решать реальные инженерные задачи: исправлять баги, дописывать функции, работать с несколькими файлами одновременно. Для агентных сценариев, где модель должна планировать действия и выполнять их последовательно, такая точность критична.
Условия доступа и интеграция
До конца года API работает бесплатно. Потом тарификация простая: $0,1 за миллион входных токенов и $0,3 за выходные. День в день после релиза модель подхватили в lmsys, так что можно сразу тестировать через привычные интерфейсы. Код выложен на GitHub под открытой лицензией - берёшь, разворачиваешь локально или прикручиваешь к своему проекту без лишних согласований.