Step 3.5 Flash - это open-source модель с 196 миллиардами параметров, которая работает так, будто их всего 11 миллиардов. Секрет в архитектуре Mixture of Experts: модель активирует только нужные части своего «мозга» для каждого токена, поэтому выдает 100 - 300 токенов в секунду, а на задачах с кодом разгоняется до 350. Это не просто быстрая генерация текста, это скорость мышления, которая нужна агентам для реальной работы.
Модель заточена под код и агентские задачи. На SWE-bench Verified она показывает 74.4%, на Terminal-Bench 2.0 - 51%. Это значит, что она справляется со сложными, многошаговыми задачами, где нужно держать в голове длинный контекст и не терять нить рассуждений. Контекстное окно в 256K токенов обеспечивается гибридной системой внимания: три слоя со скользящим окном на каждый слой с полным вниманием. Так модель обрабатывает огромные объемы данных без лишних вычислительных затрат.
Step 3.5 Flash можно запустить локально на мощном железе вроде Mac Studio M4 Max или NVIDIA DGX Spark. Данные остаются у тебя, производительность не падает. Модель использует Multi-Token Prediction, предсказывая сразу четыре токена за один проход, что еще больше ускоряет работу. По бенчмаркам она идет вровень с закрытыми моделями топ-уровня, но остается открытой и доступной. Если нужен агент, который думает быстро и глубоко, это твой вариант.