10 главных open-weight моделей февраля 2026: от Trinity до Tiny Aya

  ·   чтения   ·     ·  
Разбираем архитектуру десяти крупнейших релизов открытых языковых моделей за последний месяц - от 400B Trinity до компактной Tiny Aya.
10 главных open-weight моделей февраля 2026: от Trinity до Tiny Aya

Если вы немного запутались в релизах open-weight моделей (нейросети, чьи обученные параметры находятся в открытом доступе) за последний месяц - добро пожаловать в клуб. Давайте разберёмся, что вообще происходило.

За три недели вышло столько моделей, что я даже не успел про все написать. Вот краткая хронология главных событий с 27 января по 17 февраля 2026 года.

Arcee AI Trinity Large (27 января) - новый игрок из США выкатил 400B-параметровую MoE-модель с 13B активными параметрами. Интересно, что они использовали соотношение локального и глобального внимания 3:1 (как в Olmo 3), а не привычное 5:1 из Gemma 3. Плюс добавили механизм gating в attention - это помогает с длинными последовательностями и стабильностью обучения.

По производительности Trinity Large практически идентична GLM-4.5, хотя последняя немного меньше (355B против 400B). Ничего революционного, но солидная работа для стартапа.

Moonshot AI Kimi K2.5 (27 января) - вот это уже серьёзно. Триллион параметров, мультимодальность с поддержкой изображений, производительность на уровне проприетарных флагманов. Архитектура основана на DeepSeek V3, но масштабирована и обучена на 15 триллионах токенов (текст + изображения вместе).

Любопытная деталь: исследователи показали, что лучше показывать модели визуальные токены рано во время предобучения, даже если их меньше, чем добавлять больше токенов на поздних стадиях.

StepFun Step 3.5 Flash (1 февраля) - компактная модель на 196B параметров (11B активных), которая обгоняет DeepSeek V3.2 при этом выдавая 100 токенов/сек против 33 у DeepSeek. Секрет в Multi-Token Prediction с 3 дополнительными токенами (MTP-3) - причём не только при обучении, но и при инференсе, что нетипично.

Qwen3-Coder-Next (3 февраля) - специализированная модель для кодинга на 80B параметров (3B активных), которая обошла гораздо более крупные модели на бенчмарках. По SWE-Bench Pro почти на уровне Claude Sonnet 4.5, что впечатляет для open-weight модели, которая занимает всего 48 GB.

Фишка в гибридной архитектуре внимания: Gated DeltaNet + Gated Attention в соотношении 3:1. DeltaNet работает за линейное время и не требует кеша, что помогает с длинными контекстами (262k токенов нативно). Правда, точность поиска по содержимому хуже, чем у полноценного attention, поэтому один слой обычного внимания оставили.

z.AI GLM-5 (12 февраля) - новый флагман, который на момент релиза выглядел наравне с GPT-5.2, Gemini Pro 3 и Claude 4.6 Opus. Хотя бенчмарки - это одно, а реальная работа - другое.

MiniMax M2.5 (12 февраля) - ещё одна мультимодальная модель с поддержкой текста, изображений, видео и аудио. Архитектура похожа на предшественника M2.1, но с улучшениями в обработке мультимодальности.

Nanbeige 4.1 3B (13 февраля) - компактная модель всего на 3 миллиарда параметров, но с поддержкой контекста в 1 миллион токенов. Использует Multi-head Latent Attention (MLA) из DeepSeek для эффективности.

Qwen 3.5 (15 февраля) - обновление линейки Qwen с улучшенной производительностью и расширенными возможностями.

Ant Group Ling 2.5 1T & Ring 2.5 1T (16 февраля) - две модели от финтех-гиганта, обе по триллиону параметров. Ling для общих задач, Ring специализирована под финансовую сферу.

Cohere Tiny Aya (17 февраля) - компактная мультиязычная модель, заточенная под эффективность и поддержку множества языков.

Общий тренд очевиден: архитектуры становятся всё более гибридными, все активно экспериментируют с вниманием (sliding window, gating, DeltaNet), MoE с кучей мелких экспертов стал стандартом, а Multi-Token Prediction постепенно переходит из экспериментов в продакшн.

Интересно, что китайские команды продолжают доминировать в open-weight сегменте, выпуская детальные технические отчёты и модели, которые реально конкурируют с закрытыми решениями. Arcee AI из США - приятное исключение, но пока единичное.

Ждём DeepSeek V4, который обещают добавить в этот список. Учитывая, что V3 задал планку очень высоко, будет любопытно посмотреть, что они придумали на этот раз.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K