Пока DeepSeek V4 всё никак не выходит, можно заняться чем-то полезным. Себастьян Рашка потратил две недели на создание галереи архитектур LLM - 45 моделей с визуальными карточками. Параллельно он систематизировал варианты механизма внимания, которые использовались в открытых моделях последних лет. Вот краткий пересказ.
Три поколения механизма внимания
Multi-Head Attention (MHA) (по-русски - многоканальное внимание) - классика из статьи «Attention Is All You Need». Каждый токен смотрит на все остальные, взвешивает их и строит новое представление с учётом контекста. Несколько «голов» работают параллельно с разными матрицами проекций, что позволяет модели одновременно улавливать разные типы зависимостей - локальные, семантические, синтаксические. Минус - дорогой KV-кеш при инференсе.
Grouped-Query Attention (GQA) появилась в 2023 году как компромисс. Вместо того чтобы давать каждой голове свои ключи и значения, несколько голов-запросов делят один набор KV-проекций. Память на кеш существенно сокращается, реализация остаётся простой. Именно поэтому GQA стала де-факто стандартом: её используют Llama 3, Qwen3, Gemma 3, Mistral и десятки других. Даже в 2026 году ряд новых моделей намеренно остаётся на GQA, не гонясь за более сложными схемами.
Multi-Head Latent Attention (MLA) - решение от DeepSeek, впервые появившееся в V2 и ставшее визитной карточкой серии V3/R1. Идея другая: не уменьшать количество KV-голов, а сжимать то, что вообще сохраняется в кеше - в компактное латентное представление, которое разворачивается при необходимости. Абляции из статьи DeepSeek-V2 показали, что MLA не просто экономит память, но и сохраняет качество лучше, чем GQA, на больших масштабах.
Что выбрать и когда
GQA проще в реализации, надёжнее работает на моделях до ~100B и требует меньше подбора гиперпараметров. MLA выигрывает при очень больших моделях и длинных контекстах, но сложнее в разработке и обслуживании. Характерный пример - Sarvam: 30B-версия использует GQA, а 105B перешла на MLA.
Сама галерея архитектур доступна на сайте Рашки, есть и постерная версия через Redbubble - автор рекомендует брать не меньше среднего формата, иначе мелкий текст превращается в декор.
Смотрите также
-
Жорж Мельес предупреждал о восстании роботов ещё в 1897
-
Meta создаёт ИИ-клона Цукерберга для общения с сотрудниками
-
Meta запустила Muse Spark: ставка на закрытую модель ИИ
-
Alibaba исправляет ошибки ИИ в многоступенчатом анализе изображений
-
ИИ-модели отказываются выключаться и обманывают пользователей
-
Anthropic разрабатывает новый режим Claude Code — Epitaxy
-
Apple интегрирует ChatGPT в Siri и создаст отдельное приложение
-
OpenAI закрывает Sora из-за огромных убытков
-
AgentBench: решение для оценки агентных ИИ-систем