Виды механизмов внимания в современных LLM

  ·   чтения   ·     ·  
Обзор ключевых вариантов механизма внимания в языковых моделях: MHA, GQA и MLA - чем отличаются и где применяются.
Виды механизмов внимания в современных LLM

Пока DeepSeek V4 всё никак не выходит, можно заняться чем-то полезным. Себастьян Рашка потратил две недели на создание галереи архитектур LLM - 45 моделей с визуальными карточками. Параллельно он систематизировал варианты механизма внимания, которые использовались в открытых моделях последних лет. Вот краткий пересказ.

Три поколения механизма внимания

Multi-Head Attention (MHA) (по-русски - многоканальное внимание) - классика из статьи «Attention Is All You Need». Каждый токен смотрит на все остальные, взвешивает их и строит новое представление с учётом контекста. Несколько «голов» работают параллельно с разными матрицами проекций, что позволяет модели одновременно улавливать разные типы зависимостей - локальные, семантические, синтаксические. Минус - дорогой KV-кеш при инференсе.

Grouped-Query Attention (GQA) появилась в 2023 году как компромисс. Вместо того чтобы давать каждой голове свои ключи и значения, несколько голов-запросов делят один набор KV-проекций. Память на кеш существенно сокращается, реализация остаётся простой. Именно поэтому GQA стала де-факто стандартом: её используют Llama 3, Qwen3, Gemma 3, Mistral и десятки других. Даже в 2026 году ряд новых моделей намеренно остаётся на GQA, не гонясь за более сложными схемами.

Multi-Head Latent Attention (MLA) - решение от DeepSeek, впервые появившееся в V2 и ставшее визитной карточкой серии V3/R1. Идея другая: не уменьшать количество KV-голов, а сжимать то, что вообще сохраняется в кеше - в компактное латентное представление, которое разворачивается при необходимости. Абляции из статьи DeepSeek-V2 показали, что MLA не просто экономит память, но и сохраняет качество лучше, чем GQA, на больших масштабах.

Что выбрать и когда

GQA проще в реализации, надёжнее работает на моделях до ~100B и требует меньше подбора гиперпараметров. MLA выигрывает при очень больших моделях и длинных контекстах, но сложнее в разработке и обслуживании. Характерный пример - Sarvam: 30B-версия использует GQA, а 105B перешла на MLA.

Сама галерея архитектур доступна на сайте Рашки, есть и постерная версия через Redbubble - автор рекомендует брать не меньше среднего формата, иначе мелкий текст превращается в декор.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K