Команда исследователей DeepSeek представила новую технологию под названием Manifold-Constrained Hyper-Connections (mHC), которая решает важную проблему в обучении крупных языковых моделей.
В основе технологии лежит улучшенный способ передачи информации между слоями нейронной сети. Традиционно для этого использовались остаточные соединения, работающие как своеобразные короткие пути. Более новый подход Hyper-Connections (HC) расширил возможности передачи информации, но столкнулся с проблемой нестабильности при обучении больших моделей.
Главная проблема HC заключалась в том, что сигналы могли усиливаться в тысячи раз при прохождении через сеть, что приводило к сбоям в обучении. Новая технология mHC решает эту проблему, используя специальные математические ограничения: все значения в матрицах связей должны быть положительными, а сумма по строкам и столбцам должна равняться единице.

Результаты тестирования показали существенные улучшения. На моделях размером 3, 9 и 27 миллиардов параметров mHC продемонстрировала более стабильное обучение и лучшие результаты по сравнению с базовой архитектурой и HC. Например, на тестах сложных рассуждений BBH модель с mHC достигла 51% точности против 48.9% у HC.

Исследователи оптимизировали техническую реализацию mHC, чтобы сделать ее практичной. Несмотря на дополнительную сложность, технология добавляет всего 6.7% к вычислительным затратам, что считается приемлемым учитывая получаемые преимущества.
Команда DeepSeek рассматривает mHC как перспективную основу для дальнейших исследований архитектур нейронных сетей. Разработанный framework позволяет экспериментировать с различными математическими ограничениями для достижения специфических целей обучения.
Смотрите также
-
Alibaba выпустила бесплатную Qwen3.5 - гонка китайских ИИ-моделей набирает обороты
-
Google открыл API для Gemini 3 Deep Think - ИИ для сложных научных задач
-
ИИ для птиц оказался лучше в распознавании китов, чем специализированная модель
-
LLM API — единый доступ к сотням языковых моделей
-
Искусственный интеллект следит за айсбергами от рождения до распада
-
Google создала систему из пяти ИИ-агентов для автоматической генерации научных иллюстраций
-
Марсоход Perseverance впервые проложил маршрут с помощью искусственного интеллекта
-
Nvidia делает прогнозирование погоды с помощью ИИ более доступным
-
OpenAI представляет Prism — новый AI-помощник для учёных