Новая технология DeepSeek улучшает обучение крупных языковых моделей

  ·   чтения   ·     ·  
Исследователи DeepSeek разработали новый метод, который делает обучение больших языковых моделей более стабильным и эффективным, используя математические ограничения для улучшения прохождения сигналов через нейронную сеть.
Новая технология DeepSeek улучшает обучение крупных языковых моделей

Команда исследователей DeepSeek представила новую технологию под названием Manifold-Constrained Hyper-Connections (mHC), которая решает важную проблему в обучении крупных языковых моделей.

В основе технологии лежит улучшенный способ передачи информации между слоями нейронной сети. Традиционно для этого использовались остаточные соединения, работающие как своеобразные короткие пути. Более новый подход Hyper-Connections (HC) расширил возможности передачи информации, но столкнулся с проблемой нестабильности при обучении больших моделей.

Главная проблема HC заключалась в том, что сигналы могли усиливаться в тысячи раз при прохождении через сеть, что приводило к сбоям в обучении. Новая технология mHC решает эту проблему, используя специальные математические ограничения: все значения в матрицах связей должны быть положительными, а сумма по строкам и столбцам должна равняться единице.

Результаты тестирования показали существенные улучшения. На моделях размером 3, 9 и 27 миллиардов параметров mHC продемонстрировала более стабильное обучение и лучшие результаты по сравнению с базовой архитектурой и HC. Например, на тестах сложных рассуждений BBH модель с mHC достигла 51% точности против 48.9% у HC.

Исследователи оптимизировали техническую реализацию mHC, чтобы сделать ее практичной. Несмотря на дополнительную сложность, технология добавляет всего 6.7% к вычислительным затратам, что считается приемлемым учитывая получаемые преимущества.

Команда DeepSeek рассматривает mHC как перспективную основу для дальнейших исследований архитектур нейронных сетей. Разработанный framework позволяет экспериментировать с различными математическими ограничениями для достижения специфических целей обучения.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K