Bytedance представила Helios - первую модель с 14 миллиардами параметров, которая генерирует видео со скоростью 19.5 кадров в секунду на одной видеокарте. Причём речь идёт о роликах длиной до минуты, а не о привычных 5-10 секундах.
Для контекста: большинство современных моделей тратят минуты на рендеринг коротких клипов. Быстрые решения обычно используют крошечные модели на 1.3 миллиарда параметров с посредственным качеством. Более крупные модели вроде Krea-RealTime-14B выдают максимум 6.7 FPS на топовой H100 и страдают от артефактов.

Helios построена на базе Wan-2.1-14B, которая генерирует 5 секунд видео за 50 минут на A100. Обучение проходило в три этапа: базовая версия с защитой от артефактов, средняя со сжатием токенов (1.05 FPS) и финальная дистиллированная, которая сократила вычисления до трёх шагов.
В тестах дистиллированная версия выдала 19.53 FPS - быстрее некоторых моделей, которые в семь раз меньше по размеру. Для сравнения: SANA Video Long с 2 миллиардами параметров достигает только 13.24 FPS.
По качеству коротких видео Helios набрала 6.00 баллов, обогнав все дистиллированные модели и сравнявшись с базовыми моделями аналогичного размера. На длинных видео результат ещё лучше - 6.94 против 6.88 у предыдущего лидера Reward Forcing. Опрос 200 участников подтвердил оценки.

Обычная проблема длинных видео - потеря качества, цветовой согласованности и логики со временем. Предыдущие модели боролись с этим сложными техниками вроде self-forcing, когда модель использует свой же вывод как входные данные при обучении. Helios пошла другим путём.
Разработчики выделили три типичных паттерна деградации и предложили простые решения. Относительное позиционное кодирование предотвращает повторяющиеся движения. Привязка к первому кадру даёт модели визуальный ориентир против цветовых сдвигов. Симуляция возмущений при обучении делает модель устойчивее к собственным ошибкам.
Одна модель работает с текстом, изображениями и видео. Она автоматически переключается между режимами в зависимости от контекста: пустой контекст - генерация из текста, один кадр - анимация изображения, несколько кадров - продолжение видео. Можно даже менять текстовый промпт на лету с плавным переходом.

Модель обучалась на 800 тысячах коротких клипов с разрешением до 384 x 640 пикселей. Артефакты мерцания на стыках сегментов пока остаются. Для тестирования исследователи создали собственный датасет HeliosBench с 240 промптами - открытых бенчмарков для длинных видео в реальном времени просто не существует.
Скорость достигается агрессивным сжатием данных на двух уровнях. Иерархическая структура памяти делит историю видео на три временных масштаба - свежие кадры сжимаются слабее, старые сильнее. Это уменьшает количество токенов в восемь раз.
Многоступенчатая выборка сокращает токены для генерируемого сегмента в 2.29 раза. Ранние шаги работают в низком разрешении, детали добавляются позже. Вместе эти техники снижают вычислительные затраты до уровня генерации одного изображения.

Дистилляция урезала количество шагов с 50 до 3. В отличие от предыдущих подходов, Helios использует только реальное видео как контекст и генерирует один сегмент за шаг обучения. Adversarial-обучение в стиле GAN выжимает качество выше возможностей учительской модели.
Благодаря сжатию токенов первые два этапа обучались на одной видеокарте. Третий этап требует четырёх моделей одновременно, но они помещаются в 80 ГБ памяти GPU. Кастомные вычислительные ядра ускоряют работу примерно на 14% по сравнению со стандартной реализацией.
Helios доступна на GitHub и Hugging Face с демо. Проект строго исследовательский и не планируется к интеграции в продукты Bytedance.

Недавно Bytedance также представила Seedance 2.0 - мультимодальную модель, обрабатывающую изображения, видео, аудио и текст одновременно. Она требует больше вычислений и ограничена 15 секундами, зато выдаёт настолько высокое качество, что вызвала тревогу в Голливуде из-за потенциальных нарушений авторских прав.
Смотрите также
-
Инструменты разработчика·OpenAI выпустила три голосовые модели для разработчиков
-
Создание видео·Google Flow: крутой ИИ-инструмент для создания кино
-
Редактирование видео·Нейросеть для редактирования видео: ТОП-12 ИИ-сервисов в 2026 году 🎬
-
Мобильные приложения·OpenAI готовится встроить Sora прямо в ChatGPT
-
Инструменты разработчика·Runpod раскрыл правду: какие AI-модели реально используют разработчики
-
Редактирование видео·Adobe Firefly научился монтировать видео по текстовому запросу
-
Перевод·Ватикан запустил AI-переводчик месс на 60 языков
-
Персональное видео·Seedance 2.0: новый AI-генератор видео уже обвиняют в массовом нарушении авторских прав
-
Создание видео·Швейцарцы научили ИИ учиться на своих ошибках при генерации видео