Создание видеоРедактирование видео чтения

Bytedance выпустила Helios — ИИ генерирует минутное видео почти в реальном времени

Новая модель Helios от Bytedance создаёт минутные видео со скоростью 19.5 FPS на одной видеокарте. Код и веса модели открыты.

Bytedance выпустила Helios — ИИ генерирует минутное видео почти в реальном времени

Bytedance представила Helios - первую модель с 14 миллиардами параметров, которая генерирует видео со скоростью 19.5 кадров в секунду на одной видеокарте. Причём речь идёт о роликах длиной до минуты, а не о привычных 5-10 секундах.

Для контекста: большинство современных моделей тратят минуты на рендеринг коротких клипов. Быстрые решения обычно используют крошечные модели на 1.3 миллиарда параметров с посредственным качеством. Более крупные модели вроде Krea-RealTime-14B выдают максимум 6.7 FPS на топовой H100 и страдают от артефактов.

Гистограмма сравнения пропускной способности (FPS) различных моделей генерации видео.

Helios построена на базе Wan-2.1-14B, которая генерирует 5 секунд видео за 50 минут на A100. Обучение проходило в три этапа: базовая версия с защитой от артефактов, средняя со сжатием токенов (1.05 FPS) и финальная дистиллированная, которая сократила вычисления до трёх шагов.

В тестах дистиллированная версия выдала 19.53 FPS - быстрее некоторых моделей, которые в семь раз меньше по размеру. Для сравнения: SANA Video Long с 2 миллиардами параметров достигает только 13.24 FPS.

По качеству коротких видео Helios набрала 6.00 баллов, обогнав все дистиллированные модели и сравнявшись с базовыми моделями аналогичного размера. На длинных видео результат ещё лучше - 6.94 против 6.88 у предыдущего лидера Reward Forcing. Опрос 200 участников подтвердил оценки.

Сравнение рейтингов моделей генерации видео Helios с другими моделями для коротких и длинных видео.

Обычная проблема длинных видео - потеря качества, цветовой согласованности и логики со временем. Предыдущие модели боролись с этим сложными техниками вроде self-forcing, когда модель использует свой же вывод как входные данные при обучении. Helios пошла другим путём.

Разработчики выделили три типичных паттерна деградации и предложили простые решения. Относительное позиционное кодирование предотвращает повторяющиеся движения. Привязка к первому кадру даёт модели визуальный ориентир против цветовых сдвигов. Симуляция возмущений при обучении делает модель устойчивее к собственным ошибкам.

Одна модель работает с текстом, изображениями и видео. Она автоматически переключается между режимами в зависимости от контекста: пустой контекст - генерация из текста, один кадр - анимация изображения, несколько кадров - продолжение видео. Можно даже менять текстовый промпт на лету с плавным переходом.

Изображение демонстрирует различные типы искажений артефактов в видео, таких как сдвиг позиции, цвета, шум и размытие.

Модель обучалась на 800 тысячах коротких клипов с разрешением до 384 x 640 пикселей. Артефакты мерцания на стыках сегментов пока остаются. Для тестирования исследователи создали собственный датасет HeliosBench с 240 промптами - открытых бенчмарков для длинных видео в реальном времени просто не существует.

Скорость достигается агрессивным сжатием данных на двух уровнях. Иерархическая структура памяти делит историю видео на три временных масштаба - свежие кадры сжимаются слабее, старые сильнее. Это уменьшает количество токенов в восемь раз.

Многоступенчатая выборка сокращает токены для генерируемого сегмента в 2.29 раза. Ранние шаги работают в низком разрешении, детали добавляются позже. Вместе эти техники снижают вычислительные затраты до уровня генерации одного изображения.

Схема архитектуры Helios, модели для генерации видео, сбоку показана структура DiT блока.

Дистилляция урезала количество шагов с 50 до 3. В отличие от предыдущих подходов, Helios использует только реальное видео как контекст и генерирует один сегмент за шаг обучения. Adversarial-обучение в стиле GAN выжимает качество выше возможностей учительской модели.

Благодаря сжатию токенов первые два этапа обучались на одной видеокарте. Третий этап требует четырёх моделей одновременно, но они помещаются в 80 ГБ памяти GPU. Кастомные вычислительные ядра ускоряют работу примерно на 14% по сравнению со стандартной реализацией.

Helios доступна на GitHub и Hugging Face с демо. Проект строго исследовательский и не планируется к интеграции в продукты Bytedance.

Три графика, сравнивающие производительность новой модели Helios с традиционными методами.

Недавно Bytedance также представила Seedance 2.0 - мультимодальную модель, обрабатывающую изображения, видео, аудио и текст одновременно. Она требует больше вычислений и ограничена 15 секундами, зато выдаёт настолько высокое качество, что вызвала тревогу в Голливуде из-за потенциальных нарушений авторских прав.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K