Корпорация Alibaba выпустила Wan-2.1-VACE - открытую модель для работы с видео. Нейросеть справляется с несколькими задачами: создает видеоролики на основе изображений-референсов, удаляет нежелательные объекты из кадра и предлагает функции редактирования видеоконтента.
Технические особенности
Разработчики представили модель в двух вариантах с разными возможностями:
- Компактная версия с 1,3 миллиардами параметров, которая генерирует видео с разрешением до 480p. Важное преимущество - возможность запуска на обычных потребительских видеокартах.
- Расширенная версия с 14 миллиардами параметров, способная создавать видео с качеством до 720p, но требующая более серьезных вычислительных ресурсов.
Обе версии предоставляются в открытом доступе, что позволяет использовать их как для экспериментов, так и для практических задач.
Возможности применения
Wan-2.1-VACE поддерживает несколько сценариев использования:
- Генерация видео на основе статичного изображения-референса
- Маскирование и удаление объектов из видеоряда
- Замена элементов в кадре без нарушения общей композиции
- Комплексное редактирование существующих роликов
Текущие ограничения
Демонстрационные примеры показывают, что модели пока не хватает плавности анимации - это заметно по некоторой дерганости в движениях и переходах. Однако среди доступных открытых решений для генерации видео эта разработка демонстрирует впечатляющие результаты.
Пользователи могут протестировать возможности Wan-2.1-VACE через интерфейс на платформе Hugging Face. Стоит учесть, что из-за высокого интереса к сервису может образовываться очередь на обработку запросов.
Открытый характер модели делает ее ценным инструментом для разработчиков, исследователей и энтузиастов, интересующихся технологиями генерации видеоконтента. В перспективе подобные решения могут значительно упростить процессы создания и редактирования видео для различных целей - от образовательных материалов до развлекательного контента.