Void Model - это open-source инструмент от Netflix для удаления объектов из видео вместе со всеми их взаимодействиями со сценой. Не просто стирает предмет, а убирает его физическое влияние: если человек держал гитару, гитара естественно упадёт после его исчезновения. Если убрать чайник с подушки, подушка вернётся в исходное состояние. Void Model понимает физику сцены и реагирует на неё.
Работает в два прохода. Первый проход - базовая модель инпейнтинга, построенная поверх CogVideoX и дообученная для работы с видео. Второй проход - опциональное уточнение через warped-noise refinement, которое улучшает временную согласованность на длинных клипах. Первого прохода обычно достаточно, второй подключается, если нужна максимальная плавность.
Перед запуском инференса нужно подготовить маски через встроенный пайплайн VLM-MASK-REASONER. Он использует SAM2 для сегментации и Gemini для анализа взаимодействий. Процесс простой: загружаешь видео, кликаешь на объект, который нужно удалить, запускаешь автоматический скрипт - на выходе получаешь quadmask с четырьмя семантическими зонами (основной объект, область пересечения, затронутая область, фон). Эта маска и идёт на вход модели.
Void Model требует GPU с 40+ ГБ видеопамяти (например, A100), работает через командную строку или через прилагаемый ноутбук для быстрого старта. Модели доступны на HuggingFace, код - на GitHub. Всё настраивается через конфиги, можно управлять разрешением, количеством кадров, шагами денойзинга, режимом работы с памятью.