Российская разработка Kandinsky 5.0 Video попала в мировой рейтинг text-to-video генераторов и заняла верхнюю строчку среди всех открытых моделей. Это редкий случай, когда отечественный продукт выходит на международную арену и держится на одном уровне с гигантами вроде Google и OpenAI.
Как Kandinsky 5.0 Video обходит конкурентов
Pro-версия модели уступает только закрытым решениям от крупных корпораций — Google, OpenAI, Alibaba и KlingAI. При этом разрыв с Luma Ray 3 и Minimax Hailuo 2.3 составляет всего 2–3 балла ELO при погрешности оценки ±21 балл. Lite-версия на 2 миллиарда параметров обошла даже первую Sora, что говорит о серьезной оптимизации алгоритмов.
Модель построена на DiT-архитектуре с 19 миллиардами параметров и использует кросс-атеншен для обработки текстовых промптов. VAE позаимствован у HunyuanVideo — проверенного решения, которое помогает добиться стабильного качества кадра. Kandinsky 5.0 Video создает ролики в HD-разрешении 1280×768, продолжительностью 5 или 10 секунд при частоте 24 кадра в секунду.
Генерация видео из текста: что получается на выходе
Сервис преобразует текстовое описание в движущуюся картинку без необходимости разбираться в видеомонтаже или 3D-анимации. Достаточно описать сцену — модель самостоятельно выстроит композицию, подберет движения камеры и анимирует объекты. Это экономит часы работы, которые обычно уходят на подготовку референсов, раскадровку и рендер.
Kandinsky 5.0 Video доступна как open-source проект на GitHub, что позволяет разработчикам адаптировать модель под собственные задачи, обучать на специфичных данных или встраивать в существующие пайплайны. Для тех, кто работает с видеоконтентом в ограниченных условиях или хочет экспериментировать без привязки к платным API, это рабочий вариант с предсказуемым результатом.
Российская модель на международной арене
Kandinsky 5.0 Video показывает, что локальные разработки могут конкурировать с западными проектами даже в таких ресурсоемких областях, как генерация видео. Модель не требует мощных серверов для запуска Lite-версии и при этом выдает результат, сопоставимый с коммерческими решениями. Это делает её интересным инструментом для студий, стартапов и энтузиастов, которым нужна гибкость и контроль над процессом генерации.