Astrolabe - это фреймворк для онлайн-обучения с подкреплением, который настраивает дистиллированные авторегрессионные модели генерации видео под человеческие предпочтения. Он работает с популярными базовыми моделями вроде LongLive, Self-Forcing, Causal Forcing и Krea 14B, улучшая визуальную эстетику и временную согласованность видео без потери скорости инференса в реальном времени.
Фреймворк поддерживает несколько reward-моделей: HPSv3 оценивает эстетику и качество кадров, VideoAlign измеряет плавность движения, естественность и соответствие промпту. Награды можно комбинировать с настраиваемыми весами, чтобы точнее управлять тем, что модель считает «хорошим» видео.
Astrolabe настроен на работу в мультигпу-окружении, от одной ноды с восемью картами до распределённых кластеров на 48 GPU. Он автоматически подбирает параметры под количество железа, поддерживает логирование в Weights & Biases и позволяет стартовать обучение с предобученных LoRA-адаптеров для ускорения сходимости.
Весь код открыт, зависимости прописаны, инструкции по установке и запуску детальные. Если ты хочешь подтянуть качество стриминговой генерации видео через RL и не терять в скорости - Astrolabe даёт рабочий инструментарий и готовые конфиги под разные задачи.