NovaSR — это инструмент для апсемплинга аудио, который превращает приглушенный звук с частотой 16 кГц в чистый и четкий звук с частотой 48 кГц. Главная фишка — скорость и размер: модель весит всего 52 килобайта, но при этом обрабатывает аудио в 3600 раз быстрее реального времени на одной видеокарте A100.
По качеству NovaSR сопоставим с моделями, которые в 5000 раз больше по размеру. Это делает его полезным для улучшения качества синтеза речи, восстановления старых аудиозаписей или улучшения звука в реальном времени — например, во время звонков — без серьезной нагрузки на устройство.
Установка занимает одну строку через pip, а использование — пару команд: загружаешь аудио, прогоняешь через модель, получаешь улучшенный результат. Модель обучена всего на 100 часах данных, использует компактные свёрточные слои и активации на основе BigVGAN, что и объясняет её миниатюрный размер при приличном качестве.
Автор проекта также предлагает обратить внимание на LavaSR — более продвинутую версию, которая поддерживает входные частоты от 8 до 48 кГц, работает ещё быстрее и выдаёт заметно лучшее качество, превосходя даже модели весом в 6 гигабайт.