Matrix-Game 2.0
Открытый генератор игровых миров в реальном времени. Создает интерактивные вселенные на лету со скоростью 25 кадров в секунду.
Hume AI открыл исходный код TADA - речевой модели, которая синхронизирует текст и аудио один к одному. Это решает главную проблему современных систем синтеза речи: несоответствие между тем, как текст и звук представлены внутри языковых моделей. Обычно на секунду аудио приходится 2 - 3 текстовых токена, но 12,5 - 25 акустических фреймов. Из-за этого модели вынуждены обрабатывать огромные последовательности, что замедляет работу и провоцирует ошибки - пропущенные слова, галлюцинации, потерю смысла.
TADA идет другим путем: вместо сжатия аудио в меньшее количество фреймов или добавления промежуточных токенов, модель выравнивает аудио прямо по тексту. Один текстовый токен - один акустический вектор. Текст и речь движутся синхронно, шаг за шагом. Это дает скорость, надежность и компактность. Модель генерирует речь с коэффициентом реального времени 0,09 - в пять раз быстрее аналогов. На тестовой выборке из тысячи образцов TADA не выдала ни одной галлюцинации. В оценке качества голоса на выразительной долгой речи модель набрала 4,18 из 5 по схожести с оригиналом и 3,78 по естественности - второе место среди систем, обученных на куда больших объемах данных.
TADA достаточно легкая, чтобы работать на телефоне или встраиваемом устройстве без облака. Это означает низкую задержку, приватность и отсутствие зависимости от API. Синхронная токенизация позволяет уместить в контекст 2048 токенов около 700 секунд аудио вместо обычных 70 секунд - это открывает дорогу длинным повествованиям, диалогам, многошаговым голосовым интерфейсам. Нулевой уровень галлюцинаций делает модель подходящей для медицины, финансов, образования - там, где ошибка дорого стоит.
Есть ограничения: при генерации более 10 минут иногда проскальзывает дрейф голоса, хотя онлайн-сэмплирование это сглаживает. Когда модель генерирует текст и речь одновременно, качество языка падает относительно текстового режима - команда внедрила технику Speech Free Guidance, которая смешивает логиты из двух режимов, но проблема не решена до конца. Текущая версия покрывает английский и семь дополнительных языков, модель обучена только на продолжении речи, для ассистентов нужна дополнительная настройка.
Hume AI выпустил модели на 1 и 3 миллиарда параметров на базе Llama, полный аудио-токенизатор и декодер. Код, обученные модели, демо и статья на arXiv доступны сейчас. Компания занимается исследовательской инфраструктурой для голосового ИИ - если нужны качественные данные для обучения, системы оценки или инфраструктура для обучения с подкреплением, можно связаться с командой напрямую.
Открытый генератор игровых миров в реальном времени. Создает интерактивные вселенные на лету со скоростью 25 кадров в секунду.
Cервис, предлагающий широкий спектр функций для работы с аудио, текстами и изображениями. В его составе есть несколько важных возможностей, которые могут быть полезны для пользователей.
Сервис, где несколько языковых моделей обсуждают вопрос между собой и коллективно выбирают лучший ответ через систему «совета».
Spotify - это популярная платформа для потокового вещания музыки, подкастов и аудиокниг, которая предлагает широкий выбор контента для любителей музыки по всему миру. Недавно компания запустила инновационную функцию, позволяющую пользователям создавать персонализированные плейлисты с помощью ИИ-технологий.