Whisper

Нейросеть Whisper

OpenAI Whisper — это открытая система распознавания речи, которая обучена на 680 тысячах часов многоязычных данных. В отличие от других сервисов, которые «плывут» на необычных акцентах или зашумленных записях, Whisper спокойно справляется с самыми сложными аудиофайлами.

Живучесть как у танка: работа с любым качеством звука

Whisper не капризничает из-за фонового шума, музыки или плохого качества записи. Система обучена на реальных данных из интернета, где идеальный звук — редкость. Поэтому она легко расшифровывает разговоры в кафе, лекции в аудиториях с эхом и даже телефонные звонки с помехами.

Нейросеть автоматически определяет язык говорящего и может переключаться между языками в одной записи. Это особенно удобно для международных конференций или интервью на смешанных языках.

99 языков без исключений

От английского до суахили — Whisper понимает практически любой язык планеты. Система показывает одинаково высокую точность как для популярных языков, так и для редких диалектов. Русский язык распознается с точностью около 95%, что сопоставимо с коммерческими решениями.

Whisper скачать и настроить

Установка занимает несколько минут через pip install. Достаточно загрузить одну из пяти моделей — от tiny для быстрой работы до large для максимальной точности. Каждая модель работает локально, без отправки данных на сервера OpenAI.

Для обработки часового подкаста на среднем компьютере потребуется 10-15 минут. GPU ускоряет процесс в разы, но и на процессоре система работает вполне шустро.

Нейросеть Whisper была впервые опубликована 07-03-2023 21:51:52 и вручную отредактирована 04-04-2023 21:49:57.

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K