Иногда видео приходит без звука — микрофон не подключили, запись испортилась или просто кто-то снимал украдкой. Обычно такой материал летит в корзину, но теперь есть вариант получше. Read Their Lips читает по губам и выдаёт текстовую расшифровку того, что человек говорит в кадре.
Как работает распознавание речи по губам
Загружаешь видео, отмечаешь временной отрезок, который нужно расшифровать, и выделяешь область с лицом говорящего. Сервис анализирует движения губ и превращает их в текст. Если в кадре несколько человек, можно включить режим мультилица — система будет отслеживать каждого.
Технология пригодится не только для восстановления звука. Представь запись совещания, где кондиционер гудел громче босса, или интервью на улице, где ветер превратил речь в белый шум. Вместо того чтобы переснимать или мучиться с аудиофильтрами, просто скармливаешь ролик сервису.
Расшифровка видео без звука: сценарии использования
Журналисты могут вытащить цитаты из архивных материалов с испорченным звуком. Контент-мейкеры — добавить субтитры к роликам, где音 качество подкачало. Даже в судебной практике или расследованиях такая штука может выстрелить: камера наблюдения записала разговор, но без микрофона.
Ещё один момент — иностранные видео. Если нужно понять, о чём говорят на ролике без перевода, движения губ дают хотя бы базовое представление. Конечно, точность зависит от качества картинки и угла съёмки, но для многих задач этого хватает.
Цены и ограничения сервиса
Бесплатно можно протестировать на коротких фрагментах, но для полноценной работы придётся покупать секунды. $10 даёт 300 секунд обработки, $15 — 600 секунд, $25 — уже 2000. Если регулярно работаешь с видео, где звук — проблема, такой инструмент окупается быстро. Альтернатива — потратить часы на ручную расшифровку или вообще забить на материал.