Clips AI - это когда вам надоело вручную резать часовые подкасты на TikTok-ролики и хочется переложить эту муторную работу на код. Библиотека анализирует транскрипт видео и сама находит самые сочные моменты для клипов, а заодно меняет соотношение сторон с горизонтального на вертикальное.
Как работает автоматическое создание клипов
Алгоритм Clips AI разбирает транскрипт видео и ищет логически завершенные фрагменты - примерно как умный редактор, который знает, где начинается и заканчивается мысль. Для этого используется WhisperX, который не просто переводит речь в текст, но и отмечает временные метки каждого слова. Получается, что нейросеть понимает структуру разговора и может выделить самостоятельные смысловые блоки.
Особенно хорошо это работает с подкастами, интервью и лекциями - контентом, где есть четкая нарративная структура. Clips AI не режет видео случайно, а ищет естественные паузы и переходы между темами.
Умное изменение соотношения сторон видео
Когда клип найден, начинается магия с ресайзингом. Clips AI использует Pyannote для распознавания говорящих и автоматически фокусирует кадр на активном спикере. Если в кадре два человека, а говорит только один - алгоритм сам поймет, куда направить внимание зрителя.
Это решает главную проблему вертикального контента: как втиснуть горизонтальное видео в портретный формат, не превратив людей в муравьев. Clips AI просто следит за диалогом и двигает "камеру" за говорящим.
Установка и базовое использование
Для работы понадобится Python и несколько зависимостей. Сначала ставите саму библиотеку через pip, потом WhisperX для транскрипции и ffmpeg для работы с видео. После этого пишете буквально пять строчек кода: создаете объекты Transcriber и ClipFinder, скармливаете им путь к видеофайлу и получаете готовые временные метки для клипов.
Для ресайзинга нужен токен от Hugging Face - это бесплатно, просто требуется регистрация. Clips AI подключается к Pyannote через их API для определения говорящих, но никаких денег за это не берут.