Buzz
Превратите любую аудиозапись в текст прямо на своём компьютере без интернета
Когда на снимке толпа, стандартные алгоритмы начинают буксовать: один инструмент ищет людей, второй вырезает контуры, третий пытается понять, где чья рука. BBoxMaskPose решает все три задачи одновременно - детектирует каждого человека на фото, выделяет его силуэт и восстанавливает позу скелета за один проход.
Вместо последовательной обработки модель работает параллельно. Она анализирует изображение и выдаёт три типа данных: прямоугольные рамки вокруг каждого человека (детекция), точные контуры фигур (сегментация) и координаты ключевых точек тела (оценка позы). Такой подход экономит время и вычислительные ресурсы - не нужно прогонять картинку через три разные сети.
Фишка в том, что результаты одной операции улучшают точность других. Детекция подсказывает, где искать границы тела для сегментации. Сегментация помогает точнее определить позу, отсекая лишние пиксели фона. А данные о позе уточняют границы объектов, особенно когда люди перекрывают друг друга или стоят под сложными углами. Получается замкнутый цикл взаимного улучшения.
Модель пригодится разработчикам, работающим с компьютерным зрением: анализ спортивных матчей, системы видеонаблюдения, приложения для редактирования фото с автоматическим выделением людей. Везде, где нужно быстро и точно обработать групповые снимки или видео с несколькими персонажами в кадре. Код доступен на GitHub, можно интегрировать в свои проекты и адаптировать под конкретные задачи.
Проект представлен на конференции ICCV 2025, исходники открыты. Модель обучена работать с изображениями, где люди частично перекрывают друг друга или находятся в нестандартных позах. Это снижает количество ошибок при распознавании в условиях реальных сцен, а не студийных постановок.
Превратите любую аудиозапись в текст прямо на своём компьютере без интернета
ИИ-агент для разработчиков, который самостоятельно пишет код, тестирует его в браузере и доводит проект до готового состояния, пока вы занимаетесь своими делами.
StockNews AI - агрегатор финансовых новостей из 100+ источников. ИИ-анализ для инвесторов.
Meta AI - персональный чат-ассистент от Meta, доступный в виде отдельного приложения и в мессенджерах и соцсетях. Помогает искать ответы, генерировать образы, планировать, общаться голосом и сохраняет контекст между устройствами.