Когда на снимке толпа, стандартные алгоритмы начинают буксовать: один инструмент ищет людей, второй вырезает контуры, третий пытается понять, где чья рука. BBoxMaskPose решает все три задачи одновременно — детектирует каждого человека на фото, выделяет его силуэт и восстанавливает позу скелета за один проход.
Три задачи в одной модели
Вместо последовательной обработки модель работает параллельно. Она анализирует изображение и выдаёт три типа данных: прямоугольные рамки вокруг каждого человека (детекция), точные контуры фигур (сегментация) и координаты ключевых точек тела (оценка позы). Такой подход экономит время и вычислительные ресурсы — не нужно прогонять картинку через три разные сети.
Как задачи усиливают друг друга
Фишка в том, что результаты одной операции улучшают точность других. Детекция подсказывает, где искать границы тела для сегментации. Сегментация помогает точнее определить позу, отсекая лишние пиксели фона. А данные о позе уточняют границы объектов, особенно когда люди перекрывают друг друга или стоят под сложными углами. Получается замкнутый цикл взаимного улучшения.
Для кого это полезно
Модель пригодится разработчикам, работающим с компьютерным зрением: анализ спортивных матчей, системы видеонаблюдения, приложения для редактирования фото с автоматическим выделением людей. Везде, где нужно быстро и точно обработать групповые снимки или видео с несколькими персонажами в кадре. Код доступен на GitHub, можно интегрировать в свои проекты и адаптировать под конкретные задачи.
Технические детали
Проект представлен на конференции ICCV 2025, исходники открыты. Модель обучена работать с изображениями, где люди частично перекрывают друг друга или находятся в нестандартных позах. Это снижает количество ошибок при распознавании в условиях реальных сцен, а не студийных постановок.