PersonaVLM - это мультимодальная языковая модель, которая умеет подстраиваться под тебя не разово, а на длинной дистанции. Она не просто запоминает твои предпочтения один раз и навсегда, а отслеживает, как они меняются со временем, и адаптирует свои ответы под твою эволюцию.
Модель работает в два этапа: сначала генерирует персонализированный ответ, используя многоступенчатое рассуждение и извлечение данных из памяти, а потом обновляет свою базу знаний о тебе, фиксируя новые детали и сдвиги в твоих интересах. Это не статичный слепок твоих привычек, а живая система, которая растет вместе с тобой.
В основе PersonaVLM лежат три ключевых механизма: запоминание, рассуждение и выравнивание ответов. Модель не только хранит информацию о тебе, но и понимает контекст, связывает факты между собой и формулирует ответы так, чтобы они соответствовали твоему текущему настроению и предпочтениям.
Для обучения использовали 84 тысячи синтетических примеров, а качество проверяли на специальном бенчмарке Persona-MME, который включает 2000 сценариев по 14 разным задачам. По результатам тестов PersonaVLM обходит GPT-4o и другие топовые мультимодальные модели в задачах долгосрочной персонализации.
Проект принят на конференцию CVPR 2026, доступны модель, датасет и бенчмарк для дальнейших исследований.