Китайская компания Deepseek представила инновационный визуальный энкодер, который обрабатывает информацию в изображениях совершенно новым способом. В отличие от традиционных моделей, которые анализируют изображение строго по частям сверху вниз и слева направо, новая система работает более естественно – как человеческий глаз.
Традиционные системы компьютерного зрения разбивают изображения на маленькие фрагменты и обрабатывают их в фиксированном порядке. Однако люди воспринимают информацию иначе – наш взгляд следует за содержанием. Например, глядя на спираль, мы не сканируем ее построчно, а следуем за формой.
Новый DeepEncoder V2 сначала обрабатывает визуальные элементы на основе их содержания, перегруппировывая их по контексту, прежде чем языковая модель начнет интерпретацию. В основе системы – компактная языковая модель на базе Alibaba Qwen2 0.5B вместо традиционного компонента CLIP.
Важное преимущество новой технологии – эффективность. Deepseek OCR 2 использует всего от 256 до 1120 визуальных токенов для обработки изображения, в то время как аналогичным моделям требуется более 6000-7000 токенов. При этом точность распознавания достигает 91.09% на тестовом наборе OmniDocBench v1.5, что на 3.73% лучше предыдущей версии.

Система также показывает улучшенные результаты в плане повторений – важного показателя качества распознавания текста. При использовании в качестве OCR-движка для языковых моделей Deepseek частота повторений снизилась с 6.25% до 4.17%.
Однако есть и ограничения – модель хуже справляется с газетными страницами из-за меньшего количества токенов и недостаточного объема тренировочных данных в этой категории.
Разработчики видят в DeepEncoder V2 шаг к универсальной обработке различных типов данных. В будущем эта архитектура может эволюционировать для работы с текстом, речью и изображениями в рамках единого подхода. Код и веса модели находятся в открытом доступе на GitHub и Hugging Face.
Смотрите также
-
Ватикан запустил AI-переводчик месс на 60 языков
-
OpenAI переманила создателя OpenClaw - ИИ-агента с 2 млн пользователей в неделю
-
Manus запустила AI-агентов в Telegram - и это странно, учитывая, что компанию купила Meta
-
Alibaba выпустила бесплатную Qwen3.5 - гонка китайских ИИ-моделей набирает обороты
-
Оркестрация ИИ: что это, как работает и почему меняет подход к автоматизации в 2026 году
-
Военные США используют Claude от Anthropic - коммерческий ИИ приходит в нацбезопасность
-
Anthropic готовит обновления для Claude: slash-команды, SSH-туннели и новый Sonnet на подходе
-
В Нью-Йорке открыли бар для свиданий с ИИ-партнёрами
-
MiniMax M2.5: новая языковая модель с упором на код и автоматизацию