Deepseek OCR 2: революционный подход к распознаванию документов

  ·   чтения   ·     ·  
Китайская компания Deepseek представила новую технологию обработки изображений, которая анализирует документы подобно человеческому зрению и превосходит Gemini 3 Pro
Deepseek OCR 2: революционный подход к распознаванию документов

Китайская компания Deepseek представила инновационный визуальный энкодер, который обрабатывает информацию в изображениях совершенно новым способом. В отличие от традиционных моделей, которые анализируют изображение строго по частям сверху вниз и слева направо, новая система работает более естественно – как человеческий глаз.

Традиционные системы компьютерного зрения разбивают изображения на маленькие фрагменты и обрабатывают их в фиксированном порядке. Однако люди воспринимают информацию иначе – наш взгляд следует за содержанием. Например, глядя на спираль, мы не сканируем ее построчно, а следуем за формой.

Новый DeepEncoder V2 сначала обрабатывает визуальные элементы на основе их содержания, перегруппировывая их по контексту, прежде чем языковая модель начнет интерпретацию. В основе системы – компактная языковая модель на базе Alibaba Qwen2 0.5B вместо традиционного компонента CLIP.

Важное преимущество новой технологии – эффективность. Deepseek OCR 2 использует всего от 256 до 1120 визуальных токенов для обработки изображения, в то время как аналогичным моделям требуется более 6000-7000 токенов. При этом точность распознавания достигает 91.09% на тестовом наборе OmniDocBench v1.5, что на 3.73% лучше предыдущей версии.

Система также показывает улучшенные результаты в плане повторений – важного показателя качества распознавания текста. При использовании в качестве OCR-движка для языковых моделей Deepseek частота повторений снизилась с 6.25% до 4.17%.

Однако есть и ограничения – модель хуже справляется с газетными страницами из-за меньшего количества токенов и недостаточного объема тренировочных данных в этой категории.

Разработчики видят в DeepEncoder V2 шаг к универсальной обработке различных типов данных. В будущем эта архитектура может эволюционировать для работы с текстом, речью и изображениями в рамках единого подхода. Код и веса модели находятся в открытом доступе на GitHub и Hugging Face.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K