Perplexity выпустила эмбеддинг-модели, которые обходят Google и занимают в 32 раза меньше памяти

  ·   чтения   ·     ·  
Perplexity открыла исходный код своих моделей для поиска документов. Они работают не хуже решений от Google и Alibaba, но требуют в разы меньше ресурсов.
Perplexity выпустила эмбеддинг-модели, которые обходят Google и занимают в 32 раза меньше памяти

Perplexity, известная своим AI-поисковиком, выложила в открытый доступ две новые модели для работы с текстовыми эмбеддингами. Звучит скучновато? На самом деле это довольно любопытная история про то, как можно делать поиск умнее и при этом экономнее.

Прежде чем языковая модель ответит на ваш запрос, ей нужно найти нужные документы среди миллиардов веб-страниц. Этим занимаются эмбеддинг-модели - они переводят тексты и запросы в числовые векторы, чтобы можно было посчитать семантическую близость. От качества этого первого шага зависит всё остальное.

График Perplexity сравнения производительности и эффективности различных моделей эмбеддингов.

Perplexity выпустила две модели: pplx-embed-v1 для классического поиска и pplx-embed-context-v1, которая учитывает контекст окружающего документа. Обе доступны в версиях на 0,6 и 4 миллиарда параметров.

Фишка в том, что большинство эмбеддинг-моделей читают текст только слева направо. Каждое слово "видит" только то, что было до него. Для генерации текста это нормально, но для понимания смысла - проблема. Ведь часто суть предложения зависит от того, что идёт дальше.

Perplexity взяла предобученные модели Qwen3 от Alibaba и научила их читать в обе стороны. Затем модель тренировали методом, похожим на BERT от Google: случайные слова маскируются, и модель учится предсказывать пропущенное по контексту с обеих сторон. Обучение прошло на 250 миллиардах токенов на 30 языках.

Но самое интересное - это оптимизация памяти. Стандартный подход использует 32-битные числа с плавающей точкой. Perplexity с самого начала обучала модели работать с 8-битными целыми числами, что сокращает требования к памяти в 4 раза без потери качества. Есть даже бинарный вариант на один бит - он уменьшает объём в 32 раза с потерей качества меньше 1,6 процентных пункта.

График сравнения производительности моделей Perplexity pplx-embed-v1 в контекстном и неконтекстном поиске.

На бенчмарке MTEB модель pplx-embed-v1-4B показала 69,66% - примерно как Qwen3-Embedding-4B (69,60%) и лучше, чем gemini-embedding-001 от Google (67,71%). На ConTEB для контекстного поиска pplx-embed-context-v1-4B выдала 81,96%, обойдя Voyage (79,45%) и Anthropic (72,4%).

Perplexity отмечает, что публичные бенчмарки не отражают реальных сложностей поиска - там мало необычных запросов, шумных документов и прочих радостей живого трафика. Поэтому компания создала внутренние тесты на 115 000 реальных запросов и 30 миллионах документов с миллиарда сайтов. Там разрыв оказался ещё больше: в тесте PPLXQuery2Query модель на 4B параметров нашла 73,5% релевантных результатов в топ-10 против 67,9% у Qwen3.

Все четыре модели доступны на Hugging Face под лицензией MIT. Работают через API Perplexity и популярные фреймворки вроде Transformers и SentenceTransformers. Компания также опубликовала технический отчёт с полными результатами тестов.

Сравнение эффективности моделей pplx-embed-v1 и pplx-embed-context-v1 в поиске.

В общем, если вам нужен эффективный поиск без лишних затрат на железо - есть повод присмотреться.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K