Perplexity, известная своим AI-поисковиком, выложила в открытый доступ две новые модели для работы с текстовыми эмбеддингами. Звучит скучновато? На самом деле это довольно любопытная история про то, как можно делать поиск умнее и при этом экономнее.
Прежде чем языковая модель ответит на ваш запрос, ей нужно найти нужные документы среди миллиардов веб-страниц. Этим занимаются эмбеддинг-модели - они переводят тексты и запросы в числовые векторы, чтобы можно было посчитать семантическую близость. От качества этого первого шага зависит всё остальное.

Perplexity выпустила две модели: pplx-embed-v1 для классического поиска и pplx-embed-context-v1, которая учитывает контекст окружающего документа. Обе доступны в версиях на 0,6 и 4 миллиарда параметров.
Фишка в том, что большинство эмбеддинг-моделей читают текст только слева направо. Каждое слово "видит" только то, что было до него. Для генерации текста это нормально, но для понимания смысла - проблема. Ведь часто суть предложения зависит от того, что идёт дальше.
Perplexity взяла предобученные модели Qwen3 от Alibaba и научила их читать в обе стороны. Затем модель тренировали методом, похожим на BERT от Google: случайные слова маскируются, и модель учится предсказывать пропущенное по контексту с обеих сторон. Обучение прошло на 250 миллиардах токенов на 30 языках.
Но самое интересное - это оптимизация памяти. Стандартный подход использует 32-битные числа с плавающей точкой. Perplexity с самого начала обучала модели работать с 8-битными целыми числами, что сокращает требования к памяти в 4 раза без потери качества. Есть даже бинарный вариант на один бит - он уменьшает объём в 32 раза с потерей качества меньше 1,6 процентных пункта.

На бенчмарке MTEB модель pplx-embed-v1-4B показала 69,66% - примерно как Qwen3-Embedding-4B (69,60%) и лучше, чем gemini-embedding-001 от Google (67,71%). На ConTEB для контекстного поиска pplx-embed-context-v1-4B выдала 81,96%, обойдя Voyage (79,45%) и Anthropic (72,4%).
Perplexity отмечает, что публичные бенчмарки не отражают реальных сложностей поиска - там мало необычных запросов, шумных документов и прочих радостей живого трафика. Поэтому компания создала внутренние тесты на 115 000 реальных запросов и 30 миллионах документов с миллиарда сайтов. Там разрыв оказался ещё больше: в тесте PPLXQuery2Query модель на 4B параметров нашла 73,5% релевантных результатов в топ-10 против 67,9% у Qwen3.
Все четыре модели доступны на Hugging Face под лицензией MIT. Работают через API Perplexity и популярные фреймворки вроде Transformers и SentenceTransformers. Компания также опубликовала технический отчёт с полными результатами тестов.

В общем, если вам нужен эффективный поиск без лишних затрат на железо - есть повод присмотреться.
Смотрите также
-
Qualcomm и Arduino показали мощный конкурент Raspberry Pi с автономным ИИ
-
Google добавил в карты поиск на естественном языке через Gemini AI
-
Runpod раскрыл правду: какие AI-модели реально используют разработчики
-
Hume AI выпустила TADA - сверхбыструю систему синтеза речи с открытым кодом
-
Anthropic тестирует ИИ-ревью кода на своих разработчиках
-
Nvidia готовит NemoClaw - платформу для корпоративных AI-агентов
-
Cursor запустил AI-агентов, которые работают круглосуточно и убирают рутину разработчиков
-
Google выпустил CLI для интеграции OpenClaw и других AI-агентов в Workspace
-
Claude от Anthropic нашёл более 100 уязвимостей в Firefox