Google DeepMind выпустила биоакустическую модель Perch 2.0, которую тренировали в основном на птичьих голосах. Казалось бы, какое отношение это имеет к морским млекопитающим? Оказалось - самое прямое. Модель стабильно обходит специализированные системы в распознавании звуков китов и дельфинов.
Изучать поведение китов под водой можно только по звукам - визуальный контакт там редкость. Но создавать надежные ИИ-классификаторы для подводного аудио сложно: нужно дорогое оборудование, а новые звуки иногда связывают с конкретным видом только через десятилетия после первой записи.

Perch 2.0 обучали на 1,5 миллионах записей звуков животных, охватывающих минимум 14 500 видов. Большинство - птицы, плюс насекомые, млекопитающие и амфибии. Подводных записей в тренировочных данных практически нет - всего около дюжины записей китов, причем сделанных на телефон над водой.
Для проверки использовали три морских датасета: усатые киты из Тихого океана, звуки рифов (треск, рычание) и более 200 000 размеченных звуков косаток и горбатых китов. Модель создает компактное числовое представление каждой записи, а простой классификатор учится на этих данных различать виды по нескольким примерам.
Результаты удивили даже исследователей. Perch 2.0 занял первое или второе место почти во всех задачах. При различении субпопуляций косаток по звукам модель набрала 0,945 балла (где 1,0 - идеальный результат), тогда как специализированная китовая модель Google (GMWM) - только 0,821. В классификации подводных звуков Perch 2.0 достиг 0,977 против 0,914 у GMWM, используя всего 16 обучающих примеров на категорию.
Когда специализированную модель использовали напрямую без дообучения, ее результат упал до 0,612. Похоже, она переобучилась на специфику конкретных микрофонов или других артефактах в своих данных. Узкая специализация ограничивает способность обобщать.
Исследователи предлагают три объяснения. Первое - законы масштабирования нейросетей: большие модели с большим объемом данных лучше обобщают даже на задачи вне их области. Второе - классификация птиц особенно сложна из-за минимальных различий между видами. В Северной Америке 14 видов голубей, каждый с чуть отличающимся воркованием. Модель, улавливающая такие тонкости, учится акустическим признакам, полезным для совершенно других задач.
Третье объяснение - эволюционная биология. Птицы и морские млекопитающие независимо развили похожие механизмы производства звука. Эта общая физическая основа может объяснять, почему акустические признаки так легко переносятся между группами животных.
Практическая польза - в быстром создании классификаторов для новых открытий. Пассивные акустические данные помещаются в векторную базу, а линейные классификаторы обучаются за несколько часов. Это важно, потому что в морской биоакустике постоянно появляются новые звуки. Например, загадочный звук "биотванг" только недавно связали с китами Брайда.

Google выложил туториал в Google Colab и инструменты на GitHub. Специализированную китовую модель они выпустили в 2024-м, а Perch 2.0 как более широкую биоакустическую модель - в августе 2025-го.
Смотрите также
-
Китай обогнал Neuralink: одобрен первый в мире коммерческий нейроимплант
-
Китайский робот Z1 меняет насадки за 6 секунд и работает на реальном производстве
-
Runpod раскрыл правду: какие AI-модели реально используют разработчики
-
Hume AI выпустила TADA - сверхбыструю систему синтеза речи с открытым кодом
-
Nvidia готовит NemoClaw - платформу для корпоративных AI-агентов
-
Google выпустил CLI для интеграции OpenClaw и других AI-агентов в Workspace
-
Почему ИИ-ассистенты по умолчанию женского пола — и стоит ли об этом беспокоиться?
-
ИИ деанонимизирует пользователей интернета за пару долларов и несколько минут
-
Perplexity выпустила эмбеддинг-модели, которые обходят Google и занимают в 32 раза меньше памяти