ИИ для птиц оказался лучше в распознавании китов, чем специализированная модель

  ·   чтения   ·     ·  
Google DeepMind обучила модель на птичьих трелях, и она неожиданно превзошла специализированный ИИ в классификации звуков китов и дельфинов.
ИИ для птиц оказался лучше в распознавании китов, чем специализированная модель

Google DeepMind выпустила биоакустическую модель Perch 2.0, которую тренировали в основном на птичьих голосах. Казалось бы, какое отношение это имеет к морским млекопитающим? Оказалось - самое прямое. Модель стабильно обходит специализированные системы в распознавании звуков китов и дельфинов.

Изучать поведение китов под водой можно только по звукам - визуальный контакт там редкость. Но создавать надежные ИИ-классификаторы для подводного аудио сложно: нужно дорогое оборудование, а новые звуки иногда связывают с конкретным видом только через десятилетия после первой записи.

Сравнение кластеризации звуков морских млекопитающих восемью нейросетевыми моделями.

Perch 2.0 обучали на 1,5 миллионах записей звуков животных, охватывающих минимум 14 500 видов. Большинство - птицы, плюс насекомые, млекопитающие и амфибии. Подводных записей в тренировочных данных практически нет - всего около дюжины записей китов, причем сделанных на телефон над водой.

Для проверки использовали три морских датасета: усатые киты из Тихого океана, звуки рифов (треск, рычание) и более 200 000 размеченных звуков косаток и горбатых китов. Модель создает компактное числовое представление каждой записи, а простой классификатор учится на этих данных различать виды по нескольким примерам.

Результаты удивили даже исследователей. Perch 2.0 занял первое или второе место почти во всех задачах. При различении субпопуляций косаток по звукам модель набрала 0,945 балла (где 1,0 - идеальный результат), тогда как специализированная китовая модель Google (GMWM) - только 0,821. В классификации подводных звуков Perch 2.0 достиг 0,977 против 0,914 у GMWM, используя всего 16 обучающих примеров на категорию.

Когда специализированную модель использовали напрямую без дообучения, ее результат упал до 0,612. Похоже, она переобучилась на специфику конкретных микрофонов или других артефактах в своих данных. Узкая специализация ограничивает способность обобщать.

Исследователи предлагают три объяснения. Первое - законы масштабирования нейросетей: большие модели с большим объемом данных лучше обобщают даже на задачи вне их области. Второе - классификация птиц особенно сложна из-за минимальных различий между видами. В Северной Америке 14 видов голубей, каждый с чуть отличающимся воркованием. Модель, улавливающая такие тонкости, учится акустическим признакам, полезным для совершенно других задач.

Третье объяснение - эволюционная биология. Птицы и морские млекопитающие независимо развили похожие механизмы производства звука. Эта общая физическая основа может объяснять, почему акустические признаки так легко переносятся между группами животных.

Практическая польза - в быстром создании классификаторов для новых открытий. Пассивные акустические данные помещаются в векторную базу, а линейные классификаторы обучаются за несколько часов. Это важно, потому что в морской биоакустике постоянно появляются новые звуки. Например, загадочный звук "биотванг" только недавно связали с китами Брайда.

Графики AUC_ROC показывают производительность модели Perch 2.0 в распознавании звуков морских млекопитающих.

Google выложил туториал в Google Colab и инструменты на GitHub. Специализированную китовую модель они выпустили в 2024-м, а Perch 2.0 как более широкую биоакустическую модель - в августе 2025-го.

Смотрите также

Логотип Telegram

Будьте в курсе новых нейросетей — подпишитесь на наш Telegram-канал!

Ежедневные обзоры свежих AI-инструментов, лайфхаки и инструкции прямо в вашем мессенджере.

AILibri – главная страница
Ctrl / ⌘+K