Почему руки, созданные искусственным интеллектом, иногда настолько ужасны? → Блог → 2000+ AI нейросетей на одном сайте

В этом году искусственный интеллект выиграл художественные конкурсы, доминировал в Интернете, сдал экзамены и доказал, что это технология будущего… но он все еще не может точно изобразить обыкновенные человеческие руки.

Несмотря на всю работу, проделанную с генераторами изображений ИИ, руки стали их «заклятым врагом», выставляя напоказ недостатки модели.

Хотя эта особенность уже являлась заметной проблемой, начиная с появления Dall-E 2 и всех его последующих конкурентов, проблема стала центром внимания благодаря коллекции изображений пользователя одного из пользователей Twitter, которую он нагенерировал с помощью Midjourney. Читайте об этом в следующей новости:

На первый взгляд работа ИИ может впечатлить: на изображениях видно реалистично выглядящих людей. И все же, можно заметить и проблемы: у кого-то из людей три руки, у другого человека семь пальцев и очень длинная ладонь, а на одном из изображение кто-то загнутым назад пальцем проводит по телефону.

Так почему же такое маленькое препятствие вызывает сбой в работе ИИ? “Генераторы 2D-изображений не имеют абсолютно никакого представления о трехмерной геометрии чего-то вроде руки”, — говорит профессор Питер Бентли, ученый и автор из Университетского колледжа Лондона.

“У них есть общее представление о руке. У него есть ладонь, пальцы и ногти, но ни одна из этих моделей на самом деле не понимает, что это такое ”.

Если вы просто пытаетесь получить очень общее изображение руки, то для нейросети эта задаче не станет слишком большой проблемой. Проблема возникает, как только вы зададите контекст. Если ИИ не может понять трехмерную природу руки или контекст ситуации, ей будет сложно точно воссоздать ее.

Например, рука, держащая предмет, например, нож или камеру, или кто-то, выполняющие знаки рукой, мгновенно собьет с толку модель, которая не имеет никакого представления о руке в 3D или геометрической форме предмета, который она держит.

Однако «проблема рук» — проблема не только нейросети Dall-E 2. Другие популярные модели изображений, такие как Midjourney и Stable Diffusion, столкнулись с той же невыполнимой задачей — создать руку, выглядящую нормально.

“На самом деле, все эти модели оторваны от реальности, у них нет никакого контекста, у них нет никаких знаний или способностей учитывать контекст изображения. Они просто как бы объединяют весь мусор, который мы им дали» — говорит ученый.

Итак, эти модели хороши, даже великолепны … но им еще далеко до создания идеальных изображений. Что должно произойти, чтобы решить эту проблему и, наконец, создать руку, которая не выглядит так, как будто она была вдохновлена Дэвидом Кроненбергом?

“Все это может измениться в будущем. Эти сети постепенно обучаются 3D-геометрии для того, чтобы они могли понимать форму изображений. Это даст нам более связное изображение даже со сложными подсказками ”, — говорит Бентли — «Первые значимые результаты на этом поприще могут привести к созданию высокодетализированных 3D-рендеров и даже цифровых миров.»