Este año, la inteligencia artificial ganó concursos de arte, dominó Internet, aprobó exámenes y demostró ser la tecnología del futuro... pero aún no puede representar con precisión las manos humanas comunes y corrientes.
A pesar de todo el trabajo realizado con generadores de imágenes de IA, las manos se han convertido en su némesis, exponiendo los defectos del modelo.
Si bien esta característica ya ha sido un problema destacado desde la introducción del Dall-E 2 y todos sus competidores posteriores, el problema se puso de relieve gracias a la colección de imágenes de usuario de un usuario de Twitter que generó utilizando Midjourney. Lea sobre ello en las siguientes noticias:
A primera vista, el trabajo de la IA puede resultar impresionante: las imágenes muestran personas de aspecto realista. Y, sin embargo, se pueden notar problemas: una de las personas tiene tres manos, otra tiene siete dedos y una muy larga, y en una de las imágenes alguien sostiene un teléfono con el dedo doblado.
Entonces, ¿por qué un obstáculo tan pequeño hace que la IA falle? "Los generadores de imágenes 2D no comprenden en absoluto la geometría 3D de algo como una mano", dice el profesor Peter Bentley, científico y autor del University College de Londres.
“Tienen una idea general de la mano. Tiene palma, dedos y uñas, pero ninguno de estos modelos entiende realmente qué es”.
Si sólo intentas obtener una imagen muy general de una mano, esto no será un gran problema para una red neuronal. El problema surge tan pronto como estableces el contexto. Si la IA no puede comprender la naturaleza tridimensional de la mano o el contexto de la situación, le resultará difícil recrearla con precisión.
Por ejemplo, una mano que sostiene un objeto como un cuchillo o una cámara, o alguien que realiza señales con las manos, confundirá instantáneamente a un modelo que no comprende la mano en 3D o la forma geométrica del objeto que sostiene.
Sin embargo, el "problema de la mano" no es sólo un problema de la red neuronal Dall-E 2. Otros modelos de imágenes populares, como Midjourney y Stable Diffusion, se han enfrentado a la misma tarea imposible de crear una mano de apariencia normal.
“De hecho, todos estos modelos están divorciados de la realidad, no tienen contexto, no tienen ningún conocimiento ni capacidad para tener en cuenta el contexto de la imagen. Simplemente combinan toda la basura que les damos”, dice el científico.
Así que estos modelos son buenos, incluso geniales... pero todavía les queda un largo camino por recorrer para crear imágenes perfectas. ¿Qué tiene que pasar para resolver este problema y finalmente crear una mano que no parezca inspirada por David Cronenberg?
“Todo esto puede cambiar en el futuro. Estas redes se entrenan gradualmente en geometría 3D para que puedan comprender la forma de las imágenes. Esto nos dará una imagen más coherente, incluso con pistas complejas", afirma Bentley. "Los primeros resultados significativos en este campo podrían conducir a la creación de representaciones 3D muy detalladas e incluso mundos digitales".