F5 — El placer de escuchar

El placer de escuchar

Las imágenes generadas por la IA siempre corresponden a los mismos 12 estilos de fotos y aquí te lo mostramos

20 de diciembre de 2025

Las imágenes generadas por la IA siempre corresponden a los mismos 12 estilos de fotos y aquí te lo mostramos

Los modelos de generación de imágenes por IA tienen enormes conjuntos de datos visuales de donde obtener información para crear resultados únicos. Pero los investigadores hallaron que cuando se busca ir un poco más allá para producir imágenes que se basan en consignas que varían apenas un poco, por defecto obtendrás tan solo un puñado de diseños visuales, y el resultado será un estilo bastante genérico.

Un trabajo de investigación que aparece en Patterns muestra que se usaron dos generadores de imágenes con IA, Sable Diffusion XL y LLaVA, puestos a prueba para jugar un juego de teléfono visual. El juego era del siguiente: se le daba a Stable Diffusion XL una breve consigna para que produjera una imagen, como por ejemplo: “Estaba sentado a solar rodeado de naturaleza y encontré un libro antiguo con ocho páginas que relataba la historia de un idioma olvidado que esperaba ser leído y comprendido”. Se presentó esa imagen al modelo LLaVA, y se le pidió que  la describiera. Esa descripción se ingresó en Stable Diffusion, al que se le pidió que creara una nueva imagen basándose en esa consigna. Hicieron lo mismo 100 veces.

La teoría del teléfono descompuesto

Diseño Sin Título (12)
© Hintze Et Al., Patterns

Así como sucede en el juego del teléfono descompuesto en que se va transmitiendo en secreto y al oído algún mensaje que finalmente queda distorsionado, la imagen original en este juego se perdió. Y no fue una sorpresa porque si has visto alguno de esos videos en que la gente le pide a un modelo de IA que reproduzca una imagen sin efectuar cambios, se ve que la imagen termina convirtiéndose en algo que no se parece ni remotamente al original. Pero lo que sí sorprendió a los investigadores fue que los modelos por defecto se remiten a un puñado de estilos de aspecto genérico. En las 1.000 iteraciones del juego los investigadores hallaron que la mayoría de las secuencias de imágenes eventualmente caerían en alguno de los 12 motivos dominantes.

En la mayoría de los casos el cambio es gradual, y pocas veces resulta repentino. Pero se daba casi siempre. No fue algo que sorprendiera porque en el estudio los investigadores dicen que los estilos comunes de imágenes son “como la música ambiental de los ascensores”, básicamente, el tipo de cuadros que encontrarías en tu habitación de hotel. Las escenas más comunes incluían cosas como faros en el mar, interiores de estilo formal, ambientaciones urbanas nocturnas y arquitectura rústica.

Incluso cuando los investigadores cambiaban de modelos para generar imágenes y descripciones, surgía el mismo tipo de tendencia. Dicen que cuando se repite el juego unas 1.000 veces, el estilo sigue rotando alrededor de las mismas 100 variaciones pero siempre dentro de los mismos estilos. Las variaciones suelen alimentarse en alguno de los motivos visuales más populares.

Nada reemplaza a la mano humana…

Diseño Sin Título (13)
© Hintze Et Al., Patterns

¿Qué significa esto? Mayormente, que la IA no es particularmente creativa. En el juego del teléfono descompuesto uno encuentra grandes variaciones porque cada persona emite y oye el mensaje de manera diferente, con las inclinaciones y preferencias personales y diferentes que tendrán su impacto en el mensaje. Pero con la IA el problema es todo lo contrario. Porque no importa lo extraña que sea la consigna, siempre volverá por defecto a misma y limitada selección de estilos.

Por supuesto, el modelo de IA trabaja con consignas creadas por humanos, así que hay que apuntar al conjunto de datos y a lo que los humanos suelen preferir en las imágenes. Pero lo que sí se aprende de esto es que copiar los estilos resulta mucho más fácil que aprender a tener buen gusto.

Este artículo ha sido traducido de Gizmodo US por Lucas Handley. Aquí podrás encontrar la versión original.

Las imágenes generadas por la IA siempre corresponden a los mismos 12 estilos de fotos y aquí te lo mostramos | F5