
Con DeepFloyd, el arte generativo de IA obtiene una actualización textual
La IA generativa es bastante impresionante en términos de fidelidad en estos días, ya que los memes virales como papa balenciaga podría sugerir. Los últimos sistemas pueden evocar paisajes que van desde el horizonte de la ciudad hasta cafés, creando imágenes que parecen sorprendentemente realistas, al menos a primera vista.
Pero una de las debilidades de larga data de los modelos de IA de texto a imagen es, irónicamente, el texto. Incluso las mejores plantillas tienen dificultades para generar imágenes con logotipos legibles, mucho menos texto, caligrafía o fuentes.
Pero eso podría cambiar.
La semana pasada, DeepFloyd, un grupo de investigación respaldado por Stability AI, desvelado DeepFloyd ES, un modelo de texto a imagen capaz de incrustar texto «inteligentemente» en las imágenes. Entrenado en un conjunto de datos de más de mil millones de imágenes y texto, DeepFloyd IF, que requiere una GPU con al menos 16 GB de RAM para funcionar, puede crear una imagen a partir de un aviso como «un animal de peluche de oso con una camiseta que dice» Deep Floyd » » – posiblemente en una variedad de estilos.
DeepFloyd IF está disponible como código abierto, con licencia que prohíbe el uso comercial, por ahora. La restricción probablemente estuvo motivada por el precario estado legal actual de los modelos de arte generativo de IA. Varios vendedores de modelos comerciales están bajo el fuego de los artistas que afirman que los vendedores se están beneficiando de su trabajo sin compensación al extraer ese trabajo de la web sin permiso.
Pero Nightcafe, la plataforma de arte generativo, consiguió Acceso temprano a DeepFloyd IS.
El CEO de Nightcafe, Angus Russell, le dijo a TechCrunch qué diferencia a DeepFloyd IF de otros modelos de texto a imagen y por qué podría representar un importante paso adelante para la IA generativa.
Según Russell, el diseño de DeepFloyd IF se inspiró en gran medida en el modelo Imagen de Google, que nunca se hizo público. A diferencia de modelos como DALL-E 2 y Stable Diffusion de OpenAI, DeepFloyd IF utiliza varios procesos diferentes apilados en una arquitectura modular para generar imágenes.

Créditos de la imagen: floydprofundo
Con un modelo de difusión típico, el modelo aprende a restar gradualmente el ruido de una imagen inicial compuesta casi en su totalidad por ruido, acercándola paso a paso al indicador de destino. DeepFloyd IF hace la transmisión no una sino muchas veces, generando una imagen de 64x64px, luego escalando la imagen a 256x256px y finalmente a 1024x1024px.
¿Por qué la necesidad de múltiples pasos de difusión? DeepFloyd IF funciona directamente con píxeles, explicó Russell. Los modelos de difusión son en su mayoría modelos de difusión latente, lo que básicamente significa que operan en un espacio dimensional más bajo que representa muchos más píxeles pero con menos precisión.
La otra diferencia clave entre DeepFloyd IF y modelos como Stable Diffusion y DALL-E 2 es que el primero usa un modelo de lenguaje grande para comprender y representar indicaciones como un vector, una estructura de datos básica. DUE con el tamaño del modelo de lenguaje grande integrado en la arquitectura de DeepFloyd IF, el modelo es particularmente bueno para comprender indicaciones complejas e incluso las relaciones espaciales descritas en las indicaciones (por ejemplo, «un cubo rojo sobre una esfera rosa»).
«También es muy bueno para generar texto legible y escrito correctamente en imágenes, e incluso puede comprender indicaciones en varios idiomas», agregó Russell. «Entre estas capacidades, la capacidad de generar texto legible en imágenes es quizás el mayor avance con DeepFloyd IF destacándose de otros algoritmos».
Debido a que DeepFloyd IF puede generar texto en imágenes bastante bien, Russell espera que desbloquee una ola de nuevas posibilidades de arte generativo: piense en diseño de logotipos, diseño web, carteles, vallas publicitarias e incluso memes. El modelo también debería ser mucho mejor para generar cosas como manos, dice, y, debido a que puede entender indicaciones en otros idiomas, también podría crear texto en esos idiomas.
«Los usuarios de NightCafe están entusiasmados con DeepFloyd IF en gran parte debido a las posibilidades que se desbloquean al generar texto en imágenes”, dijo Russell. «Stable Diffusion XL fue el primer algoritmo de código abierto que avanzó en la generación de texto: puede generar con precisión una o dos palabras algunas tiempo, pero eso aún no es lo suficientemente bueno para casos de uso intensivo de texto.
Eso no quiere decir que DeepFloyd IF sea el santo grial de los modelos de texto a imagen. Russell señala que el modelo básico dtampoco genera imagenes estéticamente agradable como algunos modelos de transmisión, aunque espera que los ajustes finos mejoren esto.

Créditos de la imagen: floydprofundo
Pero la pregunta más importante, para mí, es hasta qué punto DeepFloyd IF sufre de los mismos defectos que sus hermanos de IA generativa.
Un cuerpo creciente de investigación reveló estereotipos raciales, étnicos, de género y otros en la IA generadora de imágenes, incluído Emisión estable. Este mes, investigadores de la empresa emergente AI Hugging Face y la Universidad de Leipzig publicaron un herramienta demostrando que modelos como Stable Diffusion y OpenAI’s DALL-E 2 tienden a producir imágenes de personas que parecen blancas y masculinas, especialmente cuando se les pide que representen a personas en posiciones de autoridad.
El equipo de DeepFloyd, para su crédito, observa el potencial de sesgo en la letra pequeña que acompaña a DeepFloyd IF:
Los textos e imágenes de comunidades y culturas que utilizan otros idiomas corren el riesgo de no ser suficientemente tenidos en cuenta. Esto afecta el resultado general del modelo, ya que las culturas blanca y occidental a menudo se configuran de forma predeterminada.
Aparte de eso, DeepFloyd IF, al igual que otros modelos generativos de código abierto, podría usarse con fines dañinos, como generar falsificaciones profundas de celebridades pornográficas y representaciones gráficas de violencia. En la página web oficial de DeepFloyd IF, el equipo de DeepFloyd afirma haber utilizado «filtros personalizados» para eliminar marcas de agua, «NSFW» y «otro contenido inapropiado» de los datos de entrenamiento.
Pero no está claro exactamente qué contenido se eliminó y cuánto se pudo haber perdido. Al final, el tiempo lo dirá.