OpenAI va más allá de la transmisión con un generador de imágenes basado en la «coherencia»

OpenAI va más allá de la transmisión con un generador de imágenes basado en la «coherencia»

El campo de la generación de imágenes está evolucionando rápidamente. Si bien los modelos de difusión utilizados por herramientas populares como Midjourney y Stable Diffusion pueden parecer los mejores que tenemos, siempre sucede lo siguiente, y OpenAI podría haber golpeado con «modelos de consistencia», que ya pueden realizar tareas simples y órdenes de magnitud más rápido que los gustos de DALL-E.

el papel era subido en preprint el mes pasado, y no estuvo acompañado por las silenciosas reservas de OpenAI a fanfarria por sus principales lanzamientos. No es una sorpresa: definitivamente es solo un trabajo de investigación y es muy técnico. Pero los resultados de esta técnica temprana y experimental son lo suficientemente interesantes como para notarlos.

Los modelos de consistencia no son particularmente fáciles de explicar, pero tienen más sentido a diferencia de los modelos de difusión.

En la transmisión, un modelo aprende a restar gradualmente el ruido de una imagen inicial con todo el ruido, acercándola paso a paso al indicador de destino. Este enfoque ha permitido las imágenes de IA más impresionantes de la actualidad, pero fundamentalmente se basa en ejecutar de diez a miles de pasos para obtener buenos resultados. Eso significa que es costoso de ejecutar y lo suficientemente lento como para que las aplicaciones en tiempo real no sean prácticas.

LEER  Cortical Labs recauda $ 10 millones para sus células madre que juegan Pong que eventualmente podrían impulsar la IA

El objetivo de los modelos de consistencia era crear algo que funcionara decentemente en solo un paso computacional, o como mucho en dos. Para ello, se entrena el modelo, como un modelo de difusión, para observar el proceso de destrucción de la imagen, pero se aprende a tomar una imagen en cualquier nivel de oscurecimiento (es decir, con poca o mucha información faltante) y generar una imagen de origen completa. en un solo paso.

Pero me apresuro a agregar que esta es solo la descripción más vaga de lo que está sucediendo. Es este tipo de papel:

Un extracto representativo del documento de coherencia.

Las imágenes resultantes no son impresionantes, muchas de las imágenes apenas pueden llamarse buenas. Pero lo que importa es que se generaron en un solo paso en lugar de cien o mil. Además, el modelo de consistencia se generaliza a varias tareas como colorización, escalado, interpretación de bocetos, relleno, etc., también en un solo paso (aunque frecuentemente mejorado por un segundo).

Ya sea que la imagen sea principalmente ruido o datos, los modelos de coherencia van directamente al resultado final.

Esto es importante, en primer lugar, porque el modelo de investigación en el aprendizaje automático generalmente consiste en que alguien establece una técnica, alguien más encuentra una manera de hacer que funcione mejor y luego otros la ajustan para que se adapte a lo largo del tiempo mientras agregan computación para producir resultados dramáticamente mejores que empezaste con. Así es más o menos cómo terminamos con los modelos de transmisión modernos y ChatGPT. Este es un proceso autolimitado porque, en la práctica, solo puede dedicar una cantidad determinada de cómputo a una tarea determinada.

LEER  Blackrock recorta la valoración de Byju en un 62% hasta los 8.400 millones de dólares

Lo que sucede a continuación, sin embargo, es que se identifica una nueva técnica más eficiente que puede hacer lo que hizo el modelo anterior, mucho peor al principio pero también mucho más efectivo. Los modelos de coherencia así lo demuestran, aunque todavía es demasiado pronto para compararlos directamente con los de difusión.

Pero es importante en otro nivel, porque indica cómo OpenAI, con mucho el equipo de investigación de IA más influyente del mundo en la actualidad, busca activamente la transmisión más allá de los casos de uso de la próxima generación.

Sí, si desea realizar 1500 iteraciones en uno o dos minutos con un grupo de GPU, puede obtener resultados sorprendentes con los modelos de difusión. Pero, ¿qué sucede si desea ejecutar un generador de imágenes en el teléfono de alguien sin agotar su batería o proporcionar resultados ultrarrápidos, por ejemplo, en una interfaz de chat en vivo? La difusión es simplemente la herramienta incorrecta para el trabajo, y los investigadores de OpenAI están buscando activamente la correcta, incluido Ilya Sutskever, un nombre muy conocido en el campo, sin restar importancia a las contribuciones de otros autores, Yang Song, Prafulla Dhariwal y Marc Chen. .

LEER  Para los SUV y EV, la sutileza está fuera y la naturaleza del saqueo está en

Si los modelos de consistencia son la próxima gran novedad para OpenAI o simplemente otra flecha en su carcaj (el futuro es casi seguro tanto multimodal como multimodelo) dependerá de cómo se desarrolle la investigación. Pedí más detalles y actualizaré esta publicación si tengo noticias de los buscadores.

Más contenidos sobre empresas en América Latina

Deja una respuesta