El Gen-2 de Runway muestra los límites de la tecnología actual de texto a video

El Gen-2 de Runway muestra los límites de la tecnología actual de texto a video

En una entrevista reciente con Collider, Joe Russo, el director de películas históricas de Marvel como «Avengers: Endgame», predijo que dentro de dos años la IA podrá crear una película completa.

Eso suena como una línea de tiempo bastante optimista. Pero nos estamos acercando.

Esta semana, Runway, un apoyado por Google La startup de IA que ayudó a desarrollar el generador de imágenes Stable Diffusion AI, lanzó Gen-2, una plantilla que genera videos a partir de indicaciones de texto o una imagen existente. (Gen-2 anteriormente tenía acceso limitado y estaba atrasado). El seguimiento del modelo Gen-1 de Runway lanzado en febrero, Gen-2 es uno de los primeros modelos de texto a video disponibles comercialmente.

«Disponible comercialmente» es una distinción importante. El texto en video, siendo la próxima frontera lógica de la IA generativa después de las imágenes y el texto, se está convirtiendo en un área de enfoque más grande, especialmente entre los gigantes tecnológicos, varios de los cuales han demostrado modelos de texto en video durante el último año. Pero estos modelos permanecen firmemente en la etapa de investigación, inaccesibles para todos, excepto para algunos científicos e ingenieros de datos.

Por supuesto, lo primero no es necesariamente mejor.

Por curiosidad personal y para servirles, queridos lectores, realicé algunas indicaciones a través de Gen-2 para tener una idea de lo que el modelo puede y no puede lograr. (Runway actualmente proporciona alrededor de 100 segundos de generación de video gratis). Realmente no había un método para mi locura, pero traté de capturar una variedad de ángulos, géneros y estilos que a un director, profesional o de salón, le gustaría ver. en la pantalla grande, o en una computadora portátil, según sea el caso.

Una limitación de Gen-2 que se hizo evidente de inmediato es la velocidad de fotogramas de los videos de cuatro segundos generados por el modelo. Es bastante bajo y notablemente, hasta el punto en que es casi como una presentación de diapositivas en algunos lugares.

pista Gen-2

Créditos de la imagen: Pista

Lo que no está claro es si se trata de un problema con la tecnología o de un intento de Runway de ahorrar en costes informáticos. De cualquier manera, esto hace que Gen-2 sea una propuesta bastante poco atractiva desde el principio para los editores que esperan evitar el trabajo de posproducción.

LEER  Twitter revela secretos, la FTC toma medidas enérgicas contra los secuestradores y llega Android 14

Más allá del problema de la velocidad de fotogramas, descubrí que los clips generados por Gen-2 tienden a compartir cierto grano o desenfoque en común, como si hubieran aplicado algún tipo de filtro de Instagram de la vieja escuela. Otros artefactos también ocurren en ciertos lugares, como la pixelación alrededor de los objetos cuando la «cámara» (a falta de una palabra mejor) los rodea o los acerca rápidamente.

Al igual que con muchos modelos generativos, Gen-2 tampoco es particularmente consistente cuando se trata de física o anatomía. Como algo evocado por un surrealista, los brazos y las piernas de las personas en los videos producidos por Gen-2 se fusionan y se separan nuevamente a medida que los objetos se fusionan en el suelo y desaparecen, sus reflejos distorsionados y distorsionados. Y, dependiendo del mensaje, las caras pueden parecer muñecas, con ojos brillantes y sin emociones y una piel pálida que recuerda al plástico barato.

pista Gen-2

Créditos de la imagen: Pista

Para apilar más, está la cuestión del contenido. Gen-2 parece tener problemas con los matices, aferrándose a descriptores particulares en las indicaciones mientras ignora a otros, aparentemente al azar.

pista Gen-2

Créditos de la imagen: Pista

Una de las indicaciones que probé: «Un video de una utopía submarina, filmado con una cámara antigua, al estilo de una película de ‘metraje encontrado’, no provocó ninguna utopía de este tipo, solo lo que parecía un buceo en primera persona». bucear a través de un arrecife de coral sin nombre. Gen-2 también tuvo problemas con mis otras indicaciones, ya que no pudo generar un acercamiento para una indicación que pedía específicamente «zoom lento» y no lograba lograr su aspecto de astronauta promedio.

LEER  Apple en la mira de la demanda por daños antimonopolio de la App Store que busca más de mil millones de dólares para los desarrolladores del Reino Unido

¿Podrían los problemas estar en el conjunto de datos de entrenamiento Gen-2? Puede ser.

Gen-2, como Stable Diffusion, es un modelo de difusión, lo que significa que aprende a restar gradualmente el ruido de una imagen inicial que es todo ruido y la acerca, paso a paso, al indicador. Los modelos de difusión aprenden entrenándose en millones o miles de millones de ejemplos; en una universidad papel Al detallar la arquitectura Gen-2, Runway dice que el modelo fue entrenado en un conjunto de datos interno de 240 millones de imágenes y 6,4 millones de videoclips.

La diversidad de ejemplos es esencial. Si el conjunto de datos no contiene muchas secuencias de animación, por ejemplo, el modelo, al carecer de puntos de referencia, no podrá generar animaciones de calidad razonable. (Por supuesto, la animación es un campo amplio, incluso si el conjunto de datos hizo tiene clips de anime o animación dibujada a mano, el modelo no necesariamente se generalizaría bien para todo tipos de animaciones).

pista Gen-2

Créditos de la imagen: Pista

En el lado positivo, Gen-2 pasa una prueba de sesgo a nivel de superficie. Si bien se ha demostrado que los modelos generativos de IA como DALL-E 2 refuerzan los sesgos sociales, generando imágenes de puestos de autoridad, como «CEO o «director», que representan principalmente a hombres blancos, Gen-2 fue un poco más diverso en el contenido. generó, al menos en mis pruebas.

Pista Gen-2

Créditos de la imagen: Pista

Impulsado por el mensaje «Un video de un CEO entrando a una sala de conferencias», Gen-2 generó un video de hombres y mujeres (aunque más hombres que mujeres) sentados alrededor de algo así como una mesa de conferencias. Mientras tanto, la salida del mensaje «Un video de un médico trabajando en una oficina» muestra a una doctora de aspecto vagamente asiático detrás de un escritorio.

LEER  El nuevo chatbot con IA de Superchat te permite enviar mensajes a personajes históricos y ficticios a través de ChatGPT

Sin embargo, los resultados para cualquier indicación que contuviera la palabra «enfermera» fueron menos prometedores y mostraron constantemente mujeres blancas jóvenes. Lo mismo ocurre con la expresión «una persona que sirve mesas». Evidentemente, hay trabajo por hacer.

La conclusión de todo esto, para mí, es que Gen-2 es más una novedad o un juguete que una herramienta realmente útil en cualquier flujo de trabajo de video. ¿Se podrían editar los resultados en algo más cohesivo? Puede ser. Pero según el video, eso potencialmente requeriría más trabajo que filmar en primer lugar.

no es para ser también desdeñoso de la tecnología. Es impresionante lo que Runway ha hecho aquí, venciendo efectivamente a los gigantes tecnológicos en el golpe de texto a video. Y estoy seguro de que algunos usuarios encontrarán usos para Gen-2 que no requieren fotorrealismo, o mucha personalización. (Gerente General de pista Cristóbal Valenzuela recientemente le dijo a Bloomberg que ve Gen-2 como una forma de brindarles a los artistas y diseñadores una herramienta que puede ayudarlos en sus procesos creativos).

Pista Gen-2

Créditos de la imagen: Pista

Lo hice yo. De hecho, Gen-2 puede incluir una variedad de estilos, como anime y plastilina, que se prestan a la velocidad de fotogramas más baja. Con un poco de retoques y edición, no sería imposible unir algunos clips para crear una pieza narrativa.

Para que no te preocupe el potencial de las falsificaciones profundas, Runway dice que usa una combinación de inteligencia artificial y moderación humana para evitar que los usuarios generen videos que contengan pornografía, contenido violento o violen los derechos de autor. Puedo confirmar que hay un filtro de contenido, de hecho, demasiado entusiasta. Pero, por supuesto, estos no son métodos infalibles, por lo que tendremos que ver qué tan bien funcionan en la práctica.

pista Gen-2

Créditos de la imagen: Pista

Pero al menos por ahora, los cineastas, animadores y artistas CGI y especialistas en ética pueden estar tranquilos. Tomará al menos algunas iteraciones más adelante antes de que la tecnología de Runway esté cerca de generar imágenes de calidad cinematográfica, suponiendo que alguna vez llegue allí.

Más contenidos sobre empresas en América Latina