Google trae nuevos modelos generativos a Vertex AI, incluyendo Imagen
Para paráfrasis Andreessen Horowitz, la IA generativa, especialmente desde el lado del texto al arte, está consumiendo el mundo. Al menos, los inversores así lo creen, a juzgar por los miles de millones de dólares que han invertido en nuevas empresas que desarrollan IA que crea texto e imágenes a partir de indicaciones.
Para no quedarse atrás, Big Tech está invirtiendo en sus propias soluciones de arte generativo de IA, ya sea a través de asociaciones con las nuevas empresas antes mencionadas o mediante I+D interno. (Ver: Microsoft se asocia con OpenAI para Image Creator). Google, aprovechando su fuerte ala de I+D, decidió ir por el último camino, comercializando su trabajo en IA generativa para competir con las plataformas ya existentes.
Hoy, en su Conferencia anual de desarrolladores de E/S, Google anunció nuevos modelos de IA para Vertex AI, su servicio de IA completamente administrado, que incluye un modelo de texto a imagen llamado Imagen. Imagen, que Google preestrenó a través de su aplicación AI Test Kitchen en noviembre pasado, puede generar y editar imágenes, así como escribir leyendas para las imágenes existentes.
«Cualquier desarrollador puede usar esta tecnología usando Google Cloud», dijo a TechCrunch Nenshad Bardoliwalla, director de Vertex AI en Google Cloud, en una entrevista telefónica. «No tienes que ser un científico de datos o un desarrollador».
Imagen en vértice
Comenzar con Imagen en Vertex es, de hecho, un proceso relativamente sencillo. Se puede acceder a una interfaz de usuario para el modelo desde lo que Google llama Model Garden, una selección de modelos desarrollados por Google junto con modelos de código abierto seleccionados. En la interfaz de usuario, similar a las plataformas de arte generativo como MidJourney y Nightcafe, los clientes pueden ingresar indicaciones (por ejemplo, «un bolso morado») para que Imagen genere un puñado de imágenes candidatas.
Las herramientas de edición y las indicaciones de seguimiento refinan las imágenes generadas por Imagen, por ejemplo, ajustando el color de los objetos representados en ellas. Vertex también ofrece escalado para afinar imágenes, además de un ajuste fino que permite a los clientes orientar Imagen hacia ciertos estilos y preferencias.
Como se mencionó anteriormente, Imagen también puede generar subtítulos para imágenes, traduciendo opcionalmente esos subtítulos usando Google Translate. Para cumplir con las reglas de privacidad como GDPR, las imágenes generadas que no se guardan se eliminan dentro de las 24 horas, dijo Bardoliwalla.
“Hacemos que sea muy fácil para las personas comenzar a trabajar con IA generativa y sus imágenes”, el Añadió.
Por supuesto, hay una serie de desafíos éticos y legales asociados con todas las formas de IA generativa, sin importar cuán buena sea la interfaz de usuario. Los modelos de IA como Imagen «aprenden» a generar imágenes a partir de indicaciones de texto mediante el «entrenamiento» en imágenes existentes, que a menudo provienen de conjuntos de datos que se han recopilado al navegar por sitios web. Algunos expertos sugieren que los modelos de formación que utilicen imágenes públicas, incluso aquellas protegidas por derechos de autor, estarán cubiertos por la doctrina del uso justo en los Estados Unidos, pero es una cuestión que está poco probable para liquidarse de inmediato.
A saber, dos empresas detrás de las populares herramientas de arte de IA, Midjourney y Stability AI, están en el punto de mira de un Caso legal quien afirma haber infringido los derechos de millones de artistas al entrenar sus herramientas en imágenes recuperadas de la web. El proveedor de imágenes Getty Images demandó a Stability AI, por separado, por tendría usando millones de imágenes de su sitio sin permiso para formar el modelo generador de arte Stable Diffusion.
He preguntado Bardoliwalla si los clientes de Vertex deberían estar preocupados de que Imagen pueda haberse formado en material protegido por derechos de autor. Naturalmente, podrían ser disuadidos de usarlo si ese fuera el caso.
Bardoliwalla no dijo directamente que Imagen no estaba capacitada en imágenes de marca, solo que Google lleva a cabo extensas «revisiones de gobierno de datos» para «revisar los datos de origen» dentro de sus modelos para garantizar que estén «libres de derechos de autor». (El lenguaje cubierto no es una gran sorpresa dado que el foto original fue entrenado en un conjunto de datos públicos, LEÓNse sabe que contiene obras protegidas por derechos de autor).
“Necesitamos asegurarnos de que cumplimos plenamente con todas las leyes relacionadas con la información de derechos de autor”, Bardoliwalla continuó. «Tenemos muy claro con los clientes que les proporcionamos modelos que pueden usar con confianza en su trabajo y que son dueños de la propiedad intelectual generada a partir de sus modelos entrenados de una manera completamente segura».
Poseer propiedad intelectual es otro asunto. En los Estados Unidos al menos, se no está claro si el arte generado por IA tiene derechos de autor.
Una solución, no al problema de la propiedad en sí, sino a las preguntas sobre los datos de capacitación con derechos de autor, permite a los artistas «optar por no participar» en la capacitación de IA por completo. La startup de inteligencia artificial Spawning está tratando de establecer estándares y herramientas en toda la industria para salir de la tecnología de inteligencia artificial generativa. Adobe busca sus propios mecanismos y herramientas de exclusión voluntaria. Lo mismo ocurre con DeviantArt, que lanzó la protección basada en etiquetas HTML en noviembre para evitar que los robots de software rastreen las páginas en busca de imágenes.
Google no ofrece una opción de exclusión voluntaria. (Para ser justos, tampoco lo es uno de sus principales rivales, OpenAI). Bardoliwalla no dijo si eso podría cambiar en el futuro, solo que Google es «demasiado preocupado» para asegurarse de que entrena modelos a seguir de una manera «ética y responsable».
Eso es un poco rico, creo, viniendo de una empresa que cancelado un comité de ética externo sobre IA, expulsó a destacados investigadores de ética de IA y está acortar publicar investigaciones sobre IA para «competir y mantener el conocimiento interno». pero interpreta las palabras de Bardoliwalla como desees.
yo tambien pregunte Bardoliwalla sobre los pasos que toma Google, si los hay, para limitar la cantidad de contenido tóxico o sesgado creado por Imagen, otro problema con los sistemas generativos de IA. Recientemente, los investigadores de la startup de inteligencia artificial Hugging Face y la Universidad de Leipzig publicaron un herramienta demostrando que modelos como Stable Diffusion y OpenAI’s DALL-E 2 tienden a producir imágenes de personas que se ven blancas y masculinas, especialmente cuando se les pide que representen a personas en posiciones de autoridad.
Bardoliwalla preparó una respuesta más detallada para esta pregunta, diciendo que cada llamada de API a modelos generativos alojados por Vertex se evalúa en busca de «atributos de seguridad», que incluyen toxicidad, violencia y obscenidad. Vertex califica patrones en estos atributos y, para ciertas categorías, bloquea la respuesta o les da a los clientes la opción de cómo proceder, dijo Bardoliwalla.
«Tenemos una muy buena idea de nuestras propiedades de consumo del tipo de contenido que puede no ser el tipo de contenido que nuestros clientes buscan para que produzcan estos modelos generativos de IA». Él continuó. «Este es un área de inversión significativa, así como de liderazgo de mercado para Google, para garantizar que nuestros clientes puedan brindar los resultados que buscan sin dañar el valor de su marca. »
Con ese fin, Google está lanzando Reinforcement Learning from Human Feedback (RLHF) como una oferta de servicio administrado en Vertex, que dice ayudará a las organizaciones a mantener el rendimiento del modelo a lo largo del tiempo y a implementar modelos más seguros y medibles en producción. RLHF, una popular técnica de aprendizaje automático, entrena un «modelo de recompensa» directamente a partir de los comentarios humanos, como pedir a los contratistas que califiquen las respuestas de un chatbot de IA. Luego usa este modelo de recompensa para optimizar un modelo generativo de IA al estilo de Imagen.
Bardoliwalla dice que la cantidad de ajustes necesarios en RLHF dependerá del alcance del problema que un cliente está tratando de resolver. Existe cierto debate dentro de la academia sobre si RLHF sigue siendo el enfoque correcto: la startup de inteligencia artificial Anthropic, por su parte, argumenta que no lo es, en parte porque RLHF puede implicar la contratación de docenas de contratistas mal pagados que son fortaleza para evaluar el contenido extremadamente tóxico. Pero Google se siente diferente.
«Con nuestro servicio RLHF, un cliente puede elegir una modalidad y el modelo, y luego evaluar las respuestas que provienen del modelo», dijo Bardoliwalla. «Una vez que ellos al enviar esas respuestas al servicio de aprendizaje por refuerzo, ajusta el modelo para generar mejores respuestas que estén alineadas con… lo que busca una organización.
Nuevas plantillas y herramientas.
Más allá de Imagen, varios otros modelos de IA generativa ahora están disponibles para clientes selectos de Vertex, anunció Google hoy: Codey y Chirp.
Codey, la respuesta de Google al copiloto de GitHub, puede generar código en más de 20 idiomas, incluidos Go, Java, JavaScript, Python y Typescript. Codey puede sugerir las siguientes líneas según el contexto del código ingresado en un mensaje o, como ChatGPT de OpenAI, el patrón puede responder preguntas sobre depuración, documentación y conceptos de codificación de alto nivel.
En cuanto a Chirp, es un modelo de voz formado por «millones» de horas de audio que admite más de 100 idiomas y se puede usar para subtitular videos, ofrecer asistencia de voz y, en general, impulsar una variedad de tareas y aplicaciones de voz.
En un anuncio de E/S relacionado, Google presentó una vista previa de la API de incrustaciones para Vertex, que puede convertir datos de texto e imágenes en representaciones llamadas vectores que mapean relaciones semánticas específicas. Google dice que se utilizará para crear funciones de búsqueda semántica y clasificación de texto, como chatbots de preguntas y respuestas, en función de los datos de una organización, el análisis de sentimientos y la detección de anomalías.
Codey, Imagen, la API de incrustaciones para imágenes y RLHF están disponibles en Vertex AI para «probadores de confianza», dice Google. Chirp, la API de incrustaciones y Generative AI Studio, una suite para interactuar con modelos de IA e implementarlos, están disponibles en versión preliminar en Vertex para cualquier persona con una cuenta de Google Cloud.