La nueva herramienta de OpenAI intenta explicar los comportamientos del modelo de lenguaje

La nueva herramienta de OpenAI intenta explicar los comportamientos del modelo de lenguaje

A menudo se dice que los modelos de lenguaje grande (LLM) similares a ChatGPT de OpenAI son una caja negra, y ciertamente hay algo de verdad en eso. Incluso para los científicos de datos, es difícil saber por qué un modelo siempre responde de la forma en que lo hace, como si inventara hechos de la nada.

En un esfuerzo por eliminar las capas de los LLM, OpenAI está desarrollando una herramienta para identificar automáticamente qué partes de un LLM son responsables de cada uno de sus comportamientos. Los ingenieros detrás de él señalan que aún es pronto, pero el código para ejecutarlo ha sido de código abierto en GitHub desde esta mañana.

«Tratamos de [develop ways to] anticipar cuáles serán los problemas con un sistema de IA”, dijo William Saunders, líder del equipo de interpretabilidad de OpenAI, a TechCrunch en una entrevista telefónica. «Realmente queremos poder saber que podemos confiar en lo que hace el modelo y la respuesta que produce».

Con ese fin, la herramienta de OpenAI utiliza un modelo de lenguaje (irónicamente) para comprender las funciones de los componentes de otros LLM arquitectónicamente más simples, en particular, el propio GPT-2 de OpenAI.

La herramienta OpenAI intenta simular los comportamientos de las neuronas en un LLM.

¿Cómo? Primero, una breve explicación sobre LLM para el contexto. Al igual que el cerebro, están formados por «neuronas», que observan un patrón específico en el texto para influir en lo que «dice» el patrón general a continuación. Por ejemplo, ante un aviso sobre superhéroes (por ejemplo, «¿Qué superhéroes tienen los superpoderes más útiles?»), una «neurona de superhéroe de Marvel» podría aumentar la probabilidad de que el modelo nombre superhéroes específicos de las películas de Marvel.

LEER  Digibee recauda $ 60 millones para ayudar a las empresas a integrar sus aplicaciones de software

La herramienta de OpenAI aprovecha esta configuración para descomponer modelos en sus elementos individuales. Primero, la herramienta ejecuta secuencias de texto en el modelo que se está evaluando y espera casos en los que una neurona en particular se “dispare” con frecuencia. Luego «muestra» GPT-4, el último modelo de IA de generación de texto de OpenAI, estas neuronas altamente activas y GPT-4 genera una explicación. Para determinar la precisión de la explicación, la herramienta alimenta secuencias de texto GPT-4 y hace que prediga o simule el comportamiento de la neurona. Luego compara el comportamiento de la neurona simulada con el comportamiento de la neurona real.

«Al usar esta metodología, podemos esencialmente, para cada neurona, generar algún tipo de explicación preliminar en lenguaje natural de lo que está haciendo y también tener una puntuación que indique qué tan bien esa explicación coincide con el comportamiento real», Jeff Wu, quien dirige la alineación escalable de OpenAI. equipo, dijo. «Usamos GPT-4 como parte del proceso para producir explicaciones de lo que busca una neurona y luego evaluamos qué tan bien esas explicaciones coinciden con la realidad de lo que está haciendo».

LEER  EA lanzará el videojuego para un jugador Black Panther

Los investigadores pudieron generar explicaciones para las 307.200 neuronas GPT-2, que compilaron en un conjunto de datos que se publicó junto con el código de la herramienta.

Herramientas como esta podrían usarse algún día para mejorar el rendimiento de un LLM, dicen los investigadores, por ejemplo, para reducir el sesgo o la toxicidad. Pero reconocen que hay un largo camino por recorrer antes de que sea realmente útil. La herramienta confiaba en sus explicaciones para unas 1.000 de estas neuronas, una pequeña fracción del total.

Una persona cínica también podría argumentar que la herramienta es esencialmente un anuncio de GPT-4, dado que requiere que GPT-4 funcione. Otras herramientas de interpretación LLM dependen menos de las API comerciales, como DeepMind’s Rastroun compilador que traduce programas en modelos de redes neuronales.

Wu dijo que ese no es el caso, el hecho de que la herramienta use GPT-4 es meramente «incidental» y, en cambio, muestra las debilidades de GPT-4 en esta área. También dijo que no se creó con aplicaciones comerciales en mente y, en teoría, podría escalarse para usar LLM además de GPT-4.

Explicabilidad de OpenAI

La herramienta identifica las neuronas que se disparan a través de las capas del LLM.

«La mayoría de las explicaciones son bastante pobres o no explican mucho sobre el comportamiento de la neurona real», dijo Wu.Muchas neuronas, por ejemplo, se disparan de una manera en la que es muy difícil saber qué está pasando, como si se dispararan sobre cinco o seis cosas diferentes, pero no hay un patrón perceptible. . a veces hay Este un patrón notable, pero GPT-4 no puede encontrarlo.

LEER  Apple está rediseñando su aplicación de accesos directos en iOS 17 para que sea más fácil de usar

Esto sin mencionar los modelos más complejos, más nuevos y más grandes, o los modelos que pueden buscar información en la web. Pero en este segundo punto, Wu cree que navegar por la web no cambiaría mucho la mecánica subyacente de la herramienta. Simplemente podría modificarse, dice, para entender por qué las neuronas deciden hacer ciertas consultas en los motores de búsqueda o ir a sitios web particulares.

«Esperamos que esto abra una vía prometedora para abordar la interpretabilidad de una manera automatizada que otros puedan aprovechar y contribuir», dijo Wu. cómo ciertas neuronas afectan a otras neuronas».

Más contenidos sobre empresas en América Latina

Deja una respuesta