Meta lanza Llama 2, un conjunto de plantillas de generación de texto más «útiles»

Meta lanza Llama 2, un conjunto de plantillas de generación de texto más «útiles»

El panorama de la IA generativa es cada día más grande.

Meta anunció hoy una nueva familia de modelos de IA, llama 2, diseñado para impulsar aplicaciones como ChatGPT de OpenAI, Bing Chat y otros chatbots modernos. Entrenado en una combinación de datos disponibles públicamente, Meta afirma que el rendimiento de Llama 2 mejora significativamente con respecto a la generación anterior de modelos Llama.

Llama 2 es la secuela de Llama, una colección de plantillas que podría generar texto y código en respuesta a indicaciones, comparable a otros sistemas similares a chatbots. Pero Llama solo estaba disponible bajo demanda; Meta ha decidido bloquear el acceso a las plantillas por temor a un mal uso. (A pesar de esta medida de precaución, Llama luego se filtró en línea y se extendió a varias comunidades de IA).

Por el contrario, Llama 2, que es gratuito para investigación y uso comercial, estará disponible para ajustes en AWS, Azure y la plataforma de alojamiento de modelos de IA de Hugging Face en forma preformada. Y será más fácil de ejecutar, dice Meta: optimizado para Windows a través de una asociación ampliada con Microsoft, así como para teléfonos inteligentes y PC que ejecutan el sistema en chip Snapdragon de Qualcomm. (Qualcomm dice que está trabajando para llevar Llama 2 a los dispositivos Snapdragon en 2024).

Entonces, ¿en qué se diferencia Llama 2 de Llama? En muchos sentidos todos destacados por Meta en un largo papel blanco.

Llama 2 está disponible en dos versiones, Llama 2 y Llama 2-Chat, la última de las cuales se ha perfeccionado para conversaciones bidireccionales. Llama 2 y Llama 2-Chat se subdividen en versiones más o menos sofisticadas: 7 mil millones de parámetros, 13 mil millones de parámetros y 70 mil millones de parámetros. («Parámetros» son las partes de un modelo aprendidas de los datos de entrenamiento y esencialmente definen la habilidad del modelo en un problema, en este caso la generación de texto).

Llama 2 se entrenó con dos millones de tokens, donde los ‘tokens’ representan texto sin formato, por ejemplo, ‘fan’, ‘heap’ y ‘tick’ para la palabra ‘fantasy’. Eso es casi el doble de llamas que han sido entrenados (1,4 billones) y, en términos generales, cuantos más tokens, mejor cuando se trata de IA generativa. El modelo de lenguaje grande (LLM) insignia actual de Google, PaLM 2, fue tendría se formó en 3,6 millones de tokens, y se especula que GPT-4 también se formó en billones de tokens.

Meta no revela las fuentes específicas de los datos de capacitación en el documento técnico, excepto que proviene de la web, principalmente en inglés, no de los propios productos o servicios de la empresa y enfatiza el texto de un «fáctico».

Me atrevería a suponer que la renuencia a revelar detalles de la capacitación tiene sus raíces no solo en razones competitivas, sino también en las controversias legales que rodean a la IA generativa. Justo hoy, miles de autores firmaron una carta instando a las empresas tecnológicas a dejar de usar su escritura para entrenar modelos de IA sin permiso ni compensación.

Pero yo divago. Meta indica que en una variedad de puntos de referencia, los modelos Llama 2 funcionan ligeramente peor que los rivales de código cerrado más destacados, GPT-4 y PaLM 2, con Llama 2 quedando significativamente por detrás de GPT-4 en programación de computadoras. Pero los revisores humanos consideran que Llama 2 es tan «útil» como ChatGPT, afirma Meta; Lama 2 respondió por igual en un conjunto de aproximadamente 4000 indicaciones diseñadas para sondear «esclavitud» y «seguridad».

metallama 2

Los modelos Llama 2 de Meta pueden responder preguntas en emoji. Créditos de la imagen: Meta

Sin embargo, tome los resultados con pinzas. Meta reconoce que sus pruebas no pueden capturar todos los escenarios del mundo real y que sus puntos de referencia pueden carecer de diversidad; en otras palabras, no cubrir suficientemente áreas como la codificación y el razonamiento humano.

Meta también admite que Llama 2, como todos los modelos generativos de IA, tiene sesgos en ciertos ejes. Por ejemplo, es probable que genere pronombres «él» a un ritmo mayor que los pronombres «ella» debido a desequilibrios en los datos de entrenamiento. Debido al texto tóxico en los datos de entrenamiento, no supera a otros modelos en los puntos de referencia de toxicidad. Y Llama 2 tiene un sesgo occidental, gracias nuevamente a los desequilibrios de datos, incluida una gran cantidad de palabras «cristianas», «católicas» y «judías».

Los modelos Llama 2-Chat superan a los modelos Llama 2 en los criterios internos de «utilidad» y toxicidad de Meta. Pero también tienden a ser demasiado cautelosos, con modelos que se desvían del lado de rechazar ciertas solicitudes o responder con demasiados detalles de seguridad.

Para ser justos, los puntos de referencia no tienen en cuenta ninguna capa adicional de seguridad que pueda aplicarse a los modelos Llama 2 alojados. Como parte de su colaboración con Microsoft, por ejemplo, Meta usa Azure AI Content Safety, un servicio diseñado para detectar contenido «inapropiado» en imágenes y texto generados por IA, para reducir la salida tóxica de Llama 2. en Azure.

Siendo así, Meta siempre se esfuerza por distanciarse de los resultados potencialmente peligrosos que involucran a Llama 2, enfatizando en el libro blanco que los usuarios de Llama 2 deben cumplir con los términos de licencia de Meta y la política de uso aceptable, además de las pautas con respecto al «desarrollo e implementación seguros».

«Creemos que el intercambio abierto de los excelentes modelos de lenguaje de hoy también respaldará el desarrollo de una IA generativa útil y más segura», escribe Meta en una publicación de blog. «No podemos esperar a ver lo que el mundo construye con Llama 2».

Sin embargo, dada la naturaleza de las plantillas de código abierto, no está claro exactamente cómo, o dónde, se pueden usar las plantillas. Con la velocidad del rayo a la que se mueve Internet, no pasará mucho tiempo antes de que lo descubramos.

Más contenidos sobre empresas en América Latina