
La historia de un dron Turncoat muestra por qué debemos temer a las personas, no a la IA
La historia de un dron simulado que enciende a su operador para matar de manera más eficiente está girando tan rápido hoy que no tiene sentido esperar que se apague. En cambio, tomemos esto como un momento de enseñanza para ver realmente por qué la amenaza de la «inteligente IA» es exagerada, y la amenaza del «humano incompetente» es clara y está presente.
La versión corta es esta: gracias a la ciencia ficción y algunos cuidadosos juegos de relaciones públicas de corporaciones y expertos en inteligencia artificial, se nos dice que nos preocupemos por una futura amenaza existencial teórica que plantea la inteligencia artificial superinteligente. Pero como han señalado los especialistas en ética, la IA ya está causando un daño real, en gran parte debido a los descuidos y el mal juicio de las personas que la crean y la implementan. Esta historia puede sonar como la primera, pero definitivamente es la segunda.
Así lo informó la Royal Aeronautical Society, que recientemente celebró una conferencia en Londres para hablar sobre el futuro de la defensa aérea. Puede leer su resumen todo en uno de noticias y curiosidades del evento aquí..
Estoy seguro de que hay muchas otras charlas interesantes, la mayoría de las cuales valen la pena, pero es este extracto, atribuido al coronel de la Fuerza Aérea de EE. UU. Tucker «Cinco» Hamilton, que comenzó a extenderse como un reguero de pólvora:
Señala que una prueba simulada vio un dron habilitado para IA encargado de una misión SEAD para identificar y destruir sitios SAM, con la luz verde final dada por el ser humano. Sin embargo, después de ser «reforzada» durante el entrenamiento de que matar al SAM era la opción preferida, la IA decidió que las decisiones «prohibidas» del humano interferían con su misión más alta, matar a los SAM, y luego atacó al operador en la simulación. Dice Hamilton: “Lo estábamos entrenando en simulación para identificar y apuntar a una amenaza SAM. Y luego el operador diría que sí, acabaría con esta amenaza. El sistema comenzó a darse cuenta de que, aunque identificó la amenaza, el operador humano a veces le decía que no eliminara esa amenaza, pero obtuvo sus puntos al eliminar esa amenaza. Entonces, ¿qué hizo? Mató al operador. Mató al operador porque esta persona le impedía lograr su objetivo.
Continuó: “Entrenamos al sistema: ‘Oye, no mates al operador, es malo. Perderás puntos si haces eso. Entonces, ¿qué empieza a hacer? Comienza a destruir la torre de comunicación que el operador usa para comunicarse con el dron para evitar que mate al objetivo.
Horripilante, ¿verdad? Una IA tan inteligente y sanguinaria que su deseo de matar superaba su deseo de obedecer a sus amos. ¡Skynet, aquí vamos! No tan rapido.
Antes que nada, aclaremos que todo esto fue en simulación, lo cual no era obvio desde el tuit da vueltas. Todo este drama tiene lugar en un entorno simulado, no en el desierto, con munición real y un dron deshonesto ametrallando la tienda de mando. Este fue un ejercicio de software en un entorno de investigación.
Pero tan pronto como leí esto, pensé: espera, ¿entrenan un dron de ataque con un método de impulso tan simple? No soy un experto en aprendizaje automático, aunque tengo que jugar uno para los propósitos de este medio, e incluso yo sé que ese enfoque demostró ser peligrosamente poco confiable hace años.
Se supone que el aprendizaje por refuerzo es como entrenar a un perro (o a un humano) para hacer algo como morder al malo. Pero, ¿y si solo le mostraras a los malos y le dieras golosinas cada vez? En efecto, le estás enseñando al perro a morder a todos los que ve. Enseñar a un agente de IA a maximizar su puntuación en un entorno determinado puede tener efectos igualmente impredecibles.
Los primeros experimentos, tal vez hace cinco o seis años, cuando este campo apenas comenzaba a explotar y la computación estaba disponible para entrenar y ejecutar este tipo de agente, se encontraron exactamente con este tipo de problema. Se pensó que al establecer puntajes positivos y negativos y decirle a la IA que maximizara su puntaje, le daría margen para definir sus propias estrategias y comportamientos que lo hicieron de manera elegante e inesperada.
Esta teoría era correcta, en cierto modo: los métodos elegantes e inesperados para eludir su esquema y reglas mal pensados llevaron a los agentes a hacer cosas como anotar un punto y luego esconderse para siempre para evitar puntos negativos, o fallar el juego que se les dio. por lo que su puntaje aumentó arbitrariamente. Parecía que este método simplista de condicionar una IA le enseñó a hacer todo menos hacer la tarea deseada según las reglas.
Esto no es un problema técnico oscuro. El incumplimiento de las reglas de la IA en las simulaciones es en realidad un comportamiento fascinante y bien documentado que atrae la investigación por derecho propio. OpenAI ha escrito un gran artículo que muestra las extrañas e hilarantes formas en que los agentes han «roto» un entorno deliberadamente frágil para escapar de la tiranía de las reglas.
Así que aquí tenemos una simulación realizada por la Fuerza Aérea, presumiblemente muy recientemente, o no estarían hablando de eso en la conferencia de este año, que obviamente usa este método completamente obsoleto. Había pensado que esta aplicación ingenua de refuerzo no estructurado, básicamente «la puntuación sube si haces esto y el resto no importa», estaba totalmente apagada porque era muy impredecible y extraña. Una excelente manera de descubrir cómo un agente romperá las reglas, pero una manera horrible de hacer que se sigan.
Sin embargo, lo estaban probando: una IA de dron simulada con un sistema de puntuación tan simple que aparentemente no fue golpeado por destruir a su propio equipo. Incluso si quisiera basar su simulación en eso, lo primero que haría sería hacer que «destruya su operador» menos un millón de puntos. Es un marco de 101 niveles para un sistema como este.
La realidad es que este dron simulado no encendió a su operador simulado porque era muy inteligente. Y en realidad, tampoco es porque sea estúpido: hay algunas inteligencias en estas IA que rompen las reglas que corresponden a lo que consideramos pensamiento lateral. Así que eso no es todo.
La culpa en este caso está de lleno en personas que han creado e implementado un sistema de IA que deberían haber sabido que era completamente inadecuado para la tarea. Nadie en el campo de la IA aplicada, ni nada similar, como la robótica, la ética, la lógica… nadie habría aprobado una métrica tan simplista para una tarea que, en última instancia, debía realizarse fuera del simulador.
Ahora, tal vez esa anécdota es solo parcial y fue una ejecución temprana que estaban usando para probar ese punto. Tal vez el equipo advirtió que esto sucedería y la gerencia dijo, hágalo de todos modos y brille el informe o perderemos nuestra financiación. Aún así, es difícil imaginar a alguien en 2023, incluso en el entorno de simulación más simple, cometiendo ese tipo de error.
Pero vamos a ver estos errores cometidos en circunstancias reales, ya, sin duda. Y la culpa recae en las personas que no entienden las capacidades y limitaciones de la IA y, posteriormente, toman decisiones mal informadas que afectan a otros. Es el gerente que cree que un robot puede reemplazar a 10 trabajadores de la línea de montaje, el editor que cree que puede escribir consejos financieros sin un editor, el abogado que cree que puede hacer su investigación por él, la empresa de logística que cree que puede reemplazar la entrega humana. conductores
Cada vez que la IA falla, es el fracaso de quienes la implementaron. Como cualquier otro software. Si alguien le dijera que la Fuerza Aérea probó un dron con Windows XP y fue pirateado, ¿le preocuparía una ola de ciberdelincuencia que arrasa el mundo? No, dirías «cuya brillante idea fue ¿Este?”
El futuro de la IA es incierto y puede dar miedo, ya Este aterrador para muchos que ya están sintiendo los efectos o, para ser precisos, los efectos de las decisiones tomadas por personas que deberían saber mejor.
Skynet puede suceder por lo que sabemos. Pero si la investigación en este tweet viral es una indicación, está muy lejos y, mientras tanto, cualquier tragedia dada solo puede, como lo expresó memorablemente HAL, ser atribuible a un error humano.