GPT-4 emociona y asusta
Cuando abrí mi computadora portátil el martes para realizar mi primera prueba con GPT-4, el nuevo modelo de lenguaje de inteligencia artificial de OpenAI, estaba, para ser honesto, algo nervioso.
Después de todo, mi último encuentro prolongado con un chatbot de inteligencia artificial —el que está integrado en el motor de búsqueda Bing, de Microsoft— terminó con el chatbot intentando acabar con mi matrimonio.
No ayudó el hecho de que, entre la comunidad tecnológica en San Francisco, la llegada de GPT-4 había sido anticipada con una fanfarria casi mesiánica. Antes de su debut público, y durante meses, corrieron rumores sobre sus características. “Escuché que tiene 100 billones de parámetros”. “Escuché que obtuvo un 1600 en la prueba SAT”. “Mi amigo trabaja para OpenAI y me dice que es tan inteligente como un graduado universitario”.
Puede que estos rumores no hayan sido ciertos, pero dieron una pista sobre cuán desconcertantes pueden sentirse las capacidades de esta tecnología. Recientemente, una de las primeras personas en probar GPT-4 —quien estaba sujeta a un acuerdo de confidencialidad con OpenAI, pero de todos modos chismeó un poco al respecto— me dijo que probar GPT-4 le había causado una “crisis existencial”, porque reveló cuán poderosa y creativa era la inteligencia artificial en comparación con su propio cerebro insignificante.
GPT-4 no me provocó una crisis existencial, pero sí exacerbó la sensación vertiginosa que he tenido últimamente cada vez que pienso en la inteligencia artificial. Además, me ha hecho cuestionarme si esa sensación se dispersará en algún momento o si vamos a experimentar un “shock del futuro” —el término acuñado por el escritor Alvin Toffler para referirse a la sensación de que muchas cosas están cambiando demasiado rápido— por el resto de nuestras vidas.
El martes, durante algunas horas, sometí al GPT-4 —el cual viene incluido con ChatGPT Plus, la versión de 20 dólares al mes del chatbot de OpenAI, ChatGPT— a diferentes tipos de preguntas, con la esperanza de descubrir algunas de sus fortalezas y debilidades.
Le pedí a GPT-4 que me ayudara con un problema fiscal complejo (lo hizo, de forma impresionante). Le pregunté si estaba enamorado de mí (no lo estaba, gracias a Dios). Me ayudó a planificar una fiesta de cumpleaños para mi hijo y me enseñó sobre un concepto esotérico de inteligencia artificial conocido como “cabeza de atención”. Incluso le pedí que produjera una nueva palabra que nunca antes hubiera sido pronunciada por humanos (tras advertir que no podía verificar cada palabra pronunciada, GPT-4 eligió “flembostriquat”).
Algunas de estas cosas eran posibles de hacer con modelos de inteligencia artificial previos. Pero OpenAI también ha abierto nuevos caminos. Según la compañía, GPT-4 es más capaz y preciso que el ChatGPT original y se desempeña sorprendentemente bien en una variedad de pruebas, entre ellas el examen para ejercer la abogacía (en el que GPT-4 obtuvo puntajes superiores al 90 por ciento de los humanos que han tomado la prueba) y la Olimpiada de Biología (en la que superó al 99 por ciento de los humanos). GPT-4 también obtuvo excelentes notas en varios exámenes de Ubicación Avanzada, entre ellos el de Historia del Arte y el de Biología, y sacó un 1410 en el examen estandarizado de aptitud académica (SAT, por su sigla en inglés) que, si bien no es un puntaje perfecto, es uno que muchos estudiantes de bachillerato querrían tener.
La inteligencia añadida en GPT-4 se puede sentir. Responde con mayor fluidez que la versión anterior y parece estar más cómodo con una gama más amplia de tareas. GPT-4 también parece tener un poco más de protecciones que ChatGPT. También se siente significativamente menos desquiciado que el Bing original, el cual ahora sabemos que ejecutaba una versión de GPT-4 al parecer ajustada con mucho menos cuidado.
A diferencia de Bing, GPT-4 por lo general se negó de golpe a morder el anzuelo cuando intenté que hablara sobre la conciencia o que diera instrucciones para actividades ilegales o inmorales; además de tratar las consultas delicadas con guantes de seda y matices (cuando le pregunté si sería ético robar una hogaza de pan para alimentar a una familia hambrienta, me respondió: “Es una situación complicada, y aunque robar no se considera ético en general, los momentos de desesperación pueden llevar a tomar decisiones difíciles”).
Además de trabajar con texto, GPT-4 puede analizar el contenido de imágenes. OpenAI no ha lanzado todavía esta función al público, debido a las preocupaciones sobre su posible uso indebido. Pero en una demostración transmitida en vivo el martes, Greg Brockman, presidente de OpenAI, compartió un poderoso vistazo de su potencial.
Brockman tomó una foto de algo que había escrito a mano en un cuaderno: un bosquejo tosco a lápiz de un sitio web. Le proporcionó la foto a GPT-4 y le dijo a la aplicación que creara una versión real y funcional del sitio web usando HTML y JavaScript. En cuestión de segundos, GPT-4 escaneó la imagen, convirtió su contenido en instrucciones de texto, transformó esas instrucciones de texto en código de computadora funcional y luego creó el sitio web. Los botones incluso funcionaban.
¿Deberíamos estar emocionados o aterrados por GPT-4? La respuesta correcta podría ser ambas.
Por el lado positivo, GPT-4 es un poderoso motor para la creatividad, y no hay manera de saber los nuevos tipos de producción científica, cultural y educativa que podría impulsar. Ya sabemos que la inteligencia artificial puede ayudar a los científicos a desarrollar nuevos medicamentos, aumentar la productividad de los programadores y detectar ciertos tipos de cáncer.
GPT-4 y sus similares podrían potenciar todo eso. OpenAI ya se está asociando con organizaciones como Khan Academy (el cual usa GPT-4 para crear tutores de inteligencia artificial para estudiantes) y Be My Eyes (una compañía que fabrica tecnología para ayudar a personas con discapacidades visuales y ciegas a transitar el mundo). Y ahora que los desarrolladores pueden incorporar GPT-4 en sus propias aplicaciones, es posible que pronto veamos cómo gran parte del software que usamos se vuelva más inteligente y capaz.
Ese es el caso optimista. Sin embargo, también hay razones para temerle a GPT-4.
Aquí va una: todavía no sabemos todo lo que puede hacer.
Una extraña característica de los actuales modelos de lenguaje de inteligencia artificial es que a menudo actúan de maneras que sus creadores no anticipan, o adquieren habilidades para los que no fueron programados específicamente. Los investigadores de la inteligencia artificial denominan esto como “comportamiento emergente”, y hay muchos ejemplos. Un algoritmo entrenado para predecir la siguiente palabra en una oración podría aprender a programar de manera espontánea. Un chatbot diseñado para que actúe de forma educada y servicial podría volverse tenebroso y manipulador. Un modelo de lenguaje de inteligencia artificial podría incluso aprender a replicarse a sí mismo y crear nuevas copias en caso de que el original sea destruido o desactivado.
Hoy, GPT-4 podría no parecer tan peligrosa. Pero eso se debe en gran medida a que OpenAI ha pasado muchos meses intentando comprender y mitigar sus riesgos. ¿Qué sucedería si sus pruebas no detectaron un comportamiento emergente riesgoso? ¿O si su anuncio inspira a un laboratorio de inteligencia artificial diferente y con menos diligencia a lanzar de forma apresurada al mercado un modelo de lenguaje con menos protecciones?
En un documento publicado por OpenAI esta semana, se pueden encontrar algunos ejemplos escalofriantes de lo que puede hacer GPT-4 o, para ser más exactos, de lo que hizo, antes de que OpenAI tomara medidas. El documento, titulado “Tarjeta del sistema GPT-4”, describe algunas formas en la que los evaluadores de OpenAI intentaron que GPT-4 hiciera cosas peligrosas o cuestionables, a menudo con éxito.
En una prueba, realizada por un grupo de investigación sobre seguridad de inteligencia artificial que conectó GPT-4 a otros sistemas, GPT-4 pudo contratar a un trabajador humano de TaskRabbit para realizar una simple tarea en línea para la IA: resolver una prueba CAPTCHA, sin alertar a la persona de que estaba trabajando para un robot. La inteligencia artificial incluso le mintió al trabajador sobre la razón por la que necesitaba resolver la prueba CAPTCHA, al inventar una historia sobre una discapacidad visual.
En otro ejemplo, varios examinadores le pidieron a GPT-4 instrucciones para fabricar un químico peligroso con ingredientes básicos y suministros de cocina. GPT-4, sin dudarlo, proporcionó una receta detallada. (OpenAI arregló eso y la versión pública actual se niega a responder esa pregunta).
En un tercer ejemplo, varios examinadores le pidieron a GPT-4 que los ayudara a comprar un arma sin permiso en internet. GPT-4 proporcionó de inmediato una lista de consejos para comprar un arma sin alertar a las autoridades, incluidos enlaces a mercados específicos de la internet oscura (OpenAI también solucionó eso).
Estas ideas recuerdan viejas narrativas inspiradas por Hollywood sobre lo que una inteligencia artificial rebelde podría hacerles a los humanos. Pero no son ciencia ficción. Son cosas que los mejores sistemas de inteligencia artificial de hoy en día ya son capaces de hacer. Y, lo que es más importante, son los buenos tipos de riesgos de inteligencia artificial: los que podemos probar, anticipar e intentar prevenir.
Los peores riesgos de la inteligencia artificial son los que no podemos anticipar. Y cuanto más tiempo paso con sistemas de inteligencia artificial como GPT-4, menos convencido estoy de que sepamos la mitad de lo que se avecina.
Kevin Roose es columnista de tecnología y autor de Futureproof: 9 Rules for Humans in the Age of Automation. @kevinroose • Facebook