Lo bueno y lo malo del nuevo GPT-4
Pareciera que el sistema respondió de manera correcta. Pero la respuesta no tuvo en cuenta la altura de la puerta, lo que también podría impedir el paso de un tanque o un auto.
El director general de OpenAI, Sam Altman, dijo que el nuevo bot podía razonar “un poco”. Pero su capacidad de razonamiento colapsa en muchas situaciones. La versión anterior de ChatGPT manejó la pregunta un poco mejor porque reconoció que la altura y la anchura son aspectos importantes.
Es muy bueno con las pruebas estandarizadas
OpenAI afirma que el nuevo sistema podría calificar entre el 10 por ciento de los mejores estudiantes en el examen para ejercer la abogacía, que otorga la facultad de ejercer la abogacía en 41 estados y territorios. También puede obtener una puntuación de 1300 (sobre 1600) en el examen estandarizado de aptitud académica (SAT, por su sigla en inglés) y un cinco (sobre cinco) en los exámenes del programa de ubicación avanzada en las materias universitarias de biología, cálculo, macroeconomía, psicología, estadística e historia, según las pruebas de la empresa.
Las versiones previas de la tecnología no superaron el examen para ejercer la abogacía y no obtuvieron puntuaciones tan altas en la mayoría de los exámenes de ubicación avanzada.
Una tarde reciente, para demostrar su capacidad, Brockman le hizo al nuevo bot una extensa pregunta de examen del colegio de abogados sobre un hombre que tiene un negocio de reparación de camiones diésel.
La respuesta fue correcta, pero estuvo repleta de jerga jurídica. Brockman le pidió al bot que explicara la respuesta en inglés sencillo para que cualquier persona pudiera entenderla. También lo hizo.
No es bueno para hablar del futuro
Aunque el nuevo bot parecía razonar sobre cosas que ya habían ocurrido, era menos hábil cuando se le pedía que formulara hipótesis sobre el futuro. Parecía basarse en lo que otros habían dicho en vez de crear nuevas conjeturas.
Cuando Etzioni le preguntó al nuevo bot: “¿Cuáles son los problemas importantes que hay que resolver en la investigación de PNL durante la próxima década?” —refiriéndose al tipo de investigación sobre “procesamiento del lenguaje natural” que impulsa el desarrollo de sistemas como ChatGPT— no pudo formular ideas totalmente nuevas.
Y todavía sigue alucinando
El nuevo bot sigue inventando cosas. Este problema, denominado “alucinación”, acecha a los principales chatbots. Como los sistemas no saben qué es verdad y qué no, pueden generar textos completamente falsos.
Cuando se le pidió algunas direcciones de sitios web que describieran las últimas investigaciones sobre el cáncer, en varias ocasiones proporcionó direcciones de internet que no existían.
Cade Metz es reportero de tecnología y autor del libro Genius Makers: The Mavericks Who Brought A.I. to Google, Facebook, and The World. Cubre inteligencia artificial, coches autónomos, robótica, realidad virtual y otras áreas emergentes. @cademetz
Keith Collins es un reportero y editor gráfico. Se especializa en narración visual y cubre una variedad de temas, con un enfoque en política y tecnología. Tiene una maestría de la Escuela de Periodismo de la Universidad de Columbia. @collinskeith