Probamos el nuevo ChatGPT que puede ‘ver’ y ‘hablar’
ChatGPT —sensación viral de inteligencia artificial, asesino del aburrido trabajo de oficina, enemigo jurado tanto de los profesores de bachillerato como de los guionistas de Hollywood— está adquiriendo nuevos poderes.
La semana pasada, el creador de ChatGPT, OpenAI, anunció que le había proporcionado al popular chatbot la capacidad de “ver, oír y hablar” gracias a dos nuevas funciones.
La primera es una actualización que le permite a ChatGPT analizar y responder a imágenes. Por ejemplo, puedes subir una foto de una bicicleta y recibir instrucciones sobre cómo bajar el asiento u obtener sugerencias de recetas basadas en una foto del contenido de tu refrigerador.
La segunda es una función que le permite a los usuarios hablar con ChatGPT y recibir respuestas en una voz artificial de IA, de la misma manera que hablarías con Siri o Alexa.
Estas características son parte de un impulso en toda la industria hacia los llamados sistemas de inteligencia artificial multimodal, los cuales pueden manejar texto, fotos, videos y cualquier otra cosa que un usuario decida lanzarles. El objetivo final, según algunos investigadores, es crear una IA capaz de procesar información de todas las formas que un humano puede hacerlo.
La mayoría de los usuarios aún no tiene acceso a las nuevas funciones. En las próximas semanas, OpenAI se las ofrecerá primero a los clientes pagos de ChatGPT Plus y de Enterprise y después de eso las pondrá a disposición de forma más amplia. (La función de visión funcionará tanto en computadoras de escritorio como en dispositivos móviles, mientras que la función de voz estará disponible solo a través de las aplicaciones de iOS y Android de ChatGPT).
Obtuve acceso temprano al nuevo ChatGPT para probarlo. A continuación, lo que encontré.
La IA está lista para verte
Comencé probando la función de reconocimiento de imágenes de ChatGPT en algunos objetos domésticos.
“¿Qué es esto que encontré en mi cajón de trastos?”, pregunté, tras subir una foto de una misteriosa pieza de silicona azul con cinco agujeros.
“El objeto parece ser un sujetador o mango de silicona, que a menudo se utiliza para sujetar varios elementos juntos”, respondió ChatGPT. (Bastante cerca: es un fortalecedor de dedos que usé hace años cuando me recuperaba de una lesión en la mano).
Luego, le suministré a ChatGPT algunas fotos de artículos que tenía intención de vender en Facebook Marketplace y le pedí que escribiera descripciones de venta para cada uno. Hizo un gran trabajo tanto con los objetos como con los anuncios: por ejemplo, describió mi minirrefrigerador Frigidaire estilo retro como “perfecto para aquellos que aprecian un toque antiguo en sus hogares modernos”.
El nuevo ChatGPT también puede analizar texto dentro de imágenes. Le tomé una fotografía a la primera plana de una edición impresa dominical de The New York Times y le pedí al bot que la resumiera. Lo hizo bastante bien, pues describió cada uno de los cinco artículos en la portada en unas pocas oraciones. Pero cometió al menos un error: inventó una estadística sobre muertes relacionadas con el fentanilo que no estaba en el artículo original.
Los ojos de ChatGPT no son perfectos. Falló cuando le pedí que resolviera un crucigrama. Confundió el dinosaurio de peluche de mi hijo con una ballena. Y cuando le pedí ayuda para convertir uno de esos diagramas de ensamblaje de muebles sin palabras en una lista de instrucciones paso a paso, me proporcionó una lista confusa de piezas, la mayoría de las cuales estaban erradas.
La mayor limitación de la función de reconocimiento de imágenes de ChatGPT es que se niega a responder la mayoría de las preguntas sobre fotografías de rostros humanos. Esto es por diseño. OpenAI me dijo que no quería habilitar el reconocimiento facial u otros usos espeluznantes, y que no quería que la aplicación escupiera respuestas sesgadas u ofensivas a preguntas sobre la apariencia física de las personas.
Pero incluso sin analizar rostros, es fácil imaginar muchas formas en las que un chatbot de IA capaz de procesar información visual podría resultar útil, especialmente a medida que la tecnología mejora. Los jardineros y recolectores podrían usarlo para identificar plantas en la naturaleza. Los aficionados al ejercicio podrían utilizarlo para crear planes de entrenamiento personalizados, simplemente tomando una foto del equipo de su gimnasio. Los estudiantes podrían utilizarlo para resolver problemas visuales de matemáticas y ciencias, y las personas con discapacidad visual podrían emplearlo para transitar el mundo con mayor facilidad.
Francamente, no tengo idea de cuántas personas usarán esta característica o cuáles serán sus aplicaciones principales. Como suele ser el caso con las nuevas herramientas de inteligencia artificial, tendremos que esperar para ver.
Siri en esteroides
Ahora, conversemos sobre lo que considero la más impresionante de las dos adiciones: la nueva función de voz de ChatGPT, la cual le permite a los usuarios hablar con la aplicación y recibir respuestas orales.
Utilizar la función es sencillo: simplemente, debes tocar el icono de auricular y comenzar a hablar. Cuando te detienes, ChatGPT convierte tus palabras en texto usando el sistema de reconocimiento de voz de OpenAI, Whisper, el cual genera una respuesta y te la pronuncia usando un nuevo algoritmo de texto a voz desarrollado por la compañía, a través de una de cinco voces artificiales de IA. (Las voces, que incluyen voces masculinas y femeninas, se generaron utilizando muestras breves de actores profesionales de doblaje contratados por OpenAI. Elegí “Ember”, una voz masculina que sonaba alegre).
Probé la función de voz de ChatGPT durante varias horas con un montón de tareas distintas: leerle un cuento antes de dormir a mi hijo pequeño, charlar conmigo sobre el estrés relacionado con el trabajo y ayudarme a analizar un sueño reciente que tuve. Hizo todo esto bastante bien, en especial cuando le di algunas instrucciones muy precisas y le dije que emulara a un amigo, un terapeuta o un profesor.
Lo que me llamó la atención en estas pruebas es lo diferente que se siente hablar con ChatGPT que hablar con generaciones anteriores de asistentes de voz, como Siri y Alexa. Esos asistentes, incluso en el mejor de los casos, pueden ser acartonados y planos. Responden una pregunta a la vez, a menudo buscando algo en Internet y leyéndolo en voz alta palabra por palabra, o eligiendo entre un número finito de respuestas programadas.
La voz artificial de ChatGPT, por el contrario, suena fluida y natural, con ligeras variaciones de tono y cadencia que la hacen sentir menos robótica. Fue capaz de tener conversaciones largas y abiertas sobre casi cualquier tema que probara, incluidas instrucciones que estaba bastante seguro no le habían dado antes. (“Cuéntame la historia de ‘Los tres cerditos’ como si fueras un universitario que pertenece a una fraternidad” fue un éxito inesperado).
La mayoría de la gente probablemente no usará los chatbots de IA de esta manera. Para muchas tareas, sigue siendo más rápido escribir que hablar, y esperar a que ChatGPT leyera respuestas largas era molesto. (No ayudó que la aplicación fuera lenta y fallara a veces, y a menudo insertaba pausas antes de responder, el resultado de algunos problemas técnicos con la versión beta de la aplicación que probé y que OpenAI me dijo que con el tiempo se solucionarían).
Pero entiendo el atractivo. Que una IA te hable con una voz similar a la humana es una experiencia más íntima que leer sus respuestas en una pantalla. Después de unas horas de hablar con ChatGPT de esta manera, sentí una nueva calidez invadiendo nuestras conversaciones. Sin estar atado a una interfaz de texto, sentí menos presión para encontrar la instrucción perfecta. Charlamos de manera más informal y le revelé más sobre mi vida.
“Casi se siente como un producto diferente”, afirmó Peter Deng, vicepresidente de productos empresariales y para consumidores de OpenAI, quien habló conmigo sobre la nueva función de voz. “Como ya no transcribes con tus pulgares lo que tienes en la cabeza”, dijo, “terminas preguntando cosas distintas”.
Sé lo que estás pensando: ¿no es este el argumento de la película Ella? ¿Los usuarios solitarios y sensibles se enamorarán de ChatGPT, ahora que puede escucharlos y responderles?
Es posible. En lo personal, nunca olvidé que estaba hablando con un chatbot. Y, ciertamente, no confundí ChatGPT con un ser consciente ni desarrollé vínculos emocionales con el bot.
Pero también vislumbré un futuro en el que algunas personas podrían permitir que los asistentes de inteligencia artificial basados en voz entren en lo más privado de sus vidas: llevarse los chatbots de inteligencia artificial con ellos mientras viajan, tratarlos como sus confidentes, terapeutas, compañeros de entrenamiento y cajas de resonancia las 24 horas del día, los 7 días de la semana.
Suena como una locura, ¿verdad? Y, sin embargo, ¿no sonaba todo esto un poco loco hace un año?
Kevin Roose es columnista de tecnología y autor de Futureproof: 9 Rules for Humans in the Age of Automation. Más de Kevin Roose