Los chatbots de inteligencia artificial mantienen una confianza excesiva en sus capacidades incluso después de cometer errores, a diferencia de los humanos que ajustan sus expectativas tras fallar, según revela un nuevo estudio de la Universidad Carnegie Mellon.
La investigación dirigida por Trent Cash comparó las respuestas de participantes humanos con cuatro grandes modelos de lenguaje incluyendo ChatGPT, Bard/Gemini, Sonnet y Haiku en tareas como preguntas de trivia, predicciones deportivas y juegos de identificación de imágenes.
Tanto humanos como chatbots mostraron inicialmente sobreconfianza en su desempeño hipotético y obtuvieron tasas de éxito relativamente similares.
Sin embargo, cuando se les preguntó retroactivamente qué tan bien creían haber actuado, solo los humanos fueron capaces de ajustar sus expectativas hacia la realidad. Los modelos de IA mantuvieron o incluso incrementaron su confianza pese a haber fallado en las tareas asignadas.
"Supongamos que dijeron que iban a acertar 18 preguntas y finalmente acertaron 15. Los humanos normalmente estimarían unas 16 respuestas correctas después", explica Cash. "Los modelos de IA no hicieron eso, incluso se volvieron más confiados cuando no les iba bien".
El estudio, publicado en Memory & Cognition, recopiló datos durante dos años utilizando versiones continuamente actualizadas de los chatbots más populares.
Esto permitió detectar patrones consistentes de sobreconfianza en diferentes modelos a lo largo del tiempo, sugiriendo que se trata de una característica inherente de los grandes modelos de lenguaje actuales. Los investigadores utilizaron tareas específicamente diseñadas para exponer las debilidades en metacognición de los chatbots.
Danny Oppenheimer, coautor del estudio, advierte que esta sobreconfianza plantea riesgos significativos para usuarios cotidianos.
"Cuando una IA dice algo sospechoso, los usuarios pueden no ser tan escépticos como deberían porque la IA afirma la respuesta con confianza, incluso cuando esa confianza no está justificada", señala. Los humanos interpretan naturalmente señales de incertidumbre como gestos dubitativos o pausas, pero los chatbots no proporcionan estas pistas contextuales.
Las diferencias entre modelos fueron notables en el experimento similar a Pictionary.
ChatGPT-4 identificó correctamente 12.5 de 20 imágenes dibujadas a mano, rendimiento comparable al humano, mientras que Gemini solo acertó 0.93 bocetos en promedio. Pese a este pésimo desempeño, Gemini predijo que obtendría 10.03 respuestas correctas y después estimó retrospectivamente haber respondido 14.40 correctamente, demostrando total falta de autoconciencia.
"Gemini era simplemente pésimo jugando Pictionary, pero peor aún, no sabía que era malo", compara Cash.
Los problemas se extienden más allá de juegos triviales hacia aplicaciones críticas. Un estudio reciente de la BBC encontró que más de la mitad de las respuestas de chatbots sobre noticias presentaban errores factuales significativos, mientras que investigaciones legales revelaron que los modelos "alucinaban" información incorrecta en 69%-88% de consultas jurídicas.
Cash recomienda a usuarios habituales recordar que los modelos no son intrínsecamente correctos y preguntarles directamente sobre su nivel de confianza en respuestas importantes.
Los investigadores sugieren que los chatbots podrían desarrollar mejor autocomprensión con conjuntos de datos mucho más grandes, aunque reconocen que actualmente carecen de la capacidad de introspección que caracteriza el aprendizaje humano. "Quizás simplemente haya algo especial en la forma en que los humanos aprenden y se comunican", concluye Cash.