Los chatbots de IA mantienen una confianza excesiva, incluso cuando cometen errores

Estudio de Carnegie Mellon revela que los modelos de lenguaje no ajustan expectativas tras fallar, manteniendo sobreconfianza peligrosa

3 min lectura

Autor - Aldo Venuta Rodríguez

Ilustración digital de un asistente virtual sonriente con icono de aprobación, rodeado de monitores con alertas y símbolos de verificación o error
Imagen ilustrativa. Créditos: Iceebook

Los chatbots de inteligencia artificial mantienen una confianza excesiva en sus capacidades incluso después de cometer errores, a diferencia de los humanos que ajustan sus expectativas tras fallar, según revela un nuevo estudio de la Universidad Carnegie Mellon.

La investigación dirigida por Trent Cash comparó las respuestas de participantes humanos con cuatro grandes modelos de lenguaje incluyendo ChatGPT, Bard/Gemini, Sonnet y Haiku en tareas como preguntas de trivia, predicciones deportivas y juegos de identificación de imágenes.

Tanto humanos como chatbots mostraron inicialmente sobreconfianza en su desempeño hipotético y obtuvieron tasas de éxito relativamente similares.

Sin embargo, cuando se les preguntó retroactivamente qué tan bien creían haber actuado, solo los humanos fueron capaces de ajustar sus expectativas hacia la realidad. Los modelos de IA mantuvieron o incluso incrementaron su confianza pese a haber fallado en las tareas asignadas.

"Supongamos que dijeron que iban a acertar 18 preguntas y finalmente acertaron 15. Los humanos normalmente estimarían unas 16 respuestas correctas después", explica Cash. "Los modelos de IA no hicieron eso, incluso se volvieron más confiados cuando no les iba bien".

El estudio, publicado en Memory & Cognition, recopiló datos durante dos años utilizando versiones continuamente actualizadas de los chatbots más populares.

Esto permitió detectar patrones consistentes de sobreconfianza en diferentes modelos a lo largo del tiempo, sugiriendo que se trata de una característica inherente de los grandes modelos de lenguaje actuales. Los investigadores utilizaron tareas específicamente diseñadas para exponer las debilidades en metacognición de los chatbots.

Danny Oppenheimer, coautor del estudio, advierte que esta sobreconfianza plantea riesgos significativos para usuarios cotidianos.

"Cuando una IA dice algo sospechoso, los usuarios pueden no ser tan escépticos como deberían porque la IA afirma la respuesta con confianza, incluso cuando esa confianza no está justificada", señala. Los humanos interpretan naturalmente señales de incertidumbre como gestos dubitativos o pausas, pero los chatbots no proporcionan estas pistas contextuales.

Las diferencias entre modelos fueron notables en el experimento similar a Pictionary.

ChatGPT-4 identificó correctamente 12.5 de 20 imágenes dibujadas a mano, rendimiento comparable al humano, mientras que Gemini solo acertó 0.93 bocetos en promedio. Pese a este pésimo desempeño, Gemini predijo que obtendría 10.03 respuestas correctas y después estimó retrospectivamente haber respondido 14.40 correctamente, demostrando total falta de autoconciencia.

"Gemini era simplemente pésimo jugando Pictionary, pero peor aún, no sabía que era malo", compara Cash.

Los problemas se extienden más allá de juegos triviales hacia aplicaciones críticas. Un estudio reciente de la BBC encontró que más de la mitad de las respuestas de chatbots sobre noticias presentaban errores factuales significativos, mientras que investigaciones legales revelaron que los modelos "alucinaban" información incorrecta en 69%-88% de consultas jurídicas.

Cash recomienda a usuarios habituales recordar que los modelos no son intrínsecamente correctos y preguntarles directamente sobre su nivel de confianza en respuestas importantes.

Los investigadores sugieren que los chatbots podrían desarrollar mejor autocomprensión con conjuntos de datos mucho más grandes, aunque reconocen que actualmente carecen de la capacidad de introspección que caracteriza el aprendizaje humano. "Quizás simplemente haya algo especial en la forma en que los humanos aprenden y se comunican", concluye Cash.

No hemos podido validar su suscripción.
Se ha realizado su suscripción.

Recibe el boletín de Iceebook

Las noticias más importantes del planeta, ciencia, espacio y tecnología, directamente en tu bandeja de entrada. Sin ruido, solo lo esencial.

Preguntas frecuentes

💬 Humanos ajustan expectativas tras errores, chatbots mantienen o incrementan confianza pese a fallar.
💬 ChatGPT, Bard/Gemini, Sonnet y Haiku durante dos años con versiones actualizadas continuamente.
💬 Gemini identificó solo 0.93 de 20 imágenes pero estimó haber acertado 14.40, mostrando total falta de autoconciencia.
💬 Preguntar directamente sobre nivel de confianza y recordar que los modelos no son intrínsecamente correctos.

Continúa informándote

Brazo robótico recuperando muestras experimentales de bioplástico LAHB a 855 metros de profundidad cerca de la isla Hatsushima, Japón
Planeta Tierra

Bioplástico japonés se degrada en aguas profundas y podría frenar la contaminación marina

LAHB pierde más del 80% de su masa tras 13 meses sumergido a 855 metros mientras plásticos convencionales permanecen intactos

Silueta de una mujer política hablando al micrófono con banderas desenfocadas
Análisis

Las mujeres en política deben esforzarse más para convencer a sus propios electores

Un estudio de Cambridge muestra que las candidatas políticas son juzgadas con mayor dureza que los hombres al alejarse de la línea de su partido

Tormenta eléctrica nocturna con múltiples rayos sobre la ciudad
Ciencia

Cada año los rayos acaban con 320 millones de árboles en todo el mundo

Estudio implementa modelo de mortalidad por rayos revelando que estos fenómenos causan 0.25 GtC de biomasa muerta anual en ecosistemas forestales globales

Satélite NISAR encapsulado en el carenado de carga útil en el Centro Espacial Satish Dhawan antes de su lanzamiento
Espacio

Todo listo para el lanzamiento del satélite NISAR de la NASA e ISRO el 30 de julio

Satélite de observación terrestre con radares duales será lanzado desde India para monitorear cambios climáticos y ecosistemas globales

Representación artística de un escudo antimisiles global que protege la Tierra desde el espacio, con redes energéticas y fondo de tecnología espacial
El Mundo

Trump explora otras opciones más allá de SpaceX para el escudo Golden Dome

Trump busca diversificar los socios del escudo antimisiles Golden Dome ante tensiones con SpaceX y Musk, considerando alternativas tecnológicas y militares

Mosquito posado sobre piel humana en vista macro
El Mundo

Crece la preocupación mundial ante la expansión del chikungunya transmitido por el mosquito Aedes

La OMS advierte sobre la propagación global del chikungunya vinculado al mosquito Aedes, con brotes recientes en Europa y África

Incendio forestal en campos de cereal cerca de Belzunce visto desde el aire
El Mundo

Incendio forestal declarado cerca de Belzunce en la comarca de Pamplona

Incendio forestal afecta zona de pinar y cereal cerca de Belzunce, sin riesgo para viviendas ni población, según SOS Navarra

Fotografía digital de minerales y polvos de tierras raras en tonos marrón, dorado y beige, mostrando texturas variadas sobre fondo oscuro
Ciencia

Nuevo filtro doméstico podría transformar el reciclaje de tierras raras y asegurar su suministro

Investigadores de UC Santa Bárbara desarrollan técnica con quelante macropa que concentra elementos de tierras raras de residuos electrónicos sin químicos tóxicos

Recreación artística de Mollisonia, un antiguo artrópodo marino que habitó los océanos hace más de 500 millones de años
Ciencia

Descubren que las arañas y escorpiones podrían haberse originado en el océano, según un fósil de 500 millones de años

Análisis de Mollisonia symmetrica revela características cerebrales arácnidas que desafían la creencia de que estos artrópodos evolucionaron exclusivamente en tierra

Incendio destruyendo una estructura de madera, con intensas llamas y humo denso
El Mundo

Bomberos de EE. UU. se ven obligados a realizar tareas de limpieza ante la falta de personal por los recortes de Trump

Servicio Forestal pierde 15% de su fuerza laboral obligando a bomberos a cubrir puestos administrativos mientras enfrentan temporada récord de incendios