Publicidad

Los chatbots de IA exageran sistemáticamente los hallazgos científicos, según un estudio internacional

Un análisis de casi 5.000 resúmenes revela que modelos como ChatGPT y DeepSeek generalizan en exceso los resultados de investigaciones científicas

Grupos de personas intercambiando información representada por figuras y una página central con datos en líneas rectas
Ilustración sobre la circulación de datos e información entre grupos sociales y una página central. Crédito: Yasmine Boudiaf y LOTI / betterimagesofai.org / CC BY 4.0.

Los modelos de lenguaje como ChatGPT, DeepSeek y Claude están transformando la manera en que se accede a la información científica, pero un nuevo estudio advierte que estos sistemas de IA exageran rutinariamente los hallazgos de los estudios que resumen. La investigación, liderada por el Dr. Uwe Peters de la Universidad de Utrecht y el Dr. Benjamin Chin-Yee, evaluó 4.900 resúmenes generados por 10 modelos de lenguaje masivo (LLM) y encontró que seis de ellos incurrieron en generalizaciones excesivas en la mayoría de los casos.

El análisis incluyó resúmenes de artículos científicos de alto impacto publicados en revistas como Nature, Science y Lancet. Los modelos tendían a convertir frases cautelosas como “el tratamiento fue eficaz en este estudio” en afirmaciones absolutas como “el tratamiento es eficaz”, ampliando erróneamente el alcance de los resultados originales.

Paradójicamente, cuando se les pidió expresamente que evitaran inexactitudes, algunos modelos generaron aún más exageraciones. “Esto es preocupante”, señaló Peters, “porque sugiere que los usuarios podrían confiar más en resúmenes que en realidad son menos precisos cuando se intenta mejorar su fidelidad”.

Los investigadores también compararon estos resúmenes con versiones escritas por humanos. Los chatbots presentaron una probabilidad casi cinco veces mayor de exagerar las conclusiones científicas. Los modelos más nuevos, como ChatGPT-4o y DeepSeek, resultaron menos precisos que versiones anteriores, desafiando la noción de que las mejoras técnicas implican mayor rigor.

Publicidad

El estudio destaca que este comportamiento puede estar vinculado a los propios datos de entrenamiento: “Las generalizaciones excesivas ya son comunes en la escritura científica, y los modelos podrían estar reproduciendo ese sesgo”, explicó Chin-Yee. Además, los usuarios podrían fomentar sin querer estas exageraciones al preferir respuestas más amplias o contundentes.

Para reducir estos riesgos, los autores recomiendan usar modelos como Claude, que mostró mejores niveles de precisión, así como ajustar la temperatura de los LLM (parámetro que regula la creatividad) y fomentar el uso de tiempo pasado y lenguaje indirecto en los resúmenes generados.

“Si queremos que la inteligencia artificial potencie la alfabetización científica y no la debilite, necesitamos implementar evaluaciones de precisión rigurosas en estos sistemas”, concluyó Peters. El artículo completo se encuentra publicado en Royal Society Open Science.

Referencias: Royal Society Open Science

Publicidad

❓ Preguntas frecuentes

Que suelen exagerar los hallazgos científicos al generar resúmenes de investigaciones.

Se evaluaron diez modelos, incluidos ChatGPT-4o, DeepSeek, Claude y LLaMA.

No siempre; los modelos más nuevos mostraron más errores que versiones anteriores.

Usando modelos más precisos, bajando la temperatura y optando por lenguaje en pasado.

Continúa informándote

Ilustración digital que contrasta la inteligencia artificial con su alto consumo de energía y el impacto ambiental de las plantas eléctricas
Tecnología

La otra cara de la IA: cómo sus servidores consumen tanta energía como países enteros

La otra cara de la inteligencia artificial es su enorme gasto energético, sus servidores ya consumen tanta electricidad como países enteros, planteando un dilema ambiental urgente

Bomba extractora de petróleo en operación en un campo de producción
Energía

Reservas de petróleo en el mundo: cuánto queda y hasta cuándo durarán

El petróleo sigue siendo el motor energético global, pero las estimaciones internacionales muestran que sus reservas podrían agotarse antes de lo previsto

Persona con sudadera y capucha puesta, vista de lado e inclinada, trabajando en una laptop en un ambiente oscuro
Tecnología

Deepfakes y clonación de voz así operan las estafas digitales más peligrosas de 2025

Las estafas con inteligencia artificial se disparan en 2025 con deepfakes y clonación de voz que engañan a empresas y familias en todo el mundo

Jordi Segués durante una grabación para su canal de YouTube sobre negocios y desarrollo personal
El Mundo

¿Quién es Jordi Segués y por qué se ha hecho famoso en las redes?

Jordi Segués pasó de ingeniero en telecomunicaciones a referente del marketing digital con millones de seguidores y su propia escuela de negocios

Rayos iluminando el cielo nocturno durante una tormenta eléctrica que genera contaminación por óxidos de nitrógeno medida por la NASA
Ciencia

Satélite de la NASA mide en tiempo real la contaminación generada por rayos

El satélite TEMPO permitió observar cómo los rayos producen óxidos de nitrógeno y afectan la calidad del aire durante tormentas en Estados Unidos

Persona sin hogar durmiendo en la calle junto a una caja y vasos de cartón, símbolo de la pobreza urbana.
El Mundo

La pobreza sería mucho mayor que la oficial según un estudio de la consultora Equilibra

Un análisis de Equilibra revisa canasta y subdeclaración de ingresos y estima una pobreza urbana de 43,3 por ciento frente al 34,7 oficial

Descongelación del permafrost en la isla Herschel en Canadá
Ciencia

Un estudio revela que el permafrost contribuyó a casi la mitad del aumento de CO₂ después de la edad de hielo

Investigadores de la Universidad de Gotemburgo demostraron que el deshielo del permafrost liberó enormes cantidades de carbono tras la última glaciación

Primer plano del ojo de un caballo de pelaje gris moteado con fondo azul cielo.
El Mundo

Los primeros caballos genéticamente modificados generan polémica en el polo argentino

Cinco potros clonados y editados con CRISPR desatan un debate en Argentina entre la innovación científica y la tradición del polo

Ilustración científica de ondas sísmicas atravesando capas de roca, mostrando cómo la fricción entre granos ralentiza su propagación tras un terremoto
Ciencia

Un estudio revela la causa del enlentecimiento temporal de las ondas sísmicas después de un sismo

Investigadores del GFZ identifican la fricción entre granos de roca como la clave detrás de la ralentización de ondas sísmicas tras un terremoto

Bandera de Argentina de fondo con siluetas negras de torres y bombas petroleras y una gráfica en ascenso que simboliza récord de producción de petróleo en Vaca Muerta
Energía

Argentina alcanza su mayor producción de petróleo en 26 años y se prepara para un nuevo récord histórico

La producción petrolera superó los 800.000 barriles diarios en julio gracias a Vaca Muerta y el país podría romper el récord de 1998 antes de fin de año