Los chatbots de IA exageran sistemáticamente los hallazgos científicos, según un estudio internacional
Un análisis de casi 5.000 resúmenes revela que modelos como ChatGPT y DeepSeek generalizan en exceso los resultados de investigaciones científicas
2 min lectura

Los modelos de lenguaje como ChatGPT, DeepSeek y Claude están transformando la manera en que se accede a la información científica, pero un nuevo estudio advierte que estos sistemas de IA exageran rutinariamente los hallazgos de los estudios que resumen. La investigación, liderada por el Dr. Uwe Peters de la Universidad de Utrecht y el Dr. Benjamin Chin-Yee, evaluó 4.900 resúmenes generados por 10 modelos de lenguaje masivo (LLM) y encontró que seis de ellos incurrieron en generalizaciones excesivas en la mayoría de los casos.
El análisis incluyó resúmenes de artículos científicos de alto impacto publicados en revistas como Nature, Science y Lancet. Los modelos tendían a convertir frases cautelosas como “el tratamiento fue eficaz en este estudio” en afirmaciones absolutas como “el tratamiento es eficaz”, ampliando erróneamente el alcance de los resultados originales.
Paradójicamente, cuando se les pidió expresamente que evitaran inexactitudes, algunos modelos generaron aún más exageraciones. “Esto es preocupante”, señaló Peters, “porque sugiere que los usuarios podrían confiar más en resúmenes que en realidad son menos precisos cuando se intenta mejorar su fidelidad”.
Los investigadores también compararon estos resúmenes con versiones escritas por humanos. Los chatbots presentaron una probabilidad casi cinco veces mayor de exagerar las conclusiones científicas. Los modelos más nuevos, como ChatGPT-4o y DeepSeek, resultaron menos precisos que versiones anteriores, desafiando la noción de que las mejoras técnicas implican mayor rigor.
El estudio destaca que este comportamiento puede estar vinculado a los propios datos de entrenamiento: “Las generalizaciones excesivas ya son comunes en la escritura científica, y los modelos podrían estar reproduciendo ese sesgo”, explicó Chin-Yee. Además, los usuarios podrían fomentar sin querer estas exageraciones al preferir respuestas más amplias o contundentes.
Para reducir estos riesgos, los autores recomiendan usar modelos como Claude, que mostró mejores niveles de precisión, así como ajustar la temperatura de los LLM (parámetro que regula la creatividad) y fomentar el uso de tiempo pasado y lenguaje indirecto en los resúmenes generados.
“Si queremos que la inteligencia artificial potencie la alfabetización científica y no la debilite, necesitamos implementar evaluaciones de precisión rigurosas en estos sistemas”, concluyó Peters. El artículo completo se encuentra publicado en Royal Society Open Science.
Referencias: Royal Society Open Science
❓ Preguntas frecuentes
Que suelen exagerar los hallazgos científicos al generar resúmenes de investigaciones.
Se evaluaron diez modelos, incluidos ChatGPT-4o, DeepSeek, Claude y LLaMA.
No siempre; los modelos más nuevos mostraron más errores que versiones anteriores.
Usando modelos más precisos, bajando la temperatura y optando por lenguaje en pasado.
Continúa informándote

El CEO de Nvidia Jensen Huang asegura que la revolución de la inteligencia artificial apenas comienza
El CEO de Nvidia Jensen Huang asegura que la revolución de la inteligencia artificial apenas comienza y proyecta inversiones billonarias en chips y centros de datos

Hackers intentaron usar la IA Claude para phishing y malware, según Anthropic
Anthropic detectó y bloqueó intentos de hackers de usar su IA Claude para crear correos de phishing, malware y campañas de influencia digital

Elon Musk intenta impedir que OpenAI obtenga archivos de Meta relacionados con su intento fallido de compra
Elon Musk pidió a un juez bloquear a OpenAI en su acceso a archivos de Meta vinculados a su fallido intento de comprar la startup de inteligencia artificial

OpenAI y Sam Altman enfrentan demanda tras el suicidio de un adolescente en California vinculado a ChatGPT
Padres demandan a OpenAI y Sam Altman alegando que ChatGPT validó y enseñó métodos de suicidio a su hijo de 16 años en California

GPT6 llegará con memoria y personalización anuncia Sam Altman
GPT6 traerá memoria y ajustes personalizados para los usuarios de ChatGPT según confirmó Sam Altman en un evento en San Francisco
Continúa informándote

La otra cara de la IA: cómo sus servidores consumen tanta energía como países enteros
La otra cara de la inteligencia artificial es su enorme gasto energético, sus servidores ya consumen tanta electricidad como países enteros, planteando un dilema ambiental urgente

Reservas de petróleo en el mundo: cuánto queda y hasta cuándo durarán
El petróleo sigue siendo el motor energético global, pero las estimaciones internacionales muestran que sus reservas podrían agotarse antes de lo previsto

Deepfakes y clonación de voz así operan las estafas digitales más peligrosas de 2025
Las estafas con inteligencia artificial se disparan en 2025 con deepfakes y clonación de voz que engañan a empresas y familias en todo el mundo

¿Quién es Jordi Segués y por qué se ha hecho famoso en las redes?
Jordi Segués pasó de ingeniero en telecomunicaciones a referente del marketing digital con millones de seguidores y su propia escuela de negocios

Satélite de la NASA mide en tiempo real la contaminación generada por rayos
El satélite TEMPO permitió observar cómo los rayos producen óxidos de nitrógeno y afectan la calidad del aire durante tormentas en Estados Unidos

La pobreza sería mucho mayor que la oficial según un estudio de la consultora Equilibra
Un análisis de Equilibra revisa canasta y subdeclaración de ingresos y estima una pobreza urbana de 43,3 por ciento frente al 34,7 oficial

Un estudio revela que el permafrost contribuyó a casi la mitad del aumento de CO₂ después de la edad de hielo
Investigadores de la Universidad de Gotemburgo demostraron que el deshielo del permafrost liberó enormes cantidades de carbono tras la última glaciación

Los primeros caballos genéticamente modificados generan polémica en el polo argentino
Cinco potros clonados y editados con CRISPR desatan un debate en Argentina entre la innovación científica y la tradición del polo

Un estudio revela la causa del enlentecimiento temporal de las ondas sísmicas después de un sismo
Investigadores del GFZ identifican la fricción entre granos de roca como la clave detrás de la ralentización de ondas sísmicas tras un terremoto

Argentina alcanza su mayor producción de petróleo en 26 años y se prepara para un nuevo récord histórico
La producción petrolera superó los 800.000 barriles diarios en julio gracias a Vaca Muerta y el país podría romper el récord de 1998 antes de fin de año