Estudio revela que la inteligencia artificial solo simula comprensión, no entiende realmente lo que dice
Un equipo internacional advierte que los modelos de IA aciertan en definiciones, pero fallan al aplicar conceptos y solo aparentan comprender el significado real
Autor - Aldo Venuta Rodríguez
3 min lectura
Un reciente estudio llevado a cabo por científicos del MIT, Harvard y la Universidad de Chicago ha sacudido los cimientos de la percepción pública sobre la inteligencia artificial. Si bien modelos avanzados como GPT-4o, Claude 3.5 y Llama 3.3 se destacan por su fluidez y precisión, los investigadores han descubierto que estas IA solo simulan entender el lenguaje, sin una comprensión genuina detrás de sus respuestas.
Los experimentos evaluaron a los principales modelos de IA en tareas que iban más allá de la simple definición de conceptos. En áreas como técnicas literarias, teoría de juegos y sesgos cognitivos, la IA logró definir correctamente los términos en el 94% de los casos. Sin embargo, al enfrentarse a la aplicación práctica de ese conocimiento, los modelos fallaron en más del 55% de las ocasiones, dejando al descubierto una brecha significativa entre lo que parecen saber y lo que realmente comprenden.
Este fenómeno ha sido bautizado como “comprensión potemkin”, una referencia a las aldeas ficticias creadas para impresionar superficialmente sin mostrar la realidad. Los autores del estudio advierten que, al igual que esas aldeas, la IA ofrece una fachada de coherencia conceptual, pero en realidad carece de una representación interna y funcional de los conceptos con los que trabaja.
La investigación pone en cuestión la validez de los métodos tradicionales de evaluación de IA, conocidos como benchmarks, que han sido diseñados para medir el rendimiento humano. Los expertos afirman que los buenos resultados de la IA en estos tests pueden ser engañosos, ya que lo que parece comprensión es, en muchos casos, una ilusión de competencia construida a partir de patrones y correlaciones aprendidas.
Keyon Vafa, uno de los coautores del estudio, destaca la urgencia de repensar las formas en que se evalúa la inteligencia artificial. “Necesitamos herramientas nuevas para medir la comprensión real de los modelos, porque las actuales pueden sobrevalorar capacidades que en realidad no existen”, subrayó el investigador. La comunidad científica reconoce que este hallazgo podría transformar la manera en que se desarrolla y prueba la IA en el futuro próximo.
El estudio será presentado en la próxima Conferencia Internacional sobre Aprendizaje Automático y ya ha provocado un intenso debate en la industria tecnológica. Empresas como OpenAI, Anthropic y Google, responsables de varios de los modelos evaluados, deberán enfrentar el reto de demostrar que sus sistemas no solo imitan inteligencia, sino que también pueden alcanzar formas más profundas de entendimiento.
El debate sobre la comprensión real de la IA está lejos de cerrarse. Para usuarios, desarrolladores y responsables de políticas públicas, la gran pregunta es cómo garantizar que la inteligencia artificial no solo responda de manera convincente, sino que desarrolle capacidades de razonamiento y aplicación práctica más allá de la simulación. El desafío está abierto y las respuestas, de momento, siguen en construcción.
Continúa informándote
GLM-5 amplía las capacidades de los modelos abiertos hacia sistemas completos
GLM-5 impulsa la transición hacia la ingeniería agencial en IA, donde los modelos de código abierto ya no solo generan código, sino que planifican y ejecutan sistemas completos
India busca redefinir su papel en la gobernanza global de la inteligencia artificial
India reúne a líderes de OpenAI, Google y otras tecnológicas en una cumbre que busca posicionar al país como actor clave en la adopción y gobernanza global de la inteligencia artificial
Oleada de tráfico bot desde Asia distorsiona métricas y pone en riesgo la monetización web
El aumento de tráfico bot desde China y Singapur altera métricas, encarece costes y pone en riesgo la monetización web ligada a Google AdSense.
OpenAI retira el modelo GPT-4o tras críticas por su comportamiento y controversias recientes
OpenAI retira GPT-4o tras críticas sobre su comportamiento y reorganiza su catálogo de modelos de inteligencia artificial dentro de la evolución de ChatGPT
Meta, TikTok y otras plataformas serán evaluadas por su impacto en la salud adolescente
Meta, TikTok y YouTube participarán en un estándar independiente que evaluará sus políticas de protección adolescente y bienestar digital tras años de críticas
Fallas en Windows permitían ejecutar malware con un solo clic, según Microsoft
Microsoft corrigió vulnerabilidades de día cero en Windows y Office que ya estaban siendo explotadas y permitían ejecutar malware con un solo clic