Humanos superan a la inteligencia artificial en la comprensión de interacciones sociales en movimiento
Un estudio de Johns Hopkins revela que la IA aún no puede igualar la comprensión humana de interacciones sociales en escenas dinámicas
Autor - Aldo Venuta Rodríguez
3 min lectura
Aunque los modelos de inteligencia artificial han logrado grandes avances en tareas como el reconocimiento facial o la clasificación de imágenes, siguen quedándose cortos en una habilidad crucial para interactuar con humanos: interpretar correctamente las interacciones sociales en movimiento. Así lo demuestra un nuevo estudio de la Universidad Johns Hopkins, publicado el 24 de abril de 2025.
La investigación, liderada por la profesora Leyla Isik y presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje, pone en evidencia que los humanos aún superan ampliamente a los modelos de IA cuando se trata de comprender las dinámicas sociales de una escena, un requisito esencial para tecnologías como vehículos autónomos, robots asistenciales y sistemas de vigilancia inteligente.
En el experimento, los científicos compararon las respuestas de personas y más de 350 modelos de IA ante videos de tres segundos que mostraban distintos tipos de interacciones humanas. Los participantes humanos calificaron aspectos sociales clave en una escala del uno al cinco. En contraste, los modelos de IA —de lenguaje, video e imagen— no lograron predecir ni describir adecuadamente las interacciones mostradas.
“La IA necesita saber si dos personas están conversando o a punto de cruzar una calle. Pero nuestros hallazgos muestran que aún no pueden hacer eso con fiabilidad”, explicó Isik. El estudio reveló que los modelos de video fueron los menos precisos al describir la actividad social, mientras que los de lenguaje lograron mejores resultados al predecir la respuesta humana.
La coautora Kathy García, quien presentó los resultados, destacó que los modelos actuales están basados en redes neuronales inspiradas en zonas del cerebro que procesan imágenes estáticas, no en las regiones que interpretan escenas dinámicas. Esto podría estar limitando su capacidad de comprender historias visuales complejas.
El estudio sugiere que, si bien la IA ha progresado en el reconocimiento de imágenes fijas, interpretar escenas sociales requiere una arquitectura cognitiva más compleja. "Comprender relaciones y contexto en movimiento es una habilidad que la IA aún no domina", afirmó García.
Los investigadores concluyen que para lograr una verdadera inteligencia social artificial, los sistemas deben integrar capacidades similares a las del cerebro humano en lo que respecta al procesamiento de escenas dinámicas. Este hallazgo plantea nuevos desafíos y oportunidades en el diseño de futuras arquitecturas de IA que convivan con seres humanos.
Referencias: Universidad Johns Hopkins
Preguntas frecuentes
Que la IA aún no puede interpretar interacciones sociales como lo hacen los humanos.
Más de 350 modelos de IA de lenguaje, imagen y video fueron puestos a prueba.
Porque su arquitectura está basada en el procesamiento de imágenes fijas, no de contexto social.
Sugiere que la IA debe mejorar en la comprensión del comportamiento humano en movimiento.
Continúa informándote
Documentos filtrados destapan los millonarios pagos de OpenAI a Microsoft
Documentos filtrados muestran que OpenAI pagó a Microsoft más de 1.300 millones en 2024 y 2025 por uso de computación e ingresos compartidos, revelando la enorme presión financiera del negocio de la IA
WhatsApp integrará chats con apps externas en Europa para cumplir la ley de la UE
WhatsApp permitirá chatear con apps externas en Europa desde el 14 de noviembre de 2025 para cumplir la Ley de Mercados Digitales. BirdyChat y Haiket serán las primeras en integrarse
Elon Musk desmiente el informe sobre una recaudación de 15.000 millones de dólares por parte de xAI
Elon Musk negó que su empresa de inteligencia artificial xAI haya recaudado 15.000 millones de dólares, tras un informe de CNBC que valoraba la compañía en 200.000 millones
Google potencia NotebookLM con la función “Investigación Profunda” y soporte para nuevos formatos de archivo
Google amplía las capacidades de NotebookLM con la función “Investigación Profunda”, que automatiza búsquedas complejas y añade compatibilidad con documentos de Drive, Word y hojas de cálculo
Google apuesta por la energía limpia con un acuerdo solar de 15 años con TotalEnergies
Google firmó un acuerdo con TotalEnergies para recibir 1,5 TWh de energía solar en 15 años y alimentar sus centros de datos en Estados Unidos con electricidad 100% renovable
Un breve entrenamiento mejora la capacidad humana para distinguir rostros reales de los generados por IA
Investigadores del Reino Unido demostraron que un entrenamiento de solo cinco minutos puede mejorar la capacidad humana para reconocer rostros falsos creados por inteligencia artificial