Humanos superan a la inteligencia artificial en la comprensión de interacciones sociales en movimiento

Un estudio de Johns Hopkins revela que la IA aún no puede igualar la comprensión humana de interacciones sociales en escenas dinámicas

Autor - Aldo Venuta Rodríguez

3 min lectura

Comparativa visual entre percepción humana y análisis de modelos de IA ante escenas sociales dinámicas.
Ilustración conceptual que muestra cómo los humanos superan a los modelos de IA al interpretar interacciones sociales dinámicas, según un estudio de Johns Hopkins.

Aunque los modelos de inteligencia artificial han logrado grandes avances en tareas como el reconocimiento facial o la clasificación de imágenes, siguen quedándose cortos en una habilidad crucial para interactuar con humanos: interpretar correctamente las interacciones sociales en movimiento. Así lo demuestra un nuevo estudio de la Universidad Johns Hopkins, publicado el 24 de abril de 2025.

La investigación, liderada por la profesora Leyla Isik y presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje, pone en evidencia que los humanos aún superan ampliamente a los modelos de IA cuando se trata de comprender las dinámicas sociales de una escena, un requisito esencial para tecnologías como vehículos autónomos, robots asistenciales y sistemas de vigilancia inteligente.

En el experimento, los científicos compararon las respuestas de personas y más de 350 modelos de IA ante videos de tres segundos que mostraban distintos tipos de interacciones humanas. Los participantes humanos calificaron aspectos sociales clave en una escala del uno al cinco. En contraste, los modelos de IA —de lenguaje, video e imagen— no lograron predecir ni describir adecuadamente las interacciones mostradas.

“La IA necesita saber si dos personas están conversando o a punto de cruzar una calle. Pero nuestros hallazgos muestran que aún no pueden hacer eso con fiabilidad”, explicó Isik. El estudio reveló que los modelos de video fueron los menos precisos al describir la actividad social, mientras que los de lenguaje lograron mejores resultados al predecir la respuesta humana.

Publicidad

La coautora Kathy García, quien presentó los resultados, destacó que los modelos actuales están basados en redes neuronales inspiradas en zonas del cerebro que procesan imágenes estáticas, no en las regiones que interpretan escenas dinámicas. Esto podría estar limitando su capacidad de comprender historias visuales complejas.

El estudio sugiere que, si bien la IA ha progresado en el reconocimiento de imágenes fijas, interpretar escenas sociales requiere una arquitectura cognitiva más compleja. "Comprender relaciones y contexto en movimiento es una habilidad que la IA aún no domina", afirmó García.

Los investigadores concluyen que para lograr una verdadera inteligencia social artificial, los sistemas deben integrar capacidades similares a las del cerebro humano en lo que respecta al procesamiento de escenas dinámicas. Este hallazgo plantea nuevos desafíos y oportunidades en el diseño de futuras arquitecturas de IA que convivan con seres humanos.

Referencias: Universidad Johns Hopkins

Publicidad

Continúa informándote

Mano robótica metálica extendida hacia adelante, iluminada con tonos azules y púrpuras sobre un fondo oscuro con luces sutiles
Tecnología

Preguntar a la IA si es sexista no sirve: la evidencia está en su comportamiento

Los sesgos de la IA no se revelan cuando se le pregunta por ellos, sino cuando actúa. Casos recientes muestran cómo los modelos reproducen prejuicios aprendidos sin admitirlo

Logotipo de Google Maps sobre un fondo ilustrado con casas, árboles y montañas
Tecnología

Google Maps: qué es, cómo funciona y por qué se ha convertido en la app de mapas más usada del mundo

Google Maps combina satélites, tráfico en tiempo real, IA y datos de millones de usuarios para ofrecer rutas precisas y mapas detallados en prácticamente cualquier lugar del mundo

Chimeneas industriales con humo oscuro frente a paneles solares y turbinas eólicas iluminados por luz cálida
Tecnología

COP30 tropieza: grandes promesas verdes, pero ningún avance real para abandonar los combustibles fósiles

La COP30 cerró con acuerdos en renovables, redes y metano, pero sin una hoja de ruta para dejar atrás los combustibles fósiles debido al bloqueo de los petroestados

Un dron sobrevuela la Reserva Nacional de Samburu durante labores de monitoreo de fauna
Tecnología

Así están ayudando los drones a monitorear elefantes de forma segura y no invasiva

Un estudio revela que los elefantes pueden habituarse a los drones, lo que permite monitorearlos sin causar estrés y abre nuevas posibilidades para la conservación y el estudio de su comportamiento

Bill Gates en una conferencia
Tecnología

Bill Gates asegura que los celulares están llegando a su fin y revela la tecnología que podría reemplazarlos

Bill Gates advirtió que los celulares podrían dejar de ser el centro de la vida digital y señaló qué tipo de tecnología podría sustituirlos en el futuro cercano

Nueva interfaz de Google Maps mostrando una ruta con indicaciones y búsqueda asistida por IA en un smartphone
Tecnología

Google Maps integra Gemini: nuevas funciones de IA y cómo activarlas en tu móvil

Google Maps empieza a integrar Gemini como asistente de voz: más funciones, respuestas naturales y nuevas formas de pedir rutas, información y acciones sin tocar la pantalla