Logotipo de Iceebook Iceebook - Noticias de Ciencia, Tecnología, Economía y más

Un robot de Columbia aprende a sincronizar los labios con el habla y el canto

Un equipo de Columbia desarrolló un robot capaz de aprender movimientos labiales para hablar y cantar usando aprendizaje observacional, con resultados aún imperfectos pero prometedores.

Autor - Aldo Venuta Rodríguez

3 min lectura

Robot experimental diseñado para aprender movimientos faciales
Robot desarrollado por el equipo de Hod Lipson capaz de aprender movimientos faciales para tareas como hablar o cantar. Crédito: Jane Nisselson / Ingeniería de Columbia.

Ingenieros de la Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Columbia han presentado un robot que, según describen, es capaz de aprender a mover los labios para acompañar el habla y el canto. El avance se detalla en un estudio publicado en Science Robotics y busca abordar una de las barreras más visibles de la robótica humanoide, la dificultad de reproducir gestos faciales convincentes.

El trabajo parte de un problema conocido en interacción humano-robot. En conversaciones cara a cara, una parte importante de la atención se dirige a la boca y a los labios, y los movimientos poco naturales tienden a generar rechazo. Ese efecto se asocia con el llamado “valle inquietante”, un fenómeno por el que algo casi humano resulta extraño cuando falla en detalles sutiles.

El robot desarrollado en Columbia combina un rostro flexible con 26 motores faciales y un enfoque de aprendizaje que no depende de reglas preprogramadas. En lugar de coreografiar cada gesto, el sistema aprende asociaciones entre sonido y movimiento a partir de la observación.

El entrenamiento se construyó en dos etapas. Primero, el robot se colocó frente a un espejo para aprender cómo cambia su propia cara cuando activa distintos motores, un proceso que los autores comparan con la exploración de expresiones en la infancia. En esa fase, generó miles de gestos labiales y expresiones aleatorias y, con el tiempo, aprendió qué combinaciones producen determinadas apariencias faciales mediante un modelo de “visión a acción”.

Después, el equipo expuso al robot a horas de videos de personas hablando y cantando. Con ese material, la IA que controla el sistema pudo capturar patrones de movimiento de la boca en relación con los sonidos emitidos. Con ambos modelos, el robot traduce el audio en movimientos labiales sin necesidad de entender el significado de lo que oye.

Las pruebas incluyeron distintos sonidos, idiomas y contextos, además de canciones. El estudio reconoce que la sincronización aún está lejos de ser perfecta, y señala dificultades con fonemas explosivos como la “B” y con sonidos que implican fruncir los labios, como la “W”, aunque los autores sostienen que el desempeño puede mejorar con más práctica y datos.

Para Hod Lipson, director del Laboratorio de Máquinas Creativas de Columbia, el objetivo es que estas habilidades evolucionen con la interacción. “Cuanto más interactúe con los humanos, mejor será”, afirmó. En una línea similar, Yuhang Hu, quien lideró el trabajo durante su doctorado, plantea que la sincronización labial forma parte de una comunicación robótica más amplia y que, combinada con IA conversacional, podría reforzar la sensación de conexión en la interacción.

El equipo enmarca el avance como un paso hacia robots más eficaces en entornos donde el contacto social es central, como entretenimiento, educación, medicina o cuidado de mayores. Al mismo tiempo, los investigadores advierten que dotar a los robots de una mayor capacidad para influir en la interacción humana es una tecnología potente y que su desarrollo debería avanzar con cautela para maximizar beneficios y reducir riesgos.

Fuente: Columbia Engineering

Continúa informándote

Elon Musk durante una presentación de xAI con una imagen del espacio proyectada al fondo
Tecnología

xAI hace pública su reunión y plantea una IA que opere desde el espacio

xAI publicó su reunión interna y detalló su reorganización, cifras de crecimiento y planes para desarrollar centros de datos de IA en órbita

Centro de datos industrial con subestación eléctrica y cercas de seguridad visto desde el exterior
Tecnología

Qué son los centros de datos y cómo funcionan por dentro

Qué son los centros de datos, cómo funcionan por dentro, qué hay en sus servidores, redes y sistemas de refrigeración, y por qué consumen tanta energía en la era de la nube y la IA

Pastor preparando un sermón con portátil en una iglesia vacía
Tecnología

Chatbots religiosos y sermones con IA: la tecnología se integra en comunidades de fe

La inteligencia artificial empieza a usarse en iglesias y comunidades religiosas para preparar sermones, ofrecer orientación espiritual y crear chatbots, abriendo un debate sobre fe, ética y tecnología

Comparación visual entre video real y video generado por IA
Tecnología

Cada vez es más difícil distinguir entre videos reales y videos creados por inteligencia artificial

Los videos generados por inteligencia artificial alcanzan un realismo casi indistinguible de las grabaciones reales, lo que complica la verificación, alimenta la desinformación y erosiona la confianza digital

Logo de Google en primer plano con bandera de la Unión Europea
Tecnología

Qué implica para Google tener que abrir sus datos de búsqueda e IA a la competencia

La UE presiona a Google para compartir datos de búsqueda, Android y su IA con rivales. La medida promete más competencia, pero abre dudas sobre privacidad y seguridad.

Logo de Reddit sobre fondo tecnológico con red neuronal de inteligencia artificial
Tecnología

Reddit apuesta por la búsqueda con IA como su próximo motor de ingresos

Reddit impulsa su buscador con inteligencia artificial y lo perfila como su próxima gran fuente de ingresos, combinando respuestas generativas, comunidades y licencias de datos