Tecnología
Publicado:

Un robot de Columbia aprende a sincronizar los labios con el habla y el canto

Un equipo de Columbia desarrolló un robot capaz de aprender movimientos labiales para hablar y cantar usando aprendizaje observacional, con resultados aún imperfectos pero prometedores.

3 min lectura
Robot experimental diseñado para aprender movimientos faciales
Robot desarrollado por el equipo de Hod Lipson capaz de aprender movimientos faciales para tareas como hablar o cantar. Crédito: Jane Nisselson / Ingeniería de Columbia.

Ingenieros de la Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Columbia han presentado un robot que, según describen, es capaz de aprender a mover los labios para acompañar el habla y el canto. El avance se detalla en un estudio publicado en Science Robotics y busca abordar una de las barreras más visibles de la robótica humanoide, la dificultad de reproducir gestos faciales convincentes.

El trabajo parte de un problema conocido en interacción humano-robot. En conversaciones cara a cara, una parte importante de la atención se dirige a la boca y a los labios, y los movimientos poco naturales tienden a generar rechazo. Ese efecto se asocia con el llamado “valle inquietante”, un fenómeno por el que algo casi humano resulta extraño cuando falla en detalles sutiles.

El robot desarrollado en Columbia combina un rostro flexible con 26 motores faciales y un enfoque de aprendizaje que no depende de reglas preprogramadas. En lugar de coreografiar cada gesto, el sistema aprende asociaciones entre sonido y movimiento a partir de la observación.

El entrenamiento se construyó en dos etapas. Primero, el robot se colocó frente a un espejo para aprender cómo cambia su propia cara cuando activa distintos motores, un proceso que los autores comparan con la exploración de expresiones en la infancia. En esa fase, generó miles de gestos labiales y expresiones aleatorias y, con el tiempo, aprendió qué combinaciones producen determinadas apariencias faciales mediante un modelo de “visión a acción”.

Después, el equipo expuso al robot a horas de videos de personas hablando y cantando. Con ese material, la IA que controla el sistema pudo capturar patrones de movimiento de la boca en relación con los sonidos emitidos. Con ambos modelos, el robot traduce el audio en movimientos labiales sin necesidad de entender el significado de lo que oye.

Las pruebas incluyeron distintos sonidos, idiomas y contextos, además de canciones. El estudio reconoce que la sincronización aún está lejos de ser perfecta, y señala dificultades con fonemas explosivos como la “B” y con sonidos que implican fruncir los labios, como la “W”, aunque los autores sostienen que el desempeño puede mejorar con más práctica y datos.

Para Hod Lipson, director del Laboratorio de Máquinas Creativas de Columbia, el objetivo es que estas habilidades evolucionen con la interacción. “Cuanto más interactúe con los humanos, mejor será”, afirmó. En una línea similar, Yuhang Hu, quien lideró el trabajo durante su doctorado, plantea que la sincronización labial forma parte de una comunicación robótica más amplia y que, combinada con IA conversacional, podría reforzar la sensación de conexión en la interacción.

El equipo enmarca el avance como un paso hacia robots más eficaces en entornos donde el contacto social es central, como entretenimiento, educación, medicina o cuidado de mayores. Al mismo tiempo, los investigadores advierten que dotar a los robots de una mayor capacidad para influir en la interacción humana es una tecnología potente y que su desarrollo debería avanzar con cautela para maximizar beneficios y reducir riesgos.

Fuente: Columbia Engineering

Compartir artículo

Continúa informándote