Un robot de Columbia aprende a sincronizar los labios con el habla y el canto
Un equipo de Columbia desarrolló un robot capaz de aprender movimientos labiales para hablar y cantar usando aprendizaje observacional, con resultados aún imperfectos pero prometedores.
Autor - Aldo Venuta Rodríguez
3 min lectura
Ingenieros de la Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Columbia han presentado un robot que, según describen, es capaz de aprender a mover los labios para acompañar el habla y el canto. El avance se detalla en un estudio publicado en Science Robotics y busca abordar una de las barreras más visibles de la robótica humanoide, la dificultad de reproducir gestos faciales convincentes.
El trabajo parte de un problema conocido en interacción humano-robot. En conversaciones cara a cara, una parte importante de la atención se dirige a la boca y a los labios, y los movimientos poco naturales tienden a generar rechazo. Ese efecto se asocia con el llamado “valle inquietante”, un fenómeno por el que algo casi humano resulta extraño cuando falla en detalles sutiles.
El robot desarrollado en Columbia combina un rostro flexible con 26 motores faciales y un enfoque de aprendizaje que no depende de reglas preprogramadas. En lugar de coreografiar cada gesto, el sistema aprende asociaciones entre sonido y movimiento a partir de la observación.
El entrenamiento se construyó en dos etapas. Primero, el robot se colocó frente a un espejo para aprender cómo cambia su propia cara cuando activa distintos motores, un proceso que los autores comparan con la exploración de expresiones en la infancia. En esa fase, generó miles de gestos labiales y expresiones aleatorias y, con el tiempo, aprendió qué combinaciones producen determinadas apariencias faciales mediante un modelo de “visión a acción”.
Después, el equipo expuso al robot a horas de videos de personas hablando y cantando. Con ese material, la IA que controla el sistema pudo capturar patrones de movimiento de la boca en relación con los sonidos emitidos. Con ambos modelos, el robot traduce el audio en movimientos labiales sin necesidad de entender el significado de lo que oye.
Las pruebas incluyeron distintos sonidos, idiomas y contextos, además de canciones. El estudio reconoce que la sincronización aún está lejos de ser perfecta, y señala dificultades con fonemas explosivos como la “B” y con sonidos que implican fruncir los labios, como la “W”, aunque los autores sostienen que el desempeño puede mejorar con más práctica y datos.
Para Hod Lipson, director del Laboratorio de Máquinas Creativas de Columbia, el objetivo es que estas habilidades evolucionen con la interacción. “Cuanto más interactúe con los humanos, mejor será”, afirmó. En una línea similar, Yuhang Hu, quien lideró el trabajo durante su doctorado, plantea que la sincronización labial forma parte de una comunicación robótica más amplia y que, combinada con IA conversacional, podría reforzar la sensación de conexión en la interacción.
El equipo enmarca el avance como un paso hacia robots más eficaces en entornos donde el contacto social es central, como entretenimiento, educación, medicina o cuidado de mayores. Al mismo tiempo, los investigadores advierten que dotar a los robots de una mayor capacidad para influir en la interacción humana es una tecnología potente y que su desarrollo debería avanzar con cautela para maximizar beneficios y reducir riesgos.
Fuente: Columbia Engineering
Continúa informándote
¿La IA acabará con la ingeniería de software o la transformará en un trabajo más editorial?
La IA acelera la escritura de código, pero no sustituye la ingeniería de software: transforma el trabajo en una tarea más editorial, centrada en diseño, revisión y seguridad.
Por qué la tecnología moderna no entiende de fronteras
La tecnología moderna depende de cadenas globales de conocimiento recursos y talento que hacen inviable la autosuficiencia nacional en innovación
Google activa la “Inteligencia Personal” en Gemini y abre una nueva etapa para los asistentes de IA
Google activa la “Inteligencia Personal” en Gemini, permitiendo a la IA usar correos, fotos y documentos para respuestas más contextualizadas
Cómo la inteligencia artificial está cambiando el poder informativo sin que casi nadie lo note
La inteligencia artificial está reordenando el poder informativo al decidir qué contenidos se ven y cuáles desaparecen sin un debate público visible
Quién controla los materiales estratégicos que mueven la tecnología actual
El control de litio cobalto y tierras raras está concentrado en pocos países y define hoy el poder real detrás de la tecnología digital y la transición energética
Apple lidera el mercado global de smartphones en 2025
Apple encabeza el mercado global de smartphones en 2025 impulsada por la demanda en mercados emergentes mientras el crecimiento del sector se mantiene moderado