Un robot aprende a mover los labios como un humano para hablar y cantar

Investigadores de la Universidad de Columbia han desarrollado un robot capaz de aprender por sí mismo a sincronizar los movimientos de los labios con el habla y el canto. El avance busca que las máquinas resulten más naturales y menos inquietantes en su interacción con los humanos.

Por Enrique Coperías, periodista científico

Un robot desarrollado por el equipo de Hod Lipson en la Universidad de Columbia aprende a mover los labios para sincronizarlos con el habla y el canto, un paso clave para que las máquinas resulten más naturales en su interacción con los humanos.

Un robot desarrollado por el equipo de Hod Lipson en la Universidad de Columbia aprende a mover los labios para sincronizarlos con el habla y el canto, un paso clave para que las máquinas resulten más naturales en su interacción con los humanos. Cortesía: Jane Nisselson / Columbia Engineering

Casi la mitad de la atención que prestamos en una conversación cara a cara se concentra en el movimiento de los labios. Sin embargo, los robots siguen sin saber mover la boca de forma convincente.

Incluso los humanoides más avanzados apenas pasan de hacer gestos de marioneta, cuando no carecen directamente de rostro.

Para los seres humanos, los fallos en la cara son mucho menos perdonables que un paso torpe o un brazo mal colocado: es el conocido valle inquietante, ese territorio en el que una máquina se parece demasiado a nosotros como para resultar cómoda, pero no lo suficiente como para parecer viva.

Qué es el valle inquietante en robótica

El término, acuñado en los años setenta por el ingeniero japonés Masahiro Mori, describe la reacción de rechazo que provocan los objetos con apariencia casi humana, pero imperfecta. Cuando un robot, un androide o un personaje digital se aproxima demasiado al aspecto de una persona sin llegar a reproducirlo con naturalidad, el cerebro detecta algo extraño y responde con desconfianza o incomodidad. Ese efecto se acentúa especialmente en el rostro y, en particular, en los ojos y los labios, que son claves para interpretar emociones y señales sociales.

Un equipo de ingenieros de la Universidad de Columbia asegura haber dado un paso decisivo para salir de ese valle inquietante. En un trabajo publicado en la revista Science Robotics, los investigadores presentan un robot que, por primera vez, es capaz de aprender a sincronizar los movimientos de los labios con el habla y el canto.

El sistema no solo articula palabras en varios idiomas, sino que incluso canta una canción incluida en su álbum de debut generado por inteligencia artificial, titulado hello world_.

Un robot que aprende observándose en el espejo

La clave del avance está en la forma de aprender. En lugar de seguir reglas rígidas programadas, el robot adquiere sus habilidades mediante aprendizaje observacional. Primero aprende a controlar sus propios músculos faciales, que están formados por un total de veintiséis motores, observándose en un espejo.

Después, pasa horas viendo vídeos de personas hablando y cantando en YouTube, hasta captar cómo se mueven los labios humanos en relación con los sonidos.

🗣️ «Cuanto más interactúe con los humanos, mejor lo hará», promete Hod Lipson, profesor de Innovación en el Departamento de Ingeniería Mecánica y director del Creative Machines Lab de Columbia, donde se ha desarrollado el trabajo.

El doble reto de mover los labios como un humano

Conseguir un movimiento realista de los labios es especialmente difícil por dos motivo:

1️⃣ Requiere un hardware específico: una piel facial flexible, accionada por muchos motores pequeños capaces de moverse rápido y en silencio.

2️⃣ Los patrones de movimiento de los labios dependen de secuencias complejas de sonidos y fonemas. En los humanos, decenas de músculos bajo una piel blanda se sincronizan de manera natural con la voz; en los robots, en cambio, los rostros rígidos y con pocos grados de libertad producen gestos forzados y artificiales.

Para superar estas dos limitaciones, el equipo de Columbia desarrolló un rostro robótico con un alto grado de movilidad y dejó que aprendiera a usarlo por sí mismo. Como un niño que se mira al espejo por primera vez, el robot realizó miles de expresiones faciales aleatorias hasta aprender qué combinaciones de motores producían determinadas apariencias.

Mover la boca de forma sincronizada

Este enfoque, conocido como modelo de visión a acción (VLA), permitió crear un mapa interno entre lo que ve y lo que hace. En una segunda fase, el sistema observó grabaciones de personas hablando y cantando, de modo que la inteligencia artificial (IA) que lo controla aprendió a traducir directamente el sonido en movimiento de labios.

Las pruebas incluyeron distintos sonidos, idiomas y contextos, además de canciones. Sin conocer el significado de los audios, el robot fue capaz de mover la boca de forma sincronizada. El resultado dista de ser perfecto.

🗣️«Tuvimos dificultades particulares con sonidos duros como el de la b y con aquellos que implican fruncir los labios, como la w. Pero es probable que estas capacidades mejoren con el tiempo y la práctica», reconoce Lipson.

La expresión facial como eslabón perdido de la robótica

Más allá de la precisión técnica, los investigadores subrayan la importancia de la sincronización labial como parte de una comunicación robótica más amplia.

«Cuando la capacidad de sincronizar los labios se combina con una IA conversacional, como ChatGPT o Gemini, el efecto añade una profundidad completamente nueva a la conexión humano-robot —explica Yuhang Hu, investigadora principal del estudio durante su doctorado. Y añade—: Cuanto más observe el robot a los humanos conversando, mejor será imitando los gestos faciales con los que conectamos emocionalmente. Y cuanto mayor sea la ventana de contexto de la conversación, más sensibles al contexto serán esos gestos».

Para Lipson y Hu, la expresión facial es el eslabón perdido de la robótica humanoide.

🗣️ «Gran parte de la robótica actual se centra en el movimiento de las piernas y las manos, para actividades como caminar o agarrar objetos —comenta Lipson—. Pero la afectividad facial es igual de importante en cualquier interacción entre robots y humanos».

Hu y Lipson predicen que los rostros cálidos y realistas serán esenciales a medida que los robots humanoides se introduzcan en ámbitos como el entretenimiento, la educación, la medicina o el cuidado de personas mayores. Algunos economistas estiman que en la próxima década se fabricarán más de mil millones de robots humanoides».

Para este ingeniero, «no hay un futuro en el que todos esos robots humanoides no tengan cara. Y cuando finalmente la tengan, deberán mover correctamente los ojos y los labios o permanecerán para siempre en el valle inquietante». Y añade Hu: «Los humanos estamos hechos así y no podemos evitarlo. Estamos cerca de cruzar ese valle».

Aplicaciones futuras y riesgos de los robots empáticos

El trabajo se inscribe en la búsqueda de más de una década de Lipson por lograr que los robots conecten emocionalmente con las personas mediante gestos faciales como sonreír, mirar o hablar, siempre aprendidos y no programados. «Algo mágico ocurre cuando un robot aprende a sonreír o a hablar observando a los humanos —confiesa—. Soy un experto en robótica curtido, pero no puedo evitar sonreír cuando un robot me devuelve espontáneamente la sonrisa».

Hu recuerda que el rostro humano es la interfaz definitiva de la comunicación: «Los robots con esta capacidad tendrán claramente una mejor conexión con los humanos, porque una parte enorme de nuestra comunicación se basa en el lenguaje corporal facial, y ese canal sigue prácticamente sin explotarse.

Los investigadores no ignoran los riesgos y controversias de dotar a las máquinas de una mayor capacidad para generar vínculos emocionales. «Será una tecnología poderosa. Tenemos que avanzar despacio y con cuidado, para aprovechar sus beneficios minimizando los riesgos», concluye Lipson.▪️

Siguiente
Siguiente

Detectan contaminantes ambientales en niños de cero a dos años