Una mano virtual que obedece la voz: el futuro de la realidad virtual sin mandos

Una mano digital que se mueve con solo hablar promete liberar a los usuarios de mandos y guantes. La inteligencia artificial convierte la voz en gestos dentro de las realidades virtual y aumentada.

Por Enrique Coperías

Investigadores de la Universidad de Míchigan y Microsoft Research han creado HandProxy, una mano virtual controlada por voz que permite usar la realidad virtual y aumentada sin mandos.

Investigadores de la Universidad de Míchigan y Microsoft Research han creado HandProxy, una mano virtual controlada por voz que permite usar la realidad virtual y aumentada sin mandos. Cortesía: Universidad de Míchigan

En los mundos virtuales de la próxima década, quizá ya no haga falta mover un dedo para sentir que los movemos todos. Investigadores de la Universidad de Míchigan y Microsoft Research han desarrollado HandProxy, una tecnología que traduce órdenes habladas en movimientos precisos de una mano digital. De este modo, permite interactuar en entornos de realidad virtual (RV) y realidad aumentada (RA) sin necesidad de usar las manos reales.

La invención promete ampliar el acceso a la realidad extendida —por ejemplo, para personas con movilidad reducida— y liberar a los usuarios de tener que empuñar mandos o mantener posturas incómodas frente a los sensores.

En la actualidad, los sistemas de realidad extendida (XR), que engloban la realidad virtual (VR), la realidad aumentada (AR) y la realidad mixta (MR), se basan cada vez más en el rastreo de manos para manipular objetos y menús flotantes. La capacidad de pellizcar para ampliar una ventana o agarrar una herramienta virtual resulta natural e intuitiva, pero tiene límites claros: requiere libertad de movimiento, un espacio físico despejado y una motricidad fina que no siempre está garantizada. Cuando las manos están ocupadas, o cuando las limitaciones físicas impiden ciertos gestos, la experiencia se interrumpe.

Por eso los investigadores han buscado una alternativa: convertir la voz en gestos. Hasta ahora, los sistemas de control por voz en RV se limitaban a acciones básicas abrir menú, subir volumen, y obligaban a usar comandos predefinidos. HandProxy da un paso más al permitir que el usuario describa de manera natural lo que quiere hacer —agarra el cubo y colócalo en la cesta, gira el botón de brillo hacia la derecha— y que el sistema traduzca esa instrucción en una secuencia fluida de movimientos de una mano virtual. Esa mano proxy actúa en el entorno digital con la misma expresividad que una real.

Cómo funciona HandProxy: convertir la voz en movimiento

El principio es tan sencillo como poderoso: muchas interacciones con las manos son el resultado de una cadena de microgestos. Al tirar de una palanca, por ejemplo, la mano primero se cierra, luego se mueve hacia atrás y finalmente suelta el objeto. Los investigadores se preguntaron si sería posible describir esa secuencia con palabras y dejar que una inteligencia artificial (IA) la ejecute.

Así nació HandProxy, que se apoya en un modelo de lenguaje (GPT-4o) para interpretar las órdenes habladas y traducirlas en comandos de movimiento tridimensional.

El sistema descompone las acciones en cuatro tipos de bloques básicos o primitivas de control:

1️⃣ Gestual (el tipo de movimiento: agarrar, pellizcar, empujar).

2️⃣ De objetivo (qué objeto se manipula).

3️⃣ Espacial (en qué dirección y con qué rotación se mueve la mano).

4️⃣ Temporal (cuándo empieza o se detiene la acción, o si se repite).

Combinando estas piezas, la mano virtual puede realizar desde un gesto aislado —pincha el botón de confirmar— hasta una secuencia compleja como coge la manzana, muévela hacia la izquierda y suéltala en la cesta. No hay un vocabulario cerrado: el usuario puede expresarse con naturalidad, y el sistema infiere el significado gracias a la comprensión contextual del modelo de lenguaje.

IA y lenguaje natural: la mano que «piensa» lo que dices

El funcionamiento interno de HandProxy combina reconocimiento de voz en tiempo real con razonamiento semántico. Mientras el usuario habla, el sistema transcribe y analiza la frase, corrige posibles errores (power bottom por power button) y la convierte en una lista de instrucciones estructuradas. Los comandos simples —como stop o undo— se procesan al instante mediante reglas fijas; los más complejos pasan por el modelo de IA, que los traduce a coordenadas 3D y movimientos de una mano virtual renderizada en un entorno digital.

El resultado es una interacción continua, sin pausas entre voz y acción. Si el usuario cambia de idea a mitad de frase, puede decir espera o más rápido, y la mano se detiene o acelera. El sistema también ofrece retroalimentación visual: muestra en pantalla qué comando ha entendido, resalta los objetos disponibles y traza una línea de flechas indicando la trayectoria prevista de la mano. Si hay varios elementos similares —por ejemplo, tres sandías sobre la mesa—, aparecen etiquetas numeradas para aclarar a cuál se refiere el usuario.

En pruebas de laboratorio, la latencia total fue mínima: apenas 0,18 segundos en el reconocimiento de voz y alrededor de 1,4 segundos en el procesamiento completo de los comandos más complejos. El software está escrito en Python y conectado a un entorno virtual creado con Unity, pero sus desarrolladores prevén que pueda integrarse en futuras gafas de realidad aumentada o sistemas operativos XR que admitan entrada por gestos.

«Los dispositivos móviles han incorporado tecnologías de asistencia que permiten modos de entrada alternativos y el control automatizado de interfaces, incluidas herramientas con inteligencia artificial como Siri. Pero esas capacidades están prácticamente ausentes en las interacciones manuales de la realidad virtual y aumentada —explica Anhong Guo, profesora de Ingeniería Informática en la Universidad de Míchigan y autora principal del proyecto. Y añade—: HandProxy es nuestro intento de permitir que los usuarios pasen de forma fluida entre varios modos de interacción en la realidad virtual y aumentada, incluidos los mandos, los gestos manuales y la voz».

Los doctorandos Yuxuan Liu (izquierda), con el visor, y Chen Liang (derecha), del departamento de Ingeniería Informática, muestran cómo HandProxy responde a comandos de voz en una aplicación de demostración.

Los doctorandos Yuxuan Liu (izquierda), con el visor, y Chen Liang (derecha), del departamento de Ingeniería Informática, muestran cómo HandProxy responde a comandos de voz en una aplicación de demostración. Imagen: Marcin Szczepański / Michigan Engineering.

El experimento: veinte usuarios, cero mandos

Para evaluar su eficacia, los autores realizaron un estudio con veinte voluntarios —jóvenes universitarios con distintos grados de experiencia en RV y asistentes de voz—. Cada participante tuvo que realizar tareas típicas de un entorno virtual: seleccionar objetos, moverlos, girar mandos o manipular interfaces flotantes, todo solo con la voz. Las órdenes eran tan diversas como gira el botón de brillo hacia la derecha, pellizca el control deslizante del volumen o arrastra la ventana hacia arriba.

El resultado fue sorprendentemente robusto: el 100% de las tareas se completó con éxito, con un promedio de 1,09 intentos por comando y una precisión de ejecución del 91,8%. Los usuarios tardaron de media un segundo y medio en ver su orden ejecutada. Muchos experimentaron con distintas formas de expresarse —coge el melocotón, agárralo, toma la fruta rosada— y el sistema entendió la mayoría sin problema.

Los errores más comunes se debieron a descripciones visuales ambiguas (el botón redondo blanco) o a frases que el modelo interpretó literalmente (gira el control de volumen como si fuera una rosca, no un deslizador). Aun así, bastaba reformular la orden para que la mano obedeciera correctamente.

«Si hay física incorporada en el sistema, como ocurre en la mayoría de los juegos y aplicaciones de realidad virtual, HandProxy puede interactuar con ella», detalla Chen Liang, estudiante de doctorado en Ingeniería Informática en la Universidad de Míchigan y primer autor del estudio. Y continúa—:Nuestra mano virtual envía la misma señal digital que la mano del usuario, de modo que los desarrolladores no tienen que añadir nada especial a sus programas solo para que funcione con nuestro sistema».

Una experiencia natural y adaptable

Los participantes calificaron el sistema como «intuitivo», «efectivo» y «de aprendizaje casi inmediato». La posibilidad de hablar mientras la mano digital actuaba en tiempo real generó una sensación de fluidez poco habitual en los asistentes de voz tradicionales, que suelen requerir pausas o comandos rígidos. También destacaron la utilidad de poder deshacer acciones o repetirlas con una simple instrucción verbal.

Los investigadores observaron diferentes estilos de uso: algunos preferían dictar los pasos uno a uno (agarra, mueve, suelta), mientras otros daban órdenes de alto nivel (coloca la fruta en la cesta) dejando que la IA completara los detalles. Esta flexibilidad en el lenguaje natural fue posible gracias al modelo de lenguaje, que permite entender tanto los verbos concretos como las intenciones generales.

«Podría actuar como un agente, donde el usuario le da una orden de alto nivel, como organiza mi espacio de trabajo, y la mano encuentra la forma de ordenar y cerrar todas las ventanas abiertas», explica Liang.

Fotograma en el que se aprecia la orden y ejecución de la mano virtual: gira el control de brillo en sentido antihorario.

Fotograma en el que se aprecia la orden y ejecución de la mano virtual de HandProx: gira el control de brillo en sentido antihorario. Cortesía: Universidad de Míchigan

Tecnología inclusiva y sin barreras

Más allá de la comodidad, los autores destacan el potencial de HandProxy para mejorar la accesibilidad de las tecnologías inmersivas. Las personas con discapacidades motoras o con limitaciones en los brazos podrían interactuar con mundos virtuales complejos sin necesidad de controladores físicos.

También podría beneficiar a profesionales que usan las manos para otras tareas —cirujanos, técnicos, diseñadores— y necesitan interfaces sin contacto.

En entornos educativos o laborales, el sistema podría permitir controlar modelos 3D, manipular datos o realizar presentaciones en realidad virtual simplemente hablando, como si un «asistente digital encarnado» ejecutara nuestras órdenes. «Queremos que la voz se convierta en una extensión del cuerpo», explican los autores.

Retos y próximos pasos

Aunque los resultados son prometedores, HandProxy aún tiene margen de mejora. Los investigadores reconocen que el sistema depende de disponer de metadatos sobre los objetos del entorno (nombres, posiciones, etiquetas descriptivas) y de que el modelo de lenguaje entienda correctamente el contexto.

En el futuro, planean integrar visión artificial para reconocer los objetos directamente y permitir descripciones más libres (coge lo que está al lado del perro).

También trabajan en extender el sistema a interacciones bimanuales, incorporar emociones o entonaciones a la interpretación de las órdenes y, por último, adaptarlo a distintos idiomas. Con el apoyo de modelos de lenguaje cada vez más potentes, los límites entre hablar y actuar podrían diluirse.

El futuro: una realidad sin mandos

El proyecto, publicado en la revista Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, marca un paso decisivo hacia la realidad virtual verdaderamente manos libres.

Si las interfaces por voz se convierten en manos digitales tan expresivas como las reales, la frontera entre el cuerpo y el entorno virtual será más difusa que nunca.

En un futuro próximo, podríamos decir abre la puerta, y una mano invisible lo hará por nosotros. No será magia, sino una IA que traduce nuestras palabras en movimiento. Y quizá, cuando los mundos digitales respondan tan bien a la voz como a los dedos, la expresión hacer algo con tus propias manos adquiera un nuevo significado. ▪️

  • Información facilitada por la Universidad de Míchigan

  • Fuente: Liang, Chen and Liu, Yuxuan and Mott, Martez and Guo, Anhong. HandProxy: Expanding the Affordances of Speech Interfaces in Immersive Environments with a Virtual Proxy Hand. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies (2025). DOI: https://doi.org/10.1145/3749484

Siguiente
Siguiente

El kiwi podría ser la clave para aliviar el estreñimiento crónico