Reconocimiento de Gestos para HoloLens2 con Puntos 3D de las Manos Bajo Limitaciones de Datos

Autores/as

Palabras clave:

Aprendizaje automático, Realidad mixta, Reconocimiento de gestos de la mano, Interacción Persona-Ordenador, Inteligencia Artificial, Aprendizaje con pocos Ejemplos, Microsoft HoloLens 2

Resumen

En la actualidad, la interacción persona-ordenador busca ser cada vez más intuitiva. En el caso de la realidad mixta, el uso de gestos emerge como una solución factible para lograr interacciones más naturales y fluidas. En este trabajo, implementamos un sistema completo de reconocimiento de gestos de las manos para las Microsoft HoloLens 2, basado en un par de clasificadores en cascada. Para el entrenamiento de los modelos, utilizamos la parte disponible públicamente del conjunto de datos SHREC22, que cuenta con un número limitado de muestras, convirtiendo esta tarea en un problema de aprendizaje con pocos ejemplos, ya que solo disponemos de 36 muestras por clase. Exploramos diversas arquitecturas de redes neuronales para identificar la más adecuada en este contexto. Al evaluar el sistema en su conjunto, logramos una tasa de error de gestos (GER) del 9.6%, lo que demuestra el potencial del enfoque propuesto, si bien su rendimiento podría optimizarse con futuros ajustes y más datos de entrenamiento.

Abstract

Nowadays, human-computer interaction is seeking to be more intuitive. In the context of mixed reality, hand gestures emerge as a feasible solution to achieve more natural and seamless interactions. In this work, we implement a complete hand gesture recognition system for Microsoft HoloLens 2, based on a pair of cascaded classifiers. For training the models, we use the publicly available part of the SHREC22 dataset, which has a limited number of samples, turning this task into a few-shot learning problem, since only 36 samples per class are available. We explore various neural network architectures to identify the most suitable one in this context. When evaluating the system as a whole, we achieved a gesture error rate (GER) of 9.6%, which highlights the potential of the proposed approach, although its performance could be optimized with future tuning and more training data.

Descargas

Publicado

2024-12-25