Sobre el reconocimiento de emociones y la precisión de los clasificadores
Palabras clave:
Reconocimiento de expresiones faciales, Reconocimiento de emociones, Aprendizaje automático, Dataset de expresiones faciales, Redes neuronales convolucionales, LIMEResumen
El reconocimiento de expresiones faciales es un tópico muy popular desde el surgimiento de la Inteligencia Artificial. Desde el punto de vista de la Interacción Persona-Ordenador también existe un gran interés, ya que las emociones transmitidas a través de las expresiones aportan una gran cantidad de información a la hora de tratar la comunicación no verbal. Hoy en día, las redes neuronales son uno de los sistemas de aprendizaje computacional más utilizados para reconocer y analizar emociones y, en general, los principales esfuerzos se dirigen a entrenar modelos que alcancen el máximo rendimiento posible en términos de precisión. Pero, en realidad, los humanos no son perfectos en el reconocimiento de emociones. En este trabajo, planteamos la cuestión de si el objetivo a perseguir al entrenar tales modelos debe basarse únicamente en alcanzar altos valores de precisión de reconocimiento o si también debemos centrarnos en tratar de emular el comportamiento humano. Intentamos llegar a una respuesta a través de comparar los resultados de clasificación de emociones en dos experimentos: uno con participantes humanos y otro con una red neuronal convolucional.
Abstract
The recognition of facial expressions is a very popular topic since the emergence of Artificial Intelligence. From the point of view of Human-Computer Interaction, there is also great interest since the detected facial expression provides a large amount of information to recognize its associated emotion. Nowadays, neural networks are one of the most widely used computational learning systems for recognizing and analyzing emotions from facial expressions. Usually, the main efforts are directed towards obtaining the maximum performance of the system in terms of high accuracy. But in reality, humans are not that good at distinguishing between emotions from static facial expressions. In this paper, we raise the question of whether the goal to pursue when training models should be based solely on achieving high values of accuracy or whether we should also focus on trying to emulate human behavior. We try to provide an answer through two experiments: one with human participants and the other one with a convolutional neural network.