Um estudo sobre visão computacional para reconhecimento de emoções faciais
LarLar > Notícias > Um estudo sobre visão computacional para reconhecimento de emoções faciais

Um estudo sobre visão computacional para reconhecimento de emoções faciais

Jul 22, 2023

Scientific Reports volume 13, Número do artigo: 8425 (2023) Citar este artigo

510 Acessos

1 Altmétrica

Detalhes das métricas

A inteligência artificial tem sido aplicada com sucesso em vários campos, um dos quais é a visão computacional. Neste estudo, uma rede neural profunda (DNN) foi adotada para reconhecimento de emoções faciais (FER). Um dos objetivos deste estudo é identificar as características faciais críticas nas quais o modelo DNN se concentra para FER. Em particular, utilizamos uma rede neural convolucional (CNN), a combinação da rede squeeze-and-excitation e da rede neural residual, para a tarefa de FER. Utilizamos o AffectNet e o Real-World Affective Faces Database (RAF-DB) como os bancos de dados de expressões faciais que fornecem amostras de aprendizado para a CNN. Os mapas de recursos foram extraídos dos blocos residuais para análise posterior. Nossa análise mostra que as características ao redor do nariz e da boca são marcos faciais críticos para as redes neurais. Validações cruzadas de banco de dados foram realizadas entre os bancos de dados. O modelo de rede treinado no AffectNet alcançou 77,37% de precisão quando validado no RAF-DB, enquanto o modelo de rede pré-treinado no AffectNet e depois transferido aprendido no RAF-DB resulta em precisão de validação de 83,37%. Os resultados deste estudo melhorariam a compreensão das redes neurais e ajudariam a melhorar a precisão da visão computacional.

Nas comunicações humanas, as expressões faciais contêm informações não verbais críticas que podem fornecer pistas e significados adicionais às comunicações verbais1. Alguns estudos sugerem que 60 a 80% da comunicação é não verbal2. Essas informações não verbais incluem expressões faciais, contato visual, tons de voz, gestos com as mãos e distanciamento físico. Em particular, a análise da expressão facial tornou-se um tópico de pesquisa popular3. O reconhecimento emocional facial (FER) tem sido aplicado no campo da interação humano-computador (HCI) em áreas como piloto automático, educação, tratamento médico, tratamento psicológico4, vigilância e análise psicológica em visão computacional5,6.

Na psicologia e na visão computacional, as emoções são classificadas como modelos categóricos ou dimensionais (valência e excitação)7,8,9. No modelo categórico, Ekman et al.7 definiram as emoções humanas básicas como felicidade, raiva, repulsa, medo, tristeza e surpresa. No modelo dimensional, a emoção é avaliada por escalas numéricas contínuas para determinação de valência e excitação. A FER é uma tarefa importante em visão computacional que possui inúmeras aplicações práticas e o número de estudos sobre FER tem aumentado nos últimos anos10,11,12,13, beneficiando-se dos avanços proporcionados pelas redes neurais profundas. Em particular, as redes neurais convolucionais (CNNs) alcançaram excelentes resultados em termos de extração de recursos. Por exemplo, He et al.14 propuseram a arquitetura de rede neural residual (ResNet) em 2015, que adicionou aprendizado residual a uma CNN para resolver os problemas de gradiente de desaparecimento e precisão decrescente de redes profundas.

Vários autores aplicaram modelos de redes neurais para classificar emoções de acordo com modelos categóricos15,16,17,18,19,20,21,22,23 e modelos dimensionais15,23,24,25,26. Huang27 aplicou uma arquitetura de bloco residual a um VGG CNN para realizar o reconhecimento de emoções e obteve maior precisão. Mao et al.28 propuseram um novo modelo FER chamado POSTER V2, que visa melhorar o desempenho da técnica de ponta e reduzir o custo computacional necessário, introduzindo mecanismo de atenção cruzada baseado em janela e multi-referência de pontos de referência faciais. características de escala. Para incorporar mais informações ao processo de reconhecimento automático de emoções, alguns estudos recentes fundiram várias modalidades, como as modalidades temporal, auditiva e visual10,17,18,23,25, no algoritmo. Além disso, mecanismos de atenção têm sido adotados por diversos estudos17,18,19,20,22,25 para tarefas de FER. Zhang et al.19 aplicaram o mapeamento de ativação de classe para analisar os mapas de atenção aprendidos por seu modelo. Verificou-se que o modelo poderia ser regularizado invertendo seu mapa de atenção e apagando aleatoriamente parte das imagens de entrada. Wang et al.22 introduziram um ramo de atenção para aprender uma máscara facial que destaca as partes discriminativas para FER. Esses estudos mostram que os mecanismos de atenção desempenham um papel crítico no FER. Várias abordagens para FER utilizam mecanismos de auto-atenção para capturar contextos locais e globais por meio de um conjunto de camadas convolucionais para extração de recursos29,30,31. Os recursos extraídos são então usados ​​como entradas de um módulo de atenção de relação, que utiliza a auto-atenção para capturar as relações entre diferentes manchas e o contexto.