Detecção profunda de falsificação e classificação usando erro

Scientific Reports volume 13, Número do artigo: 7422 (2023) Citar este artigo

1607 acessos

3 Altmétrica

Detalhes das métricas

Devido à ampla disponibilidade de conteúdo de fácil acesso nas mídias sociais, juntamente com as ferramentas avançadas e infraestrutura de computação barata, tornou muito fácil para as pessoas produzir falsificações profundas que podem espalhar desinformação e boatos. Esse rápido avanço pode causar pânico e caos, pois qualquer pessoa pode facilmente criar propaganda usando essas tecnologias. Portanto, um sistema robusto para diferenciar entre conteúdo real e falso tornou-se crucial nesta era da mídia social. Este artigo propõe um método automatizado para classificar imagens deep fake empregando metodologias baseadas em Deep Learning e Machine Learning. Os sistemas tradicionais baseados em Machine Learning (ML) que empregam extração de recursos artesanais não conseguem capturar padrões mais complexos que são mal compreendidos ou facilmente representados usando recursos simples. Esses sistemas não podem generalizar bem para dados não vistos. Além disso, esses sistemas são sensíveis a ruídos ou variações nos dados, o que pode reduzir seu desempenho. Portanto, esses problemas podem limitar sua utilidade em aplicativos do mundo real, onde os dados evoluem constantemente. A estrutura proposta inicialmente realiza uma análise de nível de erro da imagem para determinar se a imagem foi modificada. Esta imagem é então fornecida para redes neurais convolucionais para extração de recursos profundos. Os vetores de recursos resultantes são então classificados via Support Vector Machines e K-Nearest Neighbors por meio da otimização de hiperparâmetros. O método proposto alcançou a maior precisão de 89,5% via Residual Network e K-Nearest Neighbor. Os resultados comprovam a eficiência e robustez da técnica proposta; portanto, pode ser usado para detectar imagens falsas profundas e reduzir a ameaça potencial de calúnia e propaganda.

Na última década, o conteúdo de mídia social, como fotografias e filmes, cresceu exponencialmente online devido a dispositivos baratos, como smartphones, câmeras e computadores. O aumento dos aplicativos de mídia social permitiu que as pessoas compartilhassem rapidamente esse conteúdo entre as plataformas, aumentando drasticamente o conteúdo online e fornecendo acesso fácil. Ao mesmo tempo, vimos um enorme progresso em algoritmos complexos, mas eficientes, de aprendizado de máquina (ML) e Deep Learning (DL) que podem ser implantados para manipular conteúdo audiovisual para disseminar desinformação e prejudicar a reputação das pessoas online. Agora vivemos em tempos em que a disseminação de desinformação pode ser facilmente usada para influenciar as opiniões das pessoas e pode ser usada na manipulação eleitoral ou difamação de qualquer indivíduo. A criação profunda de falsificações evoluiu dramaticamente nos últimos anos e pode ser usada para espalhar desinformação em todo o mundo, representando uma séria ameaça em breve. Deep fakes são conteúdos de áudio e vídeo sintetizados gerados por meio de algoritmos de IA. O uso de vídeos como prova em disputas legais e processos judiciais criminais é uma prática padrão. A autenticidade e a integridade de qualquer vídeo enviado como prova devem ser estabelecidas. Especialmente quando a geração de deep fake se torna mais complexa, prevê-se que isso se torne uma tarefa difícil.

Existem as seguintes categorias de deep fake videos: face-swap, síntese e manipulação de características faciais. Nas falsificações profundas de troca de rosto, o rosto de uma pessoa é trocado pelo da pessoa de origem para criar um vídeo falso para direcionar uma pessoa para as atividades que ela não cometeu1, o que pode manchar a reputação da pessoa2. Em outro tipo de falsificação profunda chamada sincronização labial, os lábios da pessoa-alvo são manipulados para alterar os movimentos de acordo com uma determinada faixa de áudio. O propósito da sincronização labial é simular a voz do agressor fazendo com que alguém fale com aquela voz. Com o mestre de marionetes, as falsificações profundas são produzidas imitando as expressões faciais, os movimentos dos olhos e os movimentos da cabeça do alvo. Usando perfis fictícios, isso é feito para propagar informações falsas nas redes sociais. Por último, mas não menos importante, falsificações de áudio profundo ou clonagem de voz são usadas para manipular a voz de um indivíduo que associa algo ao locutor que ele não disse na realidade1,3.