Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/6357
Tipo: Tese
Título: Abordagens Multimodais com Fusão de Dados em Aprendizado Profundo
Autor(es): Lucas de Souza Rodrigues
Primeiro orientador: Edson Takashi Matsubara
Resumo: As redes neurais profundas, especialmente os modelos de linguagem e visão, têm sido amplamente utilizados em problemas reais nos últimos anos. Geralmente modelos aplicam o uso de apenas um tipo de dado/informação (texto, imagem, vídeo, áudio) em problemas de aprendizado, também chamados de modelos unimodais. No entanto, dada a quantidade crescente de informações não estruturadas e a variedade de formatos de dados existentes, novas abordagens têm sido desenvolvidas com o objetivo de estabelecer estratégias que viabilizem a utilização de múltiplos dados em um mesmo modelo de aprendizado. Este trabalho explora a fusão de dados em modelos de Aprendizado de Máquina Multimodal (AM). A proposta desta tese explora uma estratégia simples que utiliza operações matemáticas para fundir os diversos tipos de dados entre as camadas da arquitetura multimodal, mecanismos de atenção e conexões residuais. Uma outra proposta explora o uso da destilação de conhecimento multimodal para otimizar o desempenho de modelos de aprendizado profundo, transferindo conhecimento entre modalidades de um mesmo domínio. O principal avanço deste trabalho foi usar as operações aritméticas, mecanismos de atenção e conexões residuais em abordagens multimodais com a fusão de dados. Isso permitiu obter representações complementares sobre as modalidades, o que levou a uma melhor convergência sem diferença significativa com o estado-da-arte.
Abstract: Deep neural networks, especially language and vision models, have been widely used in real problems in recent years. Usually models apply the use of only one type of data/information (text, image, video, audio) in learning problems, also called unimodal models. However, given the growing amount of unstructured information and the variety of existing data formats, new approaches have been developed with the aim of establishing strategies that enable the use of multiple data in the same learning model. This work explores data fusion in Multimodal Machine Learning (ML) models. The proposal of this thesis explores a simple strategy that uses mathematical operations to merge the different types of data between the layers of the multimodal architecture, mechanisms of attention and residual connections. Another proposal explores the use of multimodal knowledge distillation to optimize the performance of deep learning models, transferring knowledge between modalities of the same domain. The main advance of this work was to use arithmetic operations, attention mechanisms and residual connections in multimodal approaches with data fusion. This allowed obtaining complementary representations about the modalities, which led to a better convergence without significant difference with the state-of-the-art.
Palavras-chave: fusão de dados, modelo multimodal, redes neurais profundas, modelo de linguagem, modelo de visão, mecanismos de atenção
País: Brasil
Editor: Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição: UFMS
Tipo de acesso: Acesso Aberto
URI: https://repositorio.ufms.br/handle/123456789/6357
Data do documento: 2023
Aparece nas coleções:Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo TamanhoFormato 
Tese - Doutorado Versão Final.pdf17,31 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.