Abordagens Multimodais com Fusão de Dados em Aprendizado Profundo

Lucas de Souza Rodrigues

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/6357

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Lucas de Souza Rodrigues	-
dc.date.accessioned	2023-07-18T20:45:29Z	-
dc.date.available	2023-07-18T20:45:29Z	-
dc.date.issued	2023	pt_BR
dc.identifier.uri	https://repositorio.ufms.br/handle/123456789/6357	-
dc.description.abstract	Deep neural networks, especially language and vision models, have been widely used in real problems in recent years. Usually models apply the use of only one type of data/information (text, image, video, audio) in learning problems, also called unimodal models. However, given the growing amount of unstructured information and the variety of existing data formats, new approaches have been developed with the aim of establishing strategies that enable the use of multiple data in the same learning model. This work explores data fusion in Multimodal Machine Learning (ML) models. The proposal of this thesis explores a simple strategy that uses mathematical operations to merge the different types of data between the layers of the multimodal architecture, mechanisms of attention and residual connections. Another proposal explores the use of multimodal knowledge distillation to optimize the performance of deep learning models, transferring knowledge between modalities of the same domain. The main advance of this work was to use arithmetic operations, attention mechanisms and residual connections in multimodal approaches with data fusion. This allowed obtaining complementary representations about the modalities, which led to a better convergence without significant difference with the state-of-the-art.	-
dc.language.iso	pt_BR	pt_BR
dc.publisher	Fundação Universidade Federal de Mato Grosso do Sul	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	fusão de dados, modelo multimodal, redes neurais profundas, modelo de linguagem, modelo de visão, mecanismos de atenção	-
dc.title	Abordagens Multimodais com Fusão de Dados em Aprendizado Profundo	pt_BR
dc.type	Tese	pt_BR
dc.contributor.advisor1	Edson Takashi Matsubara	-
dc.description.resumo	As redes neurais profundas, especialmente os modelos de linguagem e visão, têm sido amplamente utilizados em problemas reais nos últimos anos. Geralmente modelos aplicam o uso de apenas um tipo de dado/informação (texto, imagem, vídeo, áudio) em problemas de aprendizado, também chamados de modelos unimodais. No entanto, dada a quantidade crescente de informações não estruturadas e a variedade de formatos de dados existentes, novas abordagens têm sido desenvolvidas com o objetivo de estabelecer estratégias que viabilizem a utilização de múltiplos dados em um mesmo modelo de aprendizado. Este trabalho explora a fusão de dados em modelos de Aprendizado de Máquina Multimodal (AM). A proposta desta tese explora uma estratégia simples que utiliza operações matemáticas para fundir os diversos tipos de dados entre as camadas da arquitetura multimodal, mecanismos de atenção e conexões residuais. Uma outra proposta explora o uso da destilação de conhecimento multimodal para otimizar o desempenho de modelos de aprendizado profundo, transferindo conhecimento entre modalidades de um mesmo domínio. O principal avanço deste trabalho foi usar as operações aritméticas, mecanismos de atenção e conexões residuais em abordagens multimodais com a fusão de dados. Isso permitiu obter representações complementares sobre as modalidades, o que levou a uma melhor convergência sem diferença significativa com o estado-da-arte.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.initials	UFMS	pt_BR
Aparece nas coleções:	Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Tese - Doutorado Versão Final.pdf		17,31 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas