Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/4841
Tipo: Tese
Título: Multi-task Learning Applied to Computer Vision Problems
Autor(es): DIOGO NUNES GONCALVES
Primeiro orientador: Hemerson Pistori
Resumo: O aprendizado profundo tem sido amplamente estudado, principalmente para resolver problemas considerados complexos. De forma geral, esses problemas podem ser descritos e divididos em um conjunto de tarefas. Essas tarefas são intrínsecas ao problema geral, ou seja, são definidas de forma natural por fazer parte da essência do problema. Além disso, elas podem ser aprendidas de forma isolada porém estão relacionadas para solução do problema geral. Outro fator importante é que para um problema maior de visão computacional, realizar as tarefas distintas individualmente se torna muito custoso em memória e tempo de inferência. Para solucionar esses problemas uma abordagem chamada Aprendizado Multitarefa (MTL) foi proposta. A ideia é simular o aprendizado humano, em que pessoas podem aprender novas tarefas através de experiências obtidas no aprendizado de tarefas similares. Essa abordagem permite o aprendizado das tarefas do problema de maneira simultânea, construindo uma relação entre elas. A partir desses direcionamentos, este trabalho na forma de coleção de artigos apresenta abordagens MTL para a resolução de problemas de visão computacional. Inicialmente, dois problemas foram abordados: detecção de linhas de plantação no primeiro artigo e detecção de alevinos no segundo. Na detecção de linhas de plantação a ideia é dividir o problema em identificar as plantas individualmente e detectar as linhas de plantação. Na detecção de alevinos as tarefas são divididas em detectar o alevino e identificar a direção desse alevino nos quadros subsequentes. Para ambos os problemas, um método foi proposto com um backbone que extrai as características iniciais para todas as tarefas. Tendo como entrada as características iniciais, ramos independentes aprendem a solução de cada tarefa. A troca de informações entre as tarefas ocorre por meio da concatenação das características extraídas em pontos específicos de cada ramo. Os resultados mostraram que o compartilhamento entre as tarefas é importante para a solução, alcançando resultados superiores ao estado-da-arte. Além das duas propostas, um novo método de segmentação semântica usando MTL e mecanismo de atenção foi proposto. O principal avanço foi o uso de pesos aprendidos por Transformers para indicar a importância de uma tarefa nas demais. Assim, apenas regiões da imagem consideradas relevantes influenciam em outras tarefas. Os resultados em dois problemas, segmentação de linhas e falhas de plantação, e segmentação da folha e desfolha, mostraram a eficácia da abordagem frente ao estado-da-arte.
Abstract: Deep learning has been widely studied, mainly to solve problems considered complex. In general, these problems can be described and divided into a set of tasks. These tasks are intrinsic to the general problem, that is, they are naturally defined because they are part of the essence of the problem. In addition, they can be learned in isolation but are related to the solution of the general problem. Another important factor is that for a larger computer vision problem, performing the distinct tasks individually becomes expensive in memory and inference time. To solve these problems, several approaches as Multi-task Learning (MTL) was proposed. The idea is to simulate human learning, in which people can learn new tasks through experiences gained in learning similar tasks. This approach allows the learning of the tasks simultaneously, building a relationship between them. From these directions, this work in the form of a collection of articles presents MTL approaches for solving computer vision problems. Initially, two problems were addressed: detection of plantation lines in the first article and detection of fingerlings in the second. In the detection of plantation lines the idea is to divide the problem into identifying the plants individually and detecting the plantation lines. In fingerling detection, the tasks are divided into detecting the fingerling and identifying the fingerling direction in subsequent frames. For both problems, a method was proposed with a backbone that extracts the initial features for all tasks. Taking the initial features as input, independent branches learn the solution of each task. The exchange of information between tasks occurs through the concatenation of features extracted at specific points in each branch. The results showed that sharing between tasks is important for the solution, achieving results superior to the state-of-the-art. In addition to the two proposals, a new semantic segmentation method using MTL and attention mechanism was proposed. The main advance was the use of weights learned by Transformers to indicate the importance of a task to others. Thus, only image regions considered relevant influence other tasks. Results on two problems, plantation line and gaps, and leaf segmentation and defoliation, showed the effectiveness of the approach compared to the state-of-the-art.
Palavras-chave: Deep learning
multi-task learning
identifying plantation lines
fingerling counting.
País: Brasil
Editor: Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição: UFMS
Tipo de acesso: Acesso Aberto
URI: https://repositorio.ufms.br/handle/123456789/4841
Data do documento: 2022
Aparece nas coleções:Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo TamanhoFormato 
modelotex_submetido.pdf29,5 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.