Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/3913
Tipo: Tese
Título: Graph to sequence syntactic pattern recognition for image classification problems
Autor(es): Gilberto Astolfi
Primeiro orientador: Hemerson Pistori
Resumo: Um interesse crescente na aplicação de modelos de Processamento de Linguagem Natural (PLN) em problemas de visão computacional tem emergido recentemente. Esse interesse é motivado pelo sucesso dos modelos de PLN em tarefas como tradução e sumarização de textos. Neste trabalho, um novo método para aplicação de PLN em problemas de classificação de imagens é proposto. O objetivo é representar os padrões visuais de objetos usando uma sequência de símbolos do alfabeto e, em seguida, treinar alguma forma de Gated Recurrent Unit (GRU), Long Short-Term Memory (LSTM) ou Transformer usando essas sequências para classificar objetos. A representação de padrões visuais de objetos de maneira sintática permite que os modelos PLN sejam aplicados a problemas de classificação de imagens de uma forma natural, ou seja, da mesma forma que são aplicados a problemas de linguagem natural. Duas abordagens de representação de padrões visuais de objetos de maneira sintática foram investigadas: representação usando pontos-chave e representação usando partes componentes de objetos. Na abordagem que usa pontos-chave, os pontos-chave são identificados nas imagens, associados a símbolos do alfabeto e, em seguida, relacionados usando um grafo para derivar sequências de símbolos das imagens. As sequências de símbolos são as entradas para treinar um codificador LSTM. Experimentos mostraram evidências de que a representação sintática de padrão pode representar variações visuais em imagens de superpixel capturadas por Veículos Aéreos não Tripulados, mesmo quando há um pequeno conjunto de imagens para treinamento. Na abordagem que usa partes componentes de objetos, as partes componentes são fornecidas por meio de caixas delimitadoras nas imagens. As partes componentes são associadas aos símbolos do alfabeto e relacionadas entre si para derivar uma sequência de símbolos do objeto para representar seu padrão visual. Então, alguma forma de GRU, LSTM ou Transformer são treinados para aprender a relação espacial entre as partes componentes dos objetos contidos nas sequências. Uma extensa avaliação experimental, usando um número limitado de amostras para treinamento, foi conduzida para comparar nosso método com a arquitetura de aprendizagem profunda ResNet-50. Os resultados alcançados pelo método proposto superam a ResNet-50 em todos os cenários de teste. Em um teste, o método apresenta acurácia média de 95,3% contra 89,9% da ResNet-50. Ambos os experimentos mostraram evidências de que a partir de um conjunto finito de estruturas primitivas é possível obter muitas variações no padrão visual do objeto mesmo quando há poucas amostras para treinamento. Além disso, os experimentos evidenciaram que os modelos PLN podem ser aplicados de forma natural a problemas de classificação de imagens em visão computacional.
Abstract: A growing interest in applying Natural Language Processing (NLP) models in computer vision problems has recently emerged. This interest is motivated by the success of NLP models in tasks such as translation and text summarization. In this work, a new method for applying NLP to image classification problems is proposed. The aim is to represent the visual patterns of objects using a sequence of alphabet symbols and then train some form of Gated Recurrent Unit (GRU), Long Short-Term Memory (LSTM), or Transformer using these sequences to classify objects. The visual pattern representation of objects in a syntactic way allows PLN models to be applied to image classification problems in a natural way, i.e., in the same way as applied to natural language problems. Two visual pattern representation approaches of objects in a syntactic way were investigated: representation using keypoints and representation using component parts of objects. In the approach that uses keypoints, the keypoints are identified in the images, associated with alphabet symbols, and then related using a graph to derive strings from images. Strings are the inputs for training an LSTM encoder. Experiments showed evidence that the syntactic pattern representation can represent visual variations in superpixel images captured by Unmanned Aerial Vehicles, even when there is a small set of images for training. In the approach that uses component parts of objects, the component parts are provided by means of bounding boxes in the images. The component parts are associated with alphabet symbols and related with each other to derive a sequence of symbols from the object for representing its visual pattern. Then, some form of GRU, LSTM, or Transformer are trained to learn the spatial relation between component parts of the objects contained in the sequences. An extensive experimental evaluation using a limited number of samples for training has been conducted to compare our method with ResNet-50 deep learning architecture. The results achieved by the proposed method overcome ResNet-50 in all test scenarios. In one test, the method presents an average accuracy of 95.3% against 89.9% of the ResNet-50. Both experiments showed evidence that from a finite set of primitive structures is possible to obtain many variations in the visual pattern of the object same when there are few samples for training. Besides, the experiments evidenced that the NPL models can be applied in a natural way to image classification problems in computer vision.
Palavras-chave: Syntactic Pattern Recognition, Recurrent Neural Network, Visual Word, Computer Vision
País: Brasil
Editor: Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição: UFMS
Tipo de acesso: Acesso Aberto
URI: https://repositorio.ufms.br/handle/123456789/3913
Data do documento: 2021
Aparece nas coleções:Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
gilberto_astolfi_FINAL.pdf17,27 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.