Avanços em aprendizagem profunda aplicada ao sensoriamento remoto

Osco, Lucas Prado

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/6720

Tipo:	Tese
Título:	Avanços em aprendizagem profunda aplicada ao sensoriamento remoto
Autor(es):	Osco, Lucas Prado
Primeiro orientador:	Marcato Junior, Jose
Resumo:	Esta tese consiste-se em uma análise das recentes inovações em técnicas de aprendizagem profunda (Deep Learning - DL), aplicadas em imagens de sensoriamento remoto, com foco nos avanços em Redes Neurais Profundas (Deep Neural Networks – DNN), Modelos de Linguagem Visual (Visual Language Models - VLM) e em segmentação zero-shot com o Segment Anything Model (SAM). A contribuição deste trabalho está em fornecer uma discussão do estado da arte dessas tecnologias no contexto da extração de informações em imagens de sensoriamento remoto. Baseando-se em revisões de literatura, análises e adaptações de modelos e experimentos com conjuntos de dados de sensoriamento remoto, a tese encontra-se organizada em forma de capítulos. O primeiro capítulo oferece uma revisão da literatura da aplicação de DNNs em imagens de alta resolução espacial, adquiridas por sensores embarcados em Veículos Aéreos Não-Tripulados (VANTs). Aqui, analisamos 232 artigos científicos e demonstramos que DL apresenta resultados promissores para uma série de aplicações no que se referem às tarefas de processamento de imagens aéreas. O segundo capítulo explora a aplicação do Visual ChatGPT, uma inovação em VLM, no contexto do sensoriamento remoto. Apesar de estar em fase inicial de desenvolvimento, o Visual ChatGPT, com as suas habilidades baseadas em entradas textuais para analisar imagens, poderá revolucionar o processamento digital de imagens de sensoriamento remoto, criando oportunidades e otimizando o processo de extração da informação. O terceiro e último capítulo examina o desempenho do SAM em segmentar imagens de sensoriamento remoto de múltiplas escalas, representativas de variados e desafiadores contextos geográficos. Apesar de suas limitações em imagens com resolução métrica, SAM demonstra desempenho satisfatório na segmentação quando equiparado a anotação manual humana em múltiplos casos. Em suma, esta tese compila o que há de mais recente no contexto de aplicação de modelos de DL em imagens de sensoriamento remoto de multiescala. Constata-se aqui, tanto os avanços quanto os desafios a serem superados neste campo, delineando caminhos para pesquisas futuras que visem avaliar imagens de sensoriamento remoto em aplicações diversas.
Abstract:	This thesis consists of an analysis of recent innovations in deep learning (DL) techniques, applied to remote sensing images, with a focus on advancements in Deep Neural Networks (DNN), Visual Language Models (VLM), and zero-shot segmentation with the Segment Anything Model (SAM). The contribution of this work lies in providing a discussion of the state of the art of these technologies within the context of information extraction from remote sensing images. Drawing on literature reviews, model analyses and adaptations, and experiments with remote sensing datasets, the thesis is organized into chapters. The first chapter offers a literature review of the application of DNNs to high spatial resolution images, obtained by sensors onboard Unmanned Aerial Vehicles (UAVs). Here, we analyze 232 scientific articles and demonstrate that DL shows promising results for a range of applications concerning aerial image processing tasks. The second chapter explores the application of Visual ChatGPT, an innovation in VLM, within the remote sensing context. Despite being in the early stages of development, Visual ChatGPT, with its ability to analyze images based on textual inputs, could revolutionize the digital processing of remote sensing images, creating opportunities and optimizing the information extraction process. The third and final chapter examines the performance of SAM in segmenting remote sensing images across multiple scales, representative of varied and challenging geographical contexts. Despite its limitations in images with metric resolution, SAM demonstrates satisfactory performance in segmentation when compared to human manual annotation in multiple cases. In summary, this thesis compiles the latest in the context of applying DL models to multiscale remote sensing images. It establishes both the advancements and challenges to be overcome in this field, outlining paths for future research aimed at assessing remote sensing images in various applications.
Palavras-chave:	Processamento Digital de Imagem Modelos de Linguagem Visual Segmentação de Imagem
País:	Brasil
Editor:	Universidade Federal de Mato Grosso do Sul
Sigla da Instituição:	UFMS
Tipo de acesso:	Acesso Aberto
URI:	https://repositorio.ufms.br/handle/123456789/6720
Data do documento:	2023
Aparece nas coleções:	FAENG - Programa de Pós-graduação em Tecnologias Ambientais Programa de Pós-graduação em Tecnologias Ambientais

Arquivos associados a este item:

Arquivo	Tamanho	Formato
TeseUFMS_LucasOsco_v4_Combinado_Comp.pdf	4,39 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas