Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/9210
Registro completo de metadados
Campo DCValorIdioma
dc.creatorDEMETRIUS MOREIRA PANOVITCH-
dc.date.accessioned2024-08-20T19:03:44Z-
dc.date.available2024-08-20T19:03:44Z-
dc.date.issued2024pt_BR
dc.identifier.urihttps://repositorio.ufms.br/handle/123456789/9210-
dc.description.abstractSecondary studies aggregate relevant literature to a topic to evaluate them, provide an overview, interpret them, among other purposes. However, its development has a high cost in terms of time and resources, in addition to being subject to human bias at some stages, such as the identification of primary studies. This may compromise the quality and accuracy of the review. In this work, we propose an automated approach for one of the main steps of a secondary study: formulation and refinement of search strings. The approach, called SeSGx-BT, uses a deep learning-based algorithm, called BERTopic, to perform topic modeling on a set of studies used as a Quasi-Gold Standard. The topics are used to build search strings to be applied in a hybrid search strategy, which includes database search and snowballing strategies. The results demonstrated that SeSGx-BT is capable of finding a high number of relevant studies, and a low number of irrelevant studies in hybrid search environments, resulting in a greater recall and precision, respectively, when compared to SeSGx-LDA, a similar approach that uses LDA for topic extraction. These results suggest that deep learning-based approaches can capture topics with greater semantics, minimizing human effort in the stage of primary studies identification. Based on the precision and recall values obtaineds from experiments with 10 datasets, SeSGx-BT presents itself as a promising solution for automating the formulation and refinement of search strings for secondary studies, obtaining an increase of 270% in precision at most, and 20% on recall at most.-
dc.language.isopt_BRpt_BR
dc.publisherFundação Universidade Federal de Mato Grosso do Sulpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectdeep learning-
dc.subjectmachine learning-
dc.subjecttransformers-
dc.subjectestudos secundários-
dc.titleSeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundáriospt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor1Bruno Magalhaes Nogueira-
dc.description.resumoEstudos secundários agregam literatura relevante à algum tema para avaliá-los, fornecer uma visão geral, interpretá-los, entre outros fins. No entanto, seu desenvolvimento tem um custo elevado em termos de tempo e recurso, além de estar sujeito ao viés do pesquisador em algumas etapas, como na identificação de estudos primários. Isso pode comprometer a qualidade e acurácia da revisão. Neste trabalho, é proposta uma abordagem automatizada para uma das etapas principais de um estudo secundário: formulação e refinamento de strings de busca. A abordagem, chamada SeSGx-BT, utiliza de um algoritmo baseado em aprendizado profundo, chamado BERTopic, para modelagem de tópicos em um conjunto de estudos utilizado como um Quasi-Gold Standard. Os tópicos são utilizados para construir strings de busca para serem aplicadas em uma estratégia de busca híbrida, que inclui as estratégias de busca em bases e snowballing. Os resultados mostraram que a SeSGx-BT é capaz de encontrar um alto número de estudos relevantes, e um baixo número de estudos irrelevantes em ambientes de busca híbrida, resultando numa maior revocação e precisão, respectivamente, quando comparada à SeSGx-LDA, uma abordagem similar que utiliza o LDA para extração de tópicos. Esses resultados sugerem que abordagens baseadas em aprendizado profundo podem capturar tópicos com maior semântica, minimizando o esforço humano na etapa de identificação de estudos primários. Com base nas métricas de precisão e revocação obtidas a partir de experimentos executados com 10 bases de dados, a SeSGx-BT se apresenta como uma solução promissora para a automação da formulação e refinamento de strings de busca para estudos secundários, obtendo um aumento de até 270% na precisão, e de até 20% na revocação.pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFMSpt_BR
Aparece nas coleções:Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo TamanhoFormato 
dissertacao-demetrius-panovitch.pdf1,92 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.