Use este identificador para citar ou linkar para este item:
https://repositorio.ufms.br/handle/123456789/9210
Tipo: | Dissertação |
Título: | SeSGx-BT: Modelagem de Tópicos utilizando Transformers aplicada em Estudos Secundários |
Autor(es): | DEMETRIUS MOREIRA PANOVITCH |
Primeiro orientador: | Bruno Magalhaes Nogueira |
Resumo: | Estudos secundários agregam literatura relevante à algum tema para avaliá-los, fornecer uma visão geral, interpretá-los, entre outros fins. No entanto, seu desenvolvimento tem um custo elevado em termos de tempo e recurso, além de estar sujeito ao viés do pesquisador em algumas etapas, como na identificação de estudos primários. Isso pode comprometer a qualidade e acurácia da revisão. Neste trabalho, é proposta uma abordagem automatizada para uma das etapas principais de um estudo secundário: formulação e refinamento de strings de busca. A abordagem, chamada SeSGx-BT, utiliza de um algoritmo baseado em aprendizado profundo, chamado BERTopic, para modelagem de tópicos em um conjunto de estudos utilizado como um Quasi-Gold Standard. Os tópicos são utilizados para construir strings de busca para serem aplicadas em uma estratégia de busca híbrida, que inclui as estratégias de busca em bases e snowballing. Os resultados mostraram que a SeSGx-BT é capaz de encontrar um alto número de estudos relevantes, e um baixo número de estudos irrelevantes em ambientes de busca híbrida, resultando numa maior revocação e precisão, respectivamente, quando comparada à SeSGx-LDA, uma abordagem similar que utiliza o LDA para extração de tópicos. Esses resultados sugerem que abordagens baseadas em aprendizado profundo podem capturar tópicos com maior semântica, minimizando o esforço humano na etapa de identificação de estudos primários. Com base nas métricas de precisão e revocação obtidas a partir de experimentos executados com 10 bases de dados, a SeSGx-BT se apresenta como uma solução promissora para a automação da formulação e refinamento de strings de busca para estudos secundários, obtendo um aumento de até 270% na precisão, e de até 20% na revocação. |
Abstract: | Secondary studies aggregate relevant literature to a topic to evaluate them, provide an overview, interpret them, among other purposes. However, its development has a high cost in terms of time and resources, in addition to being subject to human bias at some stages, such as the identification of primary studies. This may compromise the quality and accuracy of the review. In this work, we propose an automated approach for one of the main steps of a secondary study: formulation and refinement of search strings. The approach, called SeSGx-BT, uses a deep learning-based algorithm, called BERTopic, to perform topic modeling on a set of studies used as a Quasi-Gold Standard. The topics are used to build search strings to be applied in a hybrid search strategy, which includes database search and snowballing strategies. The results demonstrated that SeSGx-BT is capable of finding a high number of relevant studies, and a low number of irrelevant studies in hybrid search environments, resulting in a greater recall and precision, respectively, when compared to SeSGx-LDA, a similar approach that uses LDA for topic extraction. These results suggest that deep learning-based approaches can capture topics with greater semantics, minimizing human effort in the stage of primary studies identification. Based on the precision and recall values obtaineds from experiments with 10 datasets, SeSGx-BT presents itself as a promising solution for automating the formulation and refinement of search strings for secondary studies, obtaining an increase of 270% in precision at most, and 20% on recall at most. |
Palavras-chave: | deep learning machine learning transformers estudos secundários |
País: | Brasil |
Editor: | Fundação Universidade Federal de Mato Grosso do Sul |
Sigla da Instituição: | UFMS |
Tipo de acesso: | Acesso Aberto |
URI: | https://repositorio.ufms.br/handle/123456789/9210 |
Data do documento: | 2024 |
Aparece nas coleções: | Programa de Pós-graduação em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Tamanho | Formato | |
---|---|---|---|
dissertacao-demetrius-panovitch.pdf | 1,92 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.