Use este identificador para citar ou linkar para este item:
https://repositorio.ufms.br/handle/123456789/11654
Tipo: | Dissertação |
Título: | Uso de LLMs no apoio à geração de strings de busca para o desenvolvimento de Estudos Secundários |
Autor(es): | MARIA LUÍSA DE BARROS COSTA SILVA |
Primeiro orientador: | Bruno Magalhaes Nogueira |
Resumo: | Estudos Secundários (ESs) são uma metodologia amplamente utilizada no meio científico da Engenharia de Software, desde a introdução do conceito de Engenharia de Software Baseada em Evidências. ESs possuem por objetivo coletar todas as informações disponíveis sobre um conceito ou fenômeno. Uma das etapas necessárias para o desenvolvimento de ESs é a definição e execução da estratégia de busca. A busca automatizada é uma das principais estratégias utilizadas no contexto de busca por estudos acadêmicos, e para realizá-la, o processo de geração e refinamento de strings de busca que irão ser aplicadas nas bibliotecas digitais é executado. Nos últimos anos, o domínio de tecnologia textual sofreu expressiva evolução com o avanço dos modelos de linguagem, sobretudo a partir dos Large language models (LLMs), que por meio da arquitetura transformers e uma grande gama de parâmetros, comportam alto desempenho semântico em conjunto a uma baixa complexidade de utilização. Baseando-se na dificuldade de construção de strings de busca, neste trabalho é proposta a criação da SeSGx-LLM. SeSGx-LLM é uma extensão do trabalho de Alves et al. (2022), responsável pela criação da Search String Generator (SeSG). A versão proposta neste trabalho possui como objetivo integrar LLMs ao framework da SeSG. Em conclusão, foi possível observar que LLMs podem contribuir beneficamente no processo de geração de sinônimos que irão compor as strings, sendo o Mistral 7B o modelo mais consistente testado. Em complemento, foi possível observar que o LDA obteve desempenho superior no processo de extração de palavras-chaves. |
Abstract: | Secondary Studies (SS) are a widely used methodology in the Software Engineering scientific field, since the introduction of Evidence-Based Software Engineering. The main objective of Secondary Studies is to gather all available information on a concept or phenomenon. One of the steps needed for the conduction of a SS is the definition and execution of a search strategy. One of the main strategies applied is the automated search, in order to perform this strategy, it is necessary to create and refine a search string that will be used in search engines. In the recent years, the textual technology domain has evolved greatly with the advance of Large language models (LLMs), which, through the transformers architecture and an expressive number of parameters, enable a high semantic performance combined with low complexity of use. Based on the difficulty in constructing search strings, this work proposes the creation of SeSG-LLM. SeSG-LLM is a tool based on the Alves et al. (2022) work, the Search String Generator (SeSG). The SeSGx-LLM version aims to integrate Large language models into the SeSG framework. In conclusion, the results demonstrated that LLMs can facilitate the generation of synonyms that will compose the strings, with Mistral 7B exhibiting the most consistent performance among the tested models. Additionally, the findings indicated that LDA demonstrated superior performance in the extraction of keywords. |
Palavras-chave: | Estudos Secundários Modelos de Linguagem LLM |
País: | Brasil |
Editor: | Fundação Universidade Federal de Mato Grosso do Sul |
Sigla da Instituição: | UFMS |
Tipo de acesso: | Acesso Aberto |
URI: | https://repositorio.ufms.br/handle/123456789/11654 |
Data do documento: | 2025 |
Aparece nas coleções: | Programa de Pós-graduação em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Tamanho | Formato | |
---|---|---|---|
dissertacao_mestrado_maria.pdf | 1,21 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.