Avaliação da Generalização de Modelos BERTimbau na Detecção de Desinformação em Português com Análise Qualitativa de Dados

PEDRO HENRIQUE DE OLIVEIRA RAMOS

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/14517

Tipo:	Trabalho de Conclusão de Curso
Título:	Avaliação da Generalização de Modelos BERTimbau na Detecção de Desinformação em Português com Análise Qualitativa de Dados
Autor(es):	PEDRO HENRIQUE DE OLIVEIRA RAMOS
Primeiro orientador:	BRUNO MAGALHAES NOGUEIRA
Resumo:	A crescente disseminação de informações na internet tem intensificado a propagação de notícias falsas, tornando a detecção automática de fake news um problema relevante. Nesse contexto, modelos de linguagem pré-treinados têm apresentado desempenho significativo em tarefas de processamento de linguagem natural, incluindo a classificação de textos em português. Este trabalho avalia o desempenho do modelo \textit{BERTimbau} na classificação de notícias como verdadeiras ou falsas, utilizando múltiplas bases de dados com características distintas. Para garantir uma avaliação equilibrada, os conjuntos de dados foram previamente balanceados em relação às classes. Os experimentos foram conduzidos com o objetivo de analisar não apenas o desempenho do modelo no domínio de treinamento, mas também sua capacidade de generalização entre diferentes bases. Adicionalmente, foi incorporada uma etapa de análise qualitativa baseada em modelo de linguagem de grande porte, com o objetivo de examinar padrões textuais, diferenças entre os conjuntos de dados e aspectos recorrentes associados aos acertos e erros do classificador. Essa análise não teve como objetivo explicar formalmente os mecanismos internos do modelo, mas fornecer uma leitura complementar sobre características linguísticas e contextuais presentes nas bases avaliadas.
Abstract:	The growing dissemination of information on the internet has intensified the spread of fake news, making automatic fake news detection a relevant problem. In this context, pre-trained language models have shown significant performance in natural language processing tasks, including text classification in Portuguese. This work evaluates the performance of the BERTimbau model in classifying news as true or false, using multiple datasets with distinct characteristics. To ensure a balanced evaluation, the datasets were previously balanced according to their classes. The experiments were conducted to analyze not only the model performance within the training domain, but also its generalization ability across different datasets. Additionally, a qualitative analysis step based on a large language model was incorporated to examine textual patterns, differences among datasets, and recurring aspects associated with the classifier's correct and incorrect predictions. The results indicate that, although the model achieves good performance on data similar to those used during training, there is a significant performance reduction in out-of-domain scenarios, highlighting limitations in generalization. These findings reinforce the importance of robustness evaluation in real-world applications of language models.
Palavras-chave:	Fake news BERTimbau Processamento de Linguagem Natural Análise Qualitativa Dataset Shift Desinformação.
País:
Editor:	Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição:	UFMS
Tipo de acesso:	Acesso Aberto
URI:	https://repositorio.ufms.br/handle/123456789/14517
Data do documento:	2026
Aparece nas coleções:	Engenharia de Computação - Bacharelado (FACOM)

Arquivos associados a este item:

Arquivo	Tamanho	Formato
37196.pdf	150,34 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas