Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/9103
Tipo: Trabalho de Conclusão de Curso
Título: Análise e Avaliação de Performance de Técnicas de Machine Learning para Product Matching
Autor(es): Valim, Eduardo Ferreira
Primeiro orientador: Ishii, Renato Porfirio
Resumo: Product Matching é a tarefa de identificar pares que se referem a um mesmo produto, a partir de fontes distintas. Abordagens tradicionais baseadas em regras fixas possuem limitações ao lidar com dados incompletos, não padronizados, ou com diferenças sutis. Para superar essas limitações, métodos que se beneficiam do uso de Aprendizado de Máquina se destacam como alternativas mais eficazes. Este trabalho investiga essas técnicas por meio de uma Revisão Sistemática da Literatura em busca dos métodos mais promissores da atualidade. Além disso, é realizada uma série de experimentos que avaliam a performance das soluções propostas, utilizando os datasets de produtos do WDC Product Data Corpus (LSPM) e do Magellan Data Repository. Os achados suportam as evidências apresentadas na amostra de trabalhos selecionados na revisão. As estratégias baseadas em ajuste fino de Modelos de Linguagem pré-treinados, como o BERT e suas variantes, demonstram sua superioridade na tarefa de distinção de produtos idênticos. Destacando-se os processos com Aprendizado Multiobjetivo e Aprendizado Contrastivo Supervisionado (SupCon), alcançando F1 scores superiores a 95%.
Abstract: Product Matching is the task of identifying pairs that refer to the same product from distinct sources. Traditional rule-based approaches exhibit limitations when handling incomplete, non-standardized data or subtle variations. To address these constraints, Machine Learning methods have emerged as more effective alternatives. This study investigates these techniques through a Systematic Literature Review to identify the most promising current methods. Additionally, a series of experiments are conducted to evaluate the performance of the proposed solutions using product datasets from both The WDC Product Data Corpus (LSPM) and The Magellan Data Repository. The findings support the evidence presented in the selected sample of studies from the review. Strategies based on fine-tuning pre-trained Language Models, such as BERT and its variants, demonstrate their superiority in the task of distinguishing identical products. Multi-objective Learning and Supervised Contrastive Learning (SupCon) approaches stand out, achieving F1 scores exceeding 95%.
Palavras-chave: Product Matching
Entity Matching
E-commerce
Machine Learning
BERT
Transformers
País: Brasil
Editor: Universidade Federal de Mato Grosso do Sul
Sigla da Instituição: UFMS
Tipo de acesso: Acesso Aberto
URI: https://repositorio.ufms.br/handle/123456789/9103
Data do documento: 2024
Aparece nas coleções:Engenharia de Computação - Bacharelado (FACOM)

Arquivos associados a este item:
Arquivo TamanhoFormato 
1475.pdf3,5 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.