Integração dos Coeficientes Cepstrais de Frequência Mel no Framework Mir_Ref

JOÃO VITOR SARTORETO

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/13707

Tipo:	Trabalho de Conclusão de Curso
Título:	Integração dos Coeficientes Cepstrais de Frequência Mel no Framework Mir_Ref
Autor(es):	JOÃO VITOR SARTORETO
Primeiro orientador:	RODRIGO MITSUO KISHI
Resumo:	Com o crescente consumo de conteúdo multimídia, a área de Recuperação da Informação Musical (MIR) tem se consolidado como um campo estratégico para a análise e interpretação de sinais sonoros. Nesse contexto, a extração de características de áudio, como o timbre, desempenha papel central em diversas tarefas, embora ainda enfrente desafios devido à complexidade e diversidade dos sinais musicais. Apesar do avanço das técnicas, ainda há uma lacuna quanto à comparação sistemática entre métodos tradicionais de extração de características e abordagens modernas baseadas em aprendizado profundo. Em especial, permanece o desafio de integrar e comparar diferentes tipos de representações de áudio em um mesmo ambiente experimental, de modo padronizado e reprodutível. Este trabalho tem como objetivo investigar a viabilidade da integração dos coeficientes cepstrais de frequência Mel (MFCC) ao framework mir_ref, possibilitando a inclusão dessa representação clássica em experimentos comparativos com métodos modernos, como embeddings gerados por redes neurais profundas. Além da inclusão dos MFCCs, avaliou-se a qualidade das representações extraídas por diferentes métodos sob um mesmo ambiente experimental, promovendo a reprodutibilidade e a padronização na avaliação de técnicas de MIR. Os experimentos realizados demonstram o impacto da escolha da representação nas tarefas de classificação musical, evidenciando as particularidades e limitações de cada abordagem. Assim, este estudo contribui para o entendimento comparativo entre técnicas tradicionais e modernas no contexto da representação de áudio.
Abstract:	With the growing consumption of multimedia content, the field of Music Information Retrieval (MIR) has established itself as a strategic area for the analysis and interpretation of audio signals. In this context, the extraction of audio features, such as timbre, plays a central role in several tasks, but significant challenges remain due to the complexity and diversity of musical signals. Despite advances in the field, there is still a gap regarding the systematic comparison between traditional feature extraction methods and modern approaches based on deep learning. In particular, the challenge persists of integrating and comparing different types of audio representations within a standardized and reproducible experimental environment. This study aims to investigate the feasibility of integrating Mel-frequency cepstral coefficients (MFCCs) into the mir_ref framework, enabling the inclusion of this classical representation in comparative experiments with modern methods, such as embeddings generated by deep neural networks. In addition to the inclusion of MFCCs, the quality of the representations extracted by different methods was evaluated within the same experimental framework, promoting reproducibility and standardization in MIR evaluation. The conducted experiments demonstrate the impact of representation choice on music classification tasks, highlighting the particularities and limitations of each approach. Therefore, this study contributes to a comparative understanding of traditional and modern techniques for audio representation.
Palavras-chave:	Recuperação de Informação Musical Processamento de áudio mir_ref MFCC Representações de áudio
País:
Editor:	Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição:	UFMS
Tipo de acesso:	Acesso Aberto
URI:	https://repositorio.ufms.br/handle/123456789/13707
Data do documento:	2025
Aparece nas coleções:	Sistemas de Informação - Bacharelado (CPTL)

Arquivos associados a este item:

Arquivo	Tamanho	Formato
12811.pdf	12,93 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas