Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets

Teruya, Anderson

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/621

Tipo:	Dissertação
Título:	Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets
Autor(es):	Teruya, Anderson
Primeiro orientador:	Pinto, João Onofre Pereira
Abstract:	Nesta dissertação de Mestrado, propõe-se uma nova metodologia de Seleção de Subconjuntos de Atributos, a ser utilizada no processo de extração de conhecimento de base de dados. As bases de dados, dimensionadas para diversos fins, possuem em sua essência, o conhecimento intrínseco ao sistema de sua aplicação. Esse conhecimento é muito valioso e importante para tomadas de decisões estratégicas nesse sistema. Assim, a proposta da Inteligência Artificial, através da subárea Mineração de Dados, é extrair esse conhecimento de bases de dados de forma automática. Com isso, introduziu-se o conceito de KDD, que implica em um processo de extração de conhecimento de base de dados. Uma das etapas do KDD é a Seleção de Subconjuntos de Atributos (SSA) que tem por objetivo analisar uma base de dados e eliminar atributos não importantes para o conhecimento a ser extraído, assim reduzindo o volume de dados a ser analisado, sem que haja alterações significativas no seu conteúdo. Então, analisando as metodologias de SSA existentes, em especial, Redutos na Teoria de Rough Sets, FOCUS e FOCUS-2, verificou-se que em Redutos selecionam-se atributos condicionais sem considerar o atributo de decisão que é o objeto do conhecimento a ser extraído. E na FOCUS e FOCUS-2, que aplica conceitos semelhantes à metodologia Redutos, implicando em análise de todas as combinações de exemplos (dois a dois), verifica-se que a aplicação ocorre para pares de exemplos pertencentes a classes diferentes, dessa forma considerando o atributo de decisão. A partir dessa análise, elaborou-se a metodologia proposta neste trabalho, que utiliza os conceitos introduzidos na Teoria de Rough Sets, com um diferencial na composição da Matriz de Discernimento. Esse diferencial considera o atributo de decisão na composição dessa matriz, como em FOCUS e FOCUS-2, indo mais além, por prover um tratamento diferenciado para exemplos pertencentes a mesma classe. Pois, criou-se a hipótese de um subconjunto de atributos, apontado por essa metodologia de SSA, conseguir distinguir todos os exemplos pertencentes a classes diferentes e não conseguir concluir que um exemplo pertence a mesma classe de outro exemplo, por ter todos os seus atributos condicionais diferentes entre si. Para viabilizar a implementação da proposta foi necessário introduzir uma simplificação nas matrizes de operação, pois suas dimensões, por definição, são muito grandes. Com isso, concluiu-se a sua implementação, e na seqüência a avaliação. Os resultados das avaliações, no geral, foram satisfatórios, com exceção de alguns pontos que são expostos e discutidos nos capítulos 7 e 8 deste trabalho. In this dissertation, a new Feature Selection Subsets methodology is proposed, to be used in the Knowledge Discover in Database process. The databases, dimensioned for specific purposes, own in its essence, the intrinsic knowledge to the system of its application. This knowledge is very valuable and important to take strategical decisions in this system. Thus, the Artificial Intelligence’s proposal, through of the Data Mining, is to extract this knowledge of databases with automatic form. With this, the KDD concept was introduced, that implies in a knowledge extraction’s database process. One of the stages of the KDD is the Feature Selection Subsets (FSS) that it has for objective to analyze a database and to eliminate attributes not important for knowledge to be extracted, thus reducing the data’s volume to be analyzed, without it has significant alterations in its content. Then, analyzing the existing methodologies of FSS, in special, Reducts in the Theory of Rough Sets, FOCUS and FOCUS-2, were verified that in Reducts selects conditional attributes without considering the decision attribute, that it is the object of the knowledge to be extracted. In FOCUS and FOCUS-2, that applies similar concepts to the Reducts methodology, implying in analysis of all combinations of examples (two by two), verifies that the application occurs to pairs of examples belonging to the different classrooms, of this form considering the decision attribute. From this analysis, it was elaborated the methodology proposal in this work, that uses the concepts introduced in the Theory of Rough Sets, with a differential in the Discernibility Matrix’s composition. This differential considers the attribute decision in the composition of this matrix, as in FOCUS and FOCUS-2, and additionally, providing a differentiated treatment to examples belonging to the same classroom. Well, a hypothesis was created that implies in an attributes subset pointed by a FSS, to obtain to distinguish all examples belonging the different classrooms and not to obtain to conclude that an example belongs the same classroom of another example, for having all its different conditional attributes between itself. To make possible the implementation of the proposal, it was necessary to introduce a simplification in the operation matrices, therefore its dimensions, for definition, are very great. With this, it was concluded its implementation, and in the sequence, the evaluation. The evaluations results, in the generality, had been satisfactory, with exception of some points that are displayed and argued in chapters 7 and 8 of this work.
Palavras-chave:	Mineração de Dados Inteligência Artificial Energia Elétrica
Tipo de acesso:	Acesso Aberto
URI:	https://repositorio.ufms.br/handle/123456789/621
Data do documento:	2008
Aparece nas coleções:	Programa de Pós-graduação em Engenharia Elétrica

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Anderson Teruya.pdf		557,64 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas