PUL-SSC: Aprendizado baseado em umaúnica classe com agrupamentosemissupervisionado

SHIH TING JU

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/4032

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	SHIH TING JU	-
dc.date.accessioned	2021-10-04T17:35:09Z	-
dc.date.available	2021-10-04T17:35:09Z	-
dc.date.issued	2021	pt_BR
dc.identifier.uri	https://repositorio.ufms.br/handle/123456789/4032	-
dc.description.abstract	The large amount of data currently available is a source for extracting information for commercial and academic purposes. One approach for extracting knowledge on such bases that has gained prominence is one-class classification (OCC). The use of OCC in classifying whether an example is of a specific class is appropriate in datasets where the classes are unbalanced or where only the data of the class of interest are present during the training. Several OCC algorithms found in the literature use unsupervised clustering to delimit the border of the class of interest. These algorithms present competitive results with those presented by other OCC algorithms. Although semisupervised learning has shown the possibility to achieve better results in several areas than with unsupervised, semi-supervised clustering is still little explored for OCC. One approach for OCC is Positive and Unlabeled Learning (PUL), in which learning occurs only with positive (interest) and unlabeled data. PUL algorithms seek to find a delimitation of the positive class. This master’s degree project proposes a new algorithm PUL-SSC (Positive and Unlabeled Learning with Semi-Supervised Clustering) that learns the delimitation of the class of interest by creating and using must-link and cannot-link restrictions, clustering data with semi-supervised algorithm and a transductive learning process for label propagation. Two widely used semi-supervised clustering algorithms were employed: PCK-Means and MPCK-Means. In our experimental evaluation, semi-supervised algorithms outperformed the k-Means based algorithm and one-class SVM (OC-SVM) in most of the scenarios. In particular, the distance-based algorithm MPCK-Means was dominant in most of the comparisons using numerical and textual databases.	-
dc.language.iso	pt_BR	pt_BR
dc.publisher	Fundação Universidade Federal de Mato Grosso do Sul	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	one-class learning	-
dc.subject	agrupamento semissupervisionado	-
dc.subject	aprendizado de métrica	-
dc.title	PUL-SSC: Aprendizado baseado em umaúnica classe com agrupamentosemissupervisionado	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor1	Bruno Magalhaes Nogueira	-
dc.description.resumo	A grande quantidade de dados disponíveis atualmente é uma fonte de extração de informações para fins comerciais e acadêmicos. Uma abordagem para extrair conhecimento em bases de dados que ganhou destaque é a classificação de uma única classe (em inglês, One-class Classification - OCC). O uso de OCC para classificar se um exemplo é de uma classe específica é apropriado em conjuntos de dados em que as classes são desbalanceadas ou apenas os dados da classe de interesse estão presentes durante o treinamento. Vários algoritmos de OCC encontrados na literatura utilizam agrupamento não supervisionado para delimitar a fronteira da classe de interesse. Esses algoritmos conseguem ter resultados competitivos com aqueles apresentados por outros algoritmos de OCC. Embora o aprendizado semissupervisionado tenha mostrado a possibilidade de alcançar melhores resultados em várias áreas do que com o agrupamento semissupervisionado, o agrupamento semissupervisionado ainda é pouco explorado para OCC. Uma abordagem para OCC é o Positive and Unlabeled Learning (PUL), em que o aprendizado ocorre apenas com dados positivos (interesse) e não rotulados. Os algoritmos de PUL procuram encontrar uma delimitação da classe positiva. Este trabalho de mestrado propõe um novo algoritmo PUL-SSC (Positive and Unlabeled Learning with Semi-Supervised Clustering) que aprende a delimitar a classe de interesse através da criação e utilização de restrições must-link e cannot-link, agrupamento de dados com algoritmo semisupervisionado e um processo de aprendizado transdutivo para propagação de rótulos. Foram explorados dois algoritmos de agrupamento semissupervisionados amplamente usados: PCKMeans e MPCK-Means. Na avaliação experimental, os algoritmos semissupervisionados superaram o algoritmo baseado em k-Means e o SVM de uma classe (OC-SVM) na maioria dos cenários. Em particular, o algoritmo baseado em distância MPCK-Means foi dominante na maioria das comparações usando conjuntos de dados numéricos e textuais.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.initials	UFMS	pt_BR
Aparece nas coleções:	Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
dissertacao_final_corrigida_shih.pdf		1,2 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Visualizar estatísticas