Detecção de Hiperônimos com BERT e Padrões de Hearst

Gabriel Escobar Paes

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/3650

Tipo:	Dissertação
Título:	Detecção de Hiperônimos com BERT e Padrões de Hearst
Autor(es):	Gabriel Escobar Paes
Primeiro orientador:	Eraldo Luis Rezende Fernandes
Resumo:	A relação de hiperônimo é uma importante relação semântica entre palavras que é útil para resolver problemas como resolução de correferência, extração de relações, textual entailment, dentre outros. Um hiperônimo é uma palavra de sentido mais genérico, enquanto um hipônimo é uma palavra de sentido mais específico. Por exemplo, cidade é hiperônimo de roma, e cachorro é hipônimo de animal. Neste trabalho, propomos um algoritmo não-supervisionado para a tarefa de detecção de hiperônimo que combina os chamados padrões de Hearst com o modelo de linguagem BERT. Padrões de Hearst são padrões linguísticos como banana é um tipo de fruta, o qual é um indício que fruta é um hiperônimo de banana. Uma limitação deste tipo de abordagem é o problema de escassez (sparsity), comum a métodos baseados em padrões linguísticos. O modelo de linguagem BERT é um modelo profundo de representação contextual que é treinado para predizer palavras mascaradas na sequência de entrada. Nós combinamos esta característica do BERT com padrões de Hearst para derivar um algoritmo de detecção de hiperônimo que obtém os melhores resultados da literatura em 7 de 13 datasets considerados. Dentre estes datasets, estão os três primeiros datasets em português e que foram desenvolvidos neste trabalho. Nós comparamos nosso método com o algoritmo DIVE, uma extensão do conhecido algoritmo word2vec que detinha os melhores resultados na maioria dos datasets em inglês para detecção de hiperônimo. Nosso método alcança um desempenho 3 pontos acima do DIVE na média dos treze datasets considerados.
Abstract:	Hypernym relation (also known as is-a relation) is a relevant semantic relation between words that is useful to tasks like coreference resolution, relation extraction, textual entailment, among others. A hypernym is a generic word, while a hyponym is a specific word. For example, city is a hypernym of rome, and dog is a hyponym of animal. In this work, we propose an unsupervised algorithm for hypernym detection that combines Hearst patterns with the BERT language model. Hearst patterns are linguistic patterns such as banana is a kind of fruit, which indicates that fruit is hypernym of banana. An important limitation of such methods is its sparsity, a common problem for pattern-based methods. The BERT language model is a contextual representation model trained to predict masked words within an input sequence. We combine this aspect of BERT with Hearst patterns to create a novel algorithm for hypernym detection which achieves the state-of-the-art performance on 7 out of 13 evaluated datasets. Among these datasets, there are three new datasets in Portuguese, which were developed during this work and are the first for this language. We compare our method to the DIVE algorithm, an extension of the well-known word2vec algorithm. DIVE retained the best results for most of the datasets in English. Our method outperforms DIVE by 3 points on average for the thirteen considered datasets.
Palavras-chave:	detecção de hiperônimos, aprendizado de máquina, processamento de linguagem natural
País:	Brasil
Editor:	Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição:	UFMS
Tipo de acesso:	Acesso Aberto
URI:	https://repositorio.ufms.br/handle/123456789/3650
Data do documento:	2021
Aparece nas coleções:	Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
dissertacao_msc_gabriel_ENTREGA.pdf		1,28 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas