Use este identificador para citar ou linkar para este item:
https://repositorio.ufms.br/handle/123456789/5420
Tipo: | Dissertação |
Título: | Mineração de Textos usando Word Embeddings com Contexto Geográfico |
Autor(es): | Antônio Ronaldo da Silva |
Primeiro orientador: | Ricardo Marcondes Marcacini |
Resumo: | Muitos fenômenos importantes estão relacionados a um contexto geográfico, como eventos extraídos de bases textuais na área da economia, saúde pública, violência urbana e questões sociais. A análise de eventos de maneira manual seria impraticável considerando a sua grande quantidade e as diversas formas nas quais os dados são encontrados. Assim, passou-se a ter a necessidade de processos baseados em métodos computacionais inteligentes como a Mineração de Textos que, por meio das suas etapas, torna capaz a exploração do conteúdo textual com informação geográfica e retorna padrões que não seriam encontrados por modelos tradicionais. O modelo tradicional para analisar a relação entre termos e regiões é o de calcular a probabilidade de um termo ser utilizado em textos associados a uma região, em geral, por meio da frequência de termos em regiões. No entanto, é reconhecido que essa abordagem falha para novos termos apresentados a um modelo, bem como para textos com termos ambíguos. Nesse contexto, modelos baseados em Word Embeddings são reconhecidos por melhorar a identificação das relações entre uma palavra e o possível local associado. Nesse sentido, neste projeto são investigadas representações textuais baseadas em Word Embeddings do modelo BERT (Bidirectional Encoder Representations from Transformers) em um processo de ajuste fino, na qual as informações georreferenciadas dos textos são utilizadas como contexto, culminando na proposta deste trabalho denominada GeoTransformers Language Model. Um dos diferenciais da proposta é automaticamente identificar macrorregiões e microrregiões a partir dos eventos e utilizá-las como contexto para ajuste fino de um modelo de linguagem. Os resultados gerados pelo modelo GeoTransformers, em comparação com outros modelos da literatura, apresentaram maiores valores para métricas de precisão, revocação, F1-Score. Além disso, o modelo proposto foi o único capaz de lidar com regiões com menor quantidade de eventos e difíceis de classificar. |
Abstract: | Many essential phenomena are related to a geographic context, such as events extracted from textual bases in economics, public health, and urban violence. Manually analyzing events would be impractical, considering their significant volume and different data sources. Thus, there was a need for intelligent computational methods such as Text Mining that enable the exploration of textual content with geographic information and return patterns that traditional models would not find. The traditional model for analyzing the relationship between terms and regions is to calculate the probability of a term being used in texts associated with a region, in general, through the frequency of terms in regions. However, it is recognized that this approach fails for new terms presented to a model and texts with ambiguous terms. In this context, models based on Word Embeddings are recognized for improving the identification of the relationships between a word and the possible associated location. In this sense, this project investigates textual representations based on Word Embeddings from BERT models (Bidirectional Encoder Representations from Transformers) in a fine-tuning process, in which the georeferenced information of the texts is used as context. We named this proposal the GeoTransformers Language Model. One of the differentials of this proposal is to automatically identify macro-regions and micro-regions from the events and use them as a context for fine-tuning a language model. Compared to other models in the literature, the results generated by the GeoTransformers model obtained higher values for precision metrics, recall, F1-Score. Moreover, our model was the only one capable of dealing with regions with fewer events. |
Palavras-chave: | Análise de Eventos Word Embeddings Textos Georreferenciados Mineração de Textos |
País: | Brasil |
Editor: | Fundação Universidade Federal de Mato Grosso do Sul |
Sigla da Instituição: | UFMS |
Tipo de acesso: | Acesso Aberto |
URI: | https://repositorio.ufms.br/handle/123456789/5420 |
Data do documento: | 2022 |
Aparece nas coleções: | Programa de Pós-graduação em Ciência da Computação |
Arquivos associados a este item:
Arquivo | Tamanho | Formato | |
---|---|---|---|
dissertacao_antonio_ronaldo_da_silva.pdf | 4,2 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.