Use este identificador para citar ou linkar para este item:
https://repositorio.ufms.br/handle/123456789/5119
Tipo: | Dissertação |
Título: | JurisBERT: Transformer-based model for embedding legal texts |
Autor(es): | Charles Felipe Oliveira Viegas |
Primeiro orientador: | Renato Porfirio Ishii |
Resumo: | Neste trabalho é proposta uma nova extensão do BERT (Bidirectional Encoder Representations from Transformers), denominada JurisBERT, aplicada na tarefa de Similaridade Semântica Textual (SST) com melhorias consideráveis de rapidez, de precisão e de necessidade reduzida de recursos computacionais em relação a outras abordagens. O JurisBERT foi treinado do zero com textos de domínio específicos para lidar com leis, doutrinas e precedentes, e tem melhor precisão em relação a outros modelos BERT, que foi a principal contribuição deste trabalho. Além disso, nossa abordagem considera o conceito de sub-línguagem, ou seja, um modelo pré-treinado em um idioma (Português Brasileiro) passa por um refinamento (fine-tuning) para melhor atender a um domínio específico, no nosso caso, o jurídico. A fim de validar a abordagem com dados reais, o JurisBERT cria e emprega 24 mil pares de ementas com grau de similaridade variando entre 0 e 3, extraídas de mecanismos de busca disponíveis nos sites dos tribunais brasileiros. Nossos experimentos demonstraram que o JurisBERT é melhor do que outros modelos em quatro cenários: BERT multi-lingual e BERTimbau sem ajuste fino em cerca de 22% e 12% de F1, respectivamente; e com refinamento em torno de 20% e 4%. Além disso, nossa abordagem reduziu em 5 vezes a etapa de pré-treinamento, além de usar hardware acessível, ou seja, arquiteturas GPGPU de baixo custo. Esse resultado demonstra que nem sempre modelos pré-treinados, como BERT multi-lingual e BERTimbau, são a melhor solução. Assim, provamos que treinar o BERT do zero com textos específicos de domínio tem maior precisão e menor tempo de treinamento do que modelos pré-treinados de domínio geral. O código fonte está disponível em https://github.com/juridics/brazilian-legal-text-dataset. |
Abstract: | We propose in this paper a new extension of BERT (Bidirectional Encoder Representations from Transformers), called JurisBERT. It is applied in Semantic Textual Similarity (STS) and there is a considered improvement in fastness, in precision and it requires less computational resources than other approaches. JurisBERT was trained from scratch with specific domain texts to deal with laws, treatises, and precedents, and has better precision compared to other BERT models, which was our main finding of this work. Furthermore, our approach considers the concept of sublanguage, i.e., a model pre-trained in a language (Brazilian Portuguese) passes through refining (fine-tuning) to better attend to a specific domain, in our case, the legal field. JurisBERT includes 24,000 pairs of ementas with degrees of similarity varying from 0 to 3. We extract these ementas from search mechanisms available on the courts' websites, in order to validate the approach with real data. Our experiments showed JurisBERT is better than other models in four scenarios: multilingual BERT and BERTimbau without fine-tuning in around 22% and 12% precision (F1), respectively; and with fine-tuning in around 20% and 4%. Moreover, our approach reduced 5 times the training steps, besides using accessible hardware, i.e., low-cost GPGPU architectures. This result demonstrates that not always pre-trained models, such as BERT Multilingual and BERTimbau, which are heavy, and require specialized and expensive hardware, are the best solution. So, we have proven that training the BERT from scratch with domain-specific texts has greater accuracy and shorter training time than large and general pre-trained models. The source code is available at https://github.com/juridics/brazilian-legal-text-dataset. |
Palavras-chave: | Retrieving Legal Precedents, Semantic Textual Similarity, Sentence Embedding, BERT |
País: | Brasil |
Editor: | Fundação Universidade Federal de Mato Grosso do Sul |
Sigla da Instituição: | UFMS |
Tipo de acesso: | Acesso Aberto |
URI: | https://repositorio.ufms.br/handle/123456789/5119 |
Data do documento: | 2022 |
Aparece nas coleções: | Programa de Pós-graduação em Computação Aplicada |
Arquivos associados a este item:
Arquivo | Tamanho | Formato | |
---|---|---|---|
JurisBERT__Transformer_based_model_for_embedding_legal_texts.pdf | 837,66 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.