JurisBERT: Transformer-based model for embedding legal texts

Charles Felipe Oliveira Viegas

Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/5119

Tipo:	Dissertação
Título:	JurisBERT: Transformer-based model for embedding legal texts
Autor(es):	Charles Felipe Oliveira Viegas
Primeiro orientador:	Renato Porfirio Ishii
Resumo:	Neste trabalho é proposta uma nova extensão do BERT (Bidirectional Encoder Representations from Transformers), denominada JurisBERT, aplicada na tarefa de Similaridade Semântica Textual (SST) com melhorias consideráveis de rapidez, de precisão e de necessidade reduzida de recursos computacionais em relação a outras abordagens. O JurisBERT foi treinado do zero com textos de domínio específicos para lidar com leis, doutrinas e precedentes, e tem melhor precisão em relação a outros modelos BERT, que foi a principal contribuição deste trabalho. Além disso, nossa abordagem considera o conceito de sub-línguagem, ou seja, um modelo pré-treinado em um idioma (Português Brasileiro) passa por um refinamento (fine-tuning) para melhor atender a um domínio específico, no nosso caso, o jurídico. A fim de validar a abordagem com dados reais, o JurisBERT cria e emprega 24 mil pares de ementas com grau de similaridade variando entre 0 e 3, extraídas de mecanismos de busca disponíveis nos sites dos tribunais brasileiros. Nossos experimentos demonstraram que o JurisBERT é melhor do que outros modelos em quatro cenários: BERT multi-lingual e BERTimbau sem ajuste fino em cerca de 22% e 12% de F1, respectivamente; e com refinamento em torno de 20% e 4%. Além disso, nossa abordagem reduziu em 5 vezes a etapa de pré-treinamento, além de usar hardware acessível, ou seja, arquiteturas GPGPU de baixo custo. Esse resultado demonstra que nem sempre modelos pré-treinados, como BERT multi-lingual e BERTimbau, são a melhor solução. Assim, provamos que treinar o BERT do zero com textos específicos de domínio tem maior precisão e menor tempo de treinamento do que modelos pré-treinados de domínio geral. O código fonte está disponível em https://github.com/juridics/brazilian-legal-text-dataset.
Abstract:	We propose in this paper a new extension of BERT (Bidirectional Encoder Representations from Transformers), called JurisBERT. It is applied in Semantic Textual Similarity (STS) and there is a considered improvement in fastness, in precision and it requires less computational resources than other approaches. JurisBERT was trained from scratch with specific domain texts to deal with laws, treatises, and precedents, and has better precision compared to other BERT models, which was our main finding of this work. Furthermore, our approach considers the concept of sublanguage, i.e., a model pre-trained in a language (Brazilian Portuguese) passes through refining (fine-tuning) to better attend to a specific domain, in our case, the legal field. JurisBERT includes 24,000 pairs of ementas with degrees of similarity varying from 0 to 3. We extract these ementas from search mechanisms available on the courts' websites, in order to validate the approach with real data. Our experiments showed JurisBERT is better than other models in four scenarios: multilingual BERT and BERTimbau without fine-tuning in around 22% and 12% precision (F1), respectively; and with fine-tuning in around 20% and 4%. Moreover, our approach reduced 5 times the training steps, besides using accessible hardware, i.e., low-cost GPGPU architectures. This result demonstrates that not always pre-trained models, such as BERT Multilingual and BERTimbau, which are heavy, and require specialized and expensive hardware, are the best solution. So, we have proven that training the BERT from scratch with domain-specific texts has greater accuracy and shorter training time than large and general pre-trained models. The source code is available at https://github.com/juridics/brazilian-legal-text-dataset.
Palavras-chave:	Retrieving Legal Precedents, Semantic Textual Similarity, Sentence Embedding, BERT
País:	Brasil
Editor:	Fundação Universidade Federal de Mato Grosso do Sul
Sigla da Instituição:	UFMS
Tipo de acesso:	Acesso Aberto
URI:	https://repositorio.ufms.br/handle/123456789/5119
Data do documento:	2022
Aparece nas coleções:	Programa de Pós-graduação em Computação Aplicada

Arquivos associados a este item:

Arquivo	Tamanho	Formato
JurisBERT__Transformer_based_model_for_embedding_legal_texts.pdf	837,66 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas