Use este identificador para citar ou linkar para este item: https://repositorio.ufms.br/handle/123456789/5852
Registro completo de metadados
Campo DCValorIdioma
dc.creatorMarlon Daltro Tosta-
dc.date.accessioned2023-05-07T13:08:47Z-
dc.date.available2023-05-07T13:08:47Z-
dc.date.issued2023pt_BR
dc.identifier.urihttps://repositorio.ufms.br/handle/123456789/5852-
dc.description.abstractMillions of cases are currently being processed in the Brazilian judicial system. The court decisions, known as {\em acórdãos}, are collective decisions made by Brazilian courts and are of high relevance in ensuring a unified understanding among judges and different courts. Therefore, developing and implementing effective technological solutions to assist judges judges, appellate and other professionals involved in the judicial process to cope with the growing volume of court cases in Brazil. These solutions should be able to speed up decision making and reduce workload ensuring the efficiency of the judicial system and the satisfaction of citizens who depend on it. The judgments of Brazilian courts are publicly available, However, as these documents are not in a structured format their automatic processing is hampered. However, the lack of structured format in which these documents are available makes their automatic processing challenging. This work collected over 960,000 PDF-format acórdãos documents from five Brazilian courts and used available tools to extract textual content and layout characteristics from 624,161 of them. An automatic annotation method was used to segment the documents into five mandatory segments of acórdãos. A total of 500 documents were manually annotated and they were used as validation and test sets for machine learning models trained on weakly annotated data. Classic and deep learning-based machine learning models were evaluated, with deep learning models outperforming traditional algorithms. Additionally, models that used both textual content and layout information achieved even better results. Models trained and tested on the same court tend to perform comparably or even better than automatic annotation methods, while performance for models trained on one court and tested on another depends on the correlation between the courts. Models trained on judgments from four courts and validated on a fifth achieved even better performance, with an average F1 above 90\% in the best models. General segmentation models showed a trend of improving performance as the variety of layouts in the training data increased, suggesting that expanding the variety of courts in the training data can lead to satisfactory practical performance. In this work, several resources that can be used in future work have been made available. All collected documents in PDF format, as well as the corresponding TSV and JSON files with automatic annotations, are freely available. The automatic segmentation scripts are also available, as are the scripts used for model training and evaluation. Finally, the manually reviewed annotations of 500 documents (100 from each court) are also available.-
dc.language.isopt_BRpt_BR
dc.publisherFundação Universidade Federal de Mato Grosso do Sulpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectSegmentação de Documentos Jurídicos, Aprendizado de Máquina, Processamento de Linguagem Natural-
dc.titleSegmentação de Documentos Jurídicos usando Supervisão Fracapt_BR
dc.typeDissertaçãopt_BR
dc.contributor.advisor1Eraldo Luis Rezende Fernandes-
dc.description.resumoMilhões de processos estão em tramitação no sistema judiciário brasileiro. Os acórdãos são decisões colegiadas de tribunais brasileiros e, por conta disto, são fundamentais na uniformização do entendimento entre os magistrados e entre diferentes tribunais. Portanto, desenvolver e implementar soluções tecnológicas eficazes para auxiliar juízes, desembargadores e outros profissionais envolvidos no processo judicial a lidar com o crescente volume de processos judiciais no Brasil. Essas soluções devem ser capazes de acelerar a tomada de decisões e reduzir a carga de trabalho, garantindo a eficiência do sistema judiciário e a satisfação dos cidadãos que dependem dele. Os acórdãos dos tribunais brasileiros estão disponíveis publicamente, entretanto, como estes documentos não estão em formato estruturado, o processamento automático deles é dificultado. Um dos primeiros passos para o processamento de acórdãos é a segmentação destes documentos que são compostos por diversas seções com diferentes informações sobre a decisão. Neste trabalho, foram coletados mais de 960 mil documentos contendo o inteiro teor de acórdãos de cinco tribunais de diferentes esferas do judiciário brasileiro. Estes documentos estão em formato PDF e foram coletados nos portais de busca dos tribunais. Após a coleta, o conteúdo textual e características de layout de 624.161 acórdãos foram extraídos utilizando diferentes ferramentas. Adicionalmente, um método de segmentação automática foi desenvolvido para cada tribunal e todos os documentos foram segmentados em cinco seções obrigatórias em acórdãos de tribunais brasileiros. A segmentação de 100 documentos de cada tribunal (500 no total) foi manualmente revisada para servirem como validação e teste de modelos de Aprendizado de Máquina (AM). Modelos de AM clássicos e baseados em aprendizado profundo foram avaliados utilizando estes datasets. Todos os modelos foram treinados usando os dados anotados automaticamente (supervisão fraca). Diversos experimentos foram realizados para avaliar diferentes aspectos do problema de segmentação de acórdãos. Particularmente, um aspecto analisado foi a capacidade de generalização dos modelos para tribunais não vistos no treinamento. Outro aspecto considerado nos experimentos foi o impacto de características de layout dos documentos em alguns modelos de AM. Mais especificamente, foram analisados modelos baseados em aprendizado profundo, propostos recentemente na literatura, que consideram como entrada tanto o conteúdo textual quanto algumas características de layout. Modelos de segmentação com incorporação de layout alcançam, em alguns casos, desempenho superior aos métodos desenvolvidos especificamente para um tribunal. Modelos que são treinados e testados no mesmo tribunal também tendem a apresentar um desempenho comparável ou até superior aos métodos de anotação automática. No entanto, quando se trata de modelos treinados em um tribunal e testados em outro, o desempenho depende da correlação encontrada entre eles. Em alguns casos, a perda de desempenho é substancial. Neste trabalho, são disponibilizados diversos recursos que podem ser usados em trabalhos futuros. Todos os documentos coletados em formato PDF, assim como os correspondentes arquivos TSV e JSON com as anotações automáticas, estão disponíveis livremente. Também estão disponíveis os scripts de segmentação automática, assim como os scripts usados para treinamento e avaliação de modelos. Por fim, também estão disponíveis as anotações revisadas manualmente de 500 documentos (100 de cada tribunal).pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.initialsUFMSpt_BR
Aparece nas coleções:Programa de Pós-graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo TamanhoFormato 
TRABALHO DE CONCLUSÃO_Mestrado.pdf2,79 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.