Analysing similarities between legal court documents using natural language processing approaches based on Transformers

要約

近年の人工知能(AI)の進歩により、自然言語処理(NLP)分野の複雑な問題の解決に有望な結果が得られており、法律分野における裁判の迅速な解決に役立つ重要なツールとなっています。このような背景から、本研究では、ブラジルの司法制度における法的手続きのケーススタディにトランスフォーマーアーキテクチャに基づく6つのNLP技術を適用することにより、推論グループにおいて達成可能な司法文書間の類似性の程度を検出する問題を対象とする。BERT、GPT-2、RoBERTaというNLP変換器ベースのモデルは、ブラジルポルトガル語の汎用コーパスを用いて事前に訓練され、その後、21万件の法的手続きを用いて法的分野向けに微調整され、特化されました。各法律文書のベクトル表現は、その埋め込みに基づいて計算され、これを訴訟のクラスタリングに使用し、グループの要素とそのセントロイドとの距離の余弦に基づいて各モデルの品質を計算した。その結果、変換器を用いたモデルは、従来のNLP手法と比較して優れた性能を示し、ブラジルポルトガル語に特化したRoBERTaモデルが最も良い結果を示しました。この方法は、異なる言語の他のケーススタディにも適用することができ、法律分野に適用されるNLPの分野における技術の現状を前進させることが可能である。

要約(オリジナル)

Recent advances in Artificial Intelligence (AI) have leveraged promising results in solving complex problems in the area of Natural Language Processing (NLP), being an important tool to help in the expeditious resolution of judicial proceedings in the legal area. In this context, this work targets the problem of detecting the degree of similarity between judicial documents that can be achieved in the inference group, by applying six NLP techniques based on the transformers architecture to a case study of legal proceedings in the Brazilian judicial system. The NLP transformer-based models, namely BERT, GPT-2 and RoBERTa, were pre-trained using a general purpose corpora of the Brazilian Portuguese language, and then were fine-tuned and specialised for the legal sector using 210,000 legal proceedings. Vector representations of each legal document were calculated based on their embeddings, which were used to cluster the lawsuits, calculating the quality of each model based on the cosine of the distance between the elements of the group to its centroid. We noticed that models based on transformers presented better performance when compared to previous traditional NLP techniques, with the RoBERTa model specialised for the Brazilian Portuguese language presenting the best results. This methodology can be also applied to other case studies for different languages, making it possible to advance in the current state of the art in the area of NLP applied to the legal sector.

arxiv情報

著者 Raphael Souza de Oliveira,Erick Giovani Sperandio Nascimento
発行日 2023-05-11 08:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク