Improving Legal Judgement Prediction in Romanian with Long Text Encoders

要約

近年、自然言語処理 (NLP) の分野全体で、さまざまなタスクでほぼ人間のようなパフォーマンスを達成する驚くべき斬新な成果が得られています。
法的 NLP ドメインもこのプロセスの一部となり、目覚ましい成長を遂げています。
ただし、汎用モデルは法的領域にはすぐには適用できません。
分野の性質 (例: 特殊な語彙、長い文書) により、法的 NLP には特定のモデルと手法が必要になることがよくあります。
この研究では、法的判決予測 (LJP) として知られるタスク、訴訟の最終判決を予測するための特殊なモデルと一般的なモデルの両方を調査します。
私たちは、法的コーパスに存在する長い文書をよりよく理解するために、Transformer ベースのモデルのシーケンス長まで拡張する方法に特に焦点を当てています。
サイズとドキュメントの長さが大きく異なる 2 つのソースに由来するルーマニア語の 4 つの LJP データセットに対する広範な実験により、優れたパフォーマンスには特殊なモデルと長いテキストの処理が重要であることがわかりました。

要約(オリジナル)

In recent years,the entire field of Natural Language Processing (NLP) has enjoyed amazing novel results achieving almost human-like performance on a variety of tasks. Legal NLP domain has also been part of this process, as it has seen an impressive growth. However, general-purpose models are not readily applicable for legal domain. Due to the nature of the domain (e.g. specialized vocabulary, long documents) specific models and methods are often needed for Legal NLP. In this work we investigate both specialized and general models for predicting the final ruling of a legal case, task known as Legal Judgment Prediction (LJP). We particularly focus on methods to extend to sequence length of Transformer-based models to better understand the long documents present in legal corpora. Extensive experiments on 4 LJP datasets in Romanian, originating from 2 sources with significantly different sizes and document lengths, show that specialized models and handling long texts are critical for a good performance.

arxiv情報

著者 Mihai Masala,Traian Rebedea,Horia Velicu
発行日 2024-02-29 13:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク