Rethinking Legal Judgement Prediction in a Realistic Scenario in the Era of Large Language Models

要約

この研究では、Llama-2 や GPT-3.5 Turbo などの LLM と並行して、InLegalBERT、BERT、XLNet などのさまざまなトランスフォーマー ベースのモデルを利用して、インドの判決のコンテキスト内で現実的なシナリオでの判決予測を調査します。
この現実的なシナリオでは、訴訟の事実、法令、判例、議論など、その時点で入手可能な情報のみを使用して、訴訟が法廷で決定を下される時点での判決がどのように予測されるかをシミュレーションします。
このアプローチは、過去の研究でよく見られる遡及的分析とは異なり、後知恵の恩恵を受けることなく意思決定を下さなければならない現実世界の状況を模倣しています。
トランスフォーマー モデルについては、階層トランスフォーマーと判断事実の要約を実験して、これらのモデルへの入力を最適化します。
LLM を使用した実験では、GPT-3.5 Turbo が現実的なシナリオで優れており、判断予測において堅牢なパフォーマンスを示していることが明らかになりました。
さらに、法令や判例などの追加の法的情報を組み込むことで、予測タスクの結果が大幅に向上します。
LLM は、予測の説明も提供します。
これらの予測と説明の品質を評価するために、明瞭さとリンクという 2 つの人間による評価指標を導入します。
自動評価と人間による評価の両方から得られた調査結果は、LLM の進歩にもかかわらず、判断の予測と説明のタスクにおいて専門家レベルのパフォーマンスをまだ達成していないことを示しています。

要約(オリジナル)

This study investigates judgment prediction in a realistic scenario within the context of Indian judgments, utilizing a range of transformer-based models, including InLegalBERT, BERT, and XLNet, alongside LLMs such as Llama-2 and GPT-3.5 Turbo. In this realistic scenario, we simulate how judgments are predicted at the point when a case is presented for a decision in court, using only the information available at that time, such as the facts of the case, statutes, precedents, and arguments. This approach mimics real-world conditions, where decisions must be made without the benefit of hindsight, unlike retrospective analyses often found in previous studies. For transformer models, we experiment with hierarchical transformers and the summarization of judgment facts to optimize input for these models. Our experiments with LLMs reveal that GPT-3.5 Turbo excels in realistic scenarios, demonstrating robust performance in judgment prediction. Furthermore, incorporating additional legal information, such as statutes and precedents, significantly improves the outcome of the prediction task. The LLMs also provide explanations for their predictions. To evaluate the quality of these predictions and explanations, we introduce two human evaluation metrics: Clarity and Linking. Our findings from both automatic and human evaluations indicate that, despite advancements in LLMs, they are yet to achieve expert-level performance in judgment prediction and explanation tasks.

arxiv情報

著者 Shubham Kumar Nigam,Aniket Deroy,Subhankar Maity,Arnab Bhattacharya
発行日 2024-10-14 14:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク