NyayaAnumana & INLegalLlama: The Largest Indian Legal Judgment Prediction Dataset and Specialized Language Model for Enhanced Decision Analysis

要約

法的判決予測 (LJP) への人工知能 (AI) の統合は、特にインドのような大量の未処理事件が法制度に負担をかけている法域において、法的状況を変える可能性があります。
この文書では、LJP 用に編集されたインドの訴訟の最大かつ最も多様なコーパスである NyayaAnumana を紹介します。これには、前処理された合計 7,02,945 件の訴訟が含まれています。
ニヤヤアヌマナは、ほとんどの主要なインド言語の「ニャイ」(判断)と「アヌマン」(予測または推論)という単語をそれぞれ組み合わせたもので、最高裁判所、高等裁判所、裁判所、地方裁判所、日刊紙の幅広い判例が含まれています。
注文することで、比類のない多様性とカバー範囲を提供します。
当社のデータセットは、PredEx や ILDC などの既存のデータセットを上回り、法律分野における高度な AI 研究のための包括的な基盤を提供します。
データセットに加えて、インドの法制度の複雑さに合わせて調整されたドメイン固有の生成大規模言語モデル (LLM) である INLegalLlama も紹介します。
これは、基本 LLaMa モデルに対する 2 段階のトレーニング アプローチを通じて開発されています。
まず、継続的な事前トレーニングを使用してインドの法的文書を挿入します。
次に、タスク固有の教師あり微調整が行われます。
この方法により、モデルは法的文脈をより深く理解できるようになります。
私たちの実験では、多様なコートデータを組み込むことでモデルの精度が大幅に向上し、予測タスクで約 90% の F1 スコアを達成できることが実証されました。
INLegalLlama は、予測精度を向上させるだけでなく、わかりやすい説明も提供し、AI 支援による法的判断における説明可能性のニーズに対応します。

要約(オリジナル)

The integration of artificial intelligence (AI) in legal judgment prediction (LJP) has the potential to transform the legal landscape, particularly in jurisdictions like India, where a significant backlog of cases burdens the legal system. This paper introduces NyayaAnumana, the largest and most diverse corpus of Indian legal cases compiled for LJP, encompassing a total of 7,02,945 preprocessed cases. NyayaAnumana, which combines the words ‘Nyay’ (judgment) and ‘Anuman’ (prediction or inference) respectively for most major Indian languages, includes a wide range of cases from the Supreme Court, High Courts, Tribunal Courts, District Courts, and Daily Orders and, thus, provides unparalleled diversity and coverage. Our dataset surpasses existing datasets like PredEx and ILDC, offering a comprehensive foundation for advanced AI research in the legal domain. In addition to the dataset, we present INLegalLlama, a domain-specific generative large language model (LLM) tailored to the intricacies of the Indian legal system. It is developed through a two-phase training approach over a base LLaMa model. First, Indian legal documents are injected using continual pretraining. Second, task-specific supervised finetuning is done. This method allows the model to achieve a deeper understanding of legal contexts. Our experiments demonstrate that incorporating diverse court data significantly boosts model accuracy, achieving approximately 90% F1-score in prediction tasks. INLegalLlama not only improves prediction accuracy but also offers comprehensible explanations, addressing the need for explainability in AI-assisted legal decisions.

arxiv情報

著者 Shubham Kumar Nigam,Balaramamahanthi Deepak Patnaik,Shivam Mishra,Noel Shallum,Kripabandhu Ghosh,Arnab Bhattacharya
発行日 2024-12-11 13:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク