要約
大規模な言語モデル(LLM)は、多様なドメインにわたって自然言語処理(NLP)に優れた機能を示しています。
ただし、アラビア語のような低リソース言語の法的判断予測(LJP)などの専門的なタスクへの適用は、既存のままです。
この作業では、サウジアラビアの商業裁判所の判決から収集および前処理されたアラビア語のLJPデータセットを開発することにより、このギャップに対処します。
Qloraを使用してゼロショット、ワンショット、微調整などのさまざまな構成の下で、Llama-3.2-3bおよびLlama-3.1-8bを含む最先端のオープンソースLLMをベンチマークします。
さらに、定量的メトリック(BLEとルージュ)と定性的評価(一貫性、法律言語、明確さ)を組み合わせた包括的な評価フレームワークを使用しました。
我々の結果は、微調整された小規模モデルが、タスク固有のコンテキストで大きなモデルに匹敵するパフォーマンスを達成しながら、重要なリソース効率を提供することを示しています。
さらに、モデルの出力に対する迅速なエンジニアリングと微調整の影響を調査し、パフォーマンスの変動性と指導の感度に関する洞察を提供します。
データセット、実装コード、モデルを公開されているモデルを作成することにより、アラビア語の法的NLPの将来の研究のための堅牢な基盤を確立します。
要約(オリジナル)
Large Language Models (LLMs) have shown exceptional capabilities in Natural Language Processing (NLP) across diverse domains. However, their application in specialized tasks such as Legal Judgment Prediction (LJP) for low-resource languages like Arabic remains underexplored. In this work, we address this gap by developing an Arabic LJP dataset, collected and preprocessed from Saudi commercial court judgments. We benchmark state-of-the-art open-source LLMs, including LLaMA-3.2-3B and LLaMA-3.1-8B, under varying configurations such as zero-shot, one-shot, and fine-tuning using QLoRA. Additionally, we used a comprehensive evaluation framework combining quantitative metrics (BLEU and ROUGE) and qualitative assessments (Coherence, legal language, clarity). Our results demonstrate that fine-tuned smaller models achieve comparable performance to larger models in task-specific contexts while offering significant resource efficiency. Furthermore, we investigate the effects of prompt engineering and fine-tuning on model outputs, providing insights into performance variability and instruction sensitivity. By making the dataset, implementation code, and models publicly available, we establish a robust foundation for future research in Arabic legal NLP.
arxiv情報
著者 | Mohamed Bayan Kmainasi,Ali Ezzat Shahroor,Amani Al-Ghraibah |
発行日 | 2025-02-05 12:17:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google