要約
このペーパーでは、中国の法制度における判断文書生成のパフォーマンスを評価するための新しいベンチマークである裁判官(判決文書生成評価)を紹介します。
このタスクを、ケースの特定の事実の説明から完全な法的判断文書を生成するものとして定義します。
このベンチマークを容易にするために、実際の法的ケースからの事実の説明からなる包括的なデータセットを構築し、それに対応する完全な判断文書と組み合わせて、生成された文書の品質を評価するための基本的な真理として機能します。
このデータセットは、タスクに追加の法的知識を提供する2つの外部の法的コーパスによってさらに補強されています。1つは法令と規制で構成され、もう1つは過去の判断文書の大規模なコレクションで構成されています。
法律専門家と協力して、さまざまな次元にわたる生成された判断文書の品質を評価するための包括的な自動評価フレームワークを確立します。
一般的なドメインLLMと法的ドメインLMSの両方を使用して、少数のショットコンテキスト内学習、微調整、およびマルチソース検索の高級世代(RAG)アプローチなど、さまざまなベースラインアプローチを評価します。
実験結果は、RAGアプローチがこのタスクのパフォーマンスを効果的に改善できるが、さらなる改善の余地がまだあることを示しています。
すべてのコードとデータセットは、https://github.com/oneal2000/judgeで入手できます。
要約(オリジナル)
This paper introduces JuDGE (Judgment Document Generation Evaluation), a novel benchmark for evaluating the performance of judgment document generation in the Chinese legal system. We define the task as generating a complete legal judgment document from the given factual description of the case. To facilitate this benchmark, we construct a comprehensive dataset consisting of factual descriptions from real legal cases, paired with their corresponding full judgment documents, which serve as the ground truth for evaluating the quality of generated documents. This dataset is further augmented by two external legal corpora that provide additional legal knowledge for the task: one comprising statutes and regulations, and the other consisting of a large collection of past judgment documents. In collaboration with legal professionals, we establish a comprehensive automated evaluation framework to assess the quality of generated judgment documents across various dimensions. We evaluate various baseline approaches, including few-shot in-context learning, fine-tuning, and a multi-source retrieval-augmented generation (RAG) approach, using both general and legal-domain LLMs. The experimental results demonstrate that, while RAG approaches can effectively improve performance in this task, there is still substantial room for further improvement. All the codes and datasets are available at: https://github.com/oneal2000/JuDGE.
arxiv情報
著者 | Weihang Su,Baoqing Yue,Qingyao Ai,Yiran Hu,Jiaqi Li,Changyue Wang,Kaiyuan Zhang,Yueyue Wu,Yiqun Liu |
発行日 | 2025-03-20 15:09:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google