SimuCourt: Building Judicial Decision-Making Agents with Real-world Judgement Documents

要約

ディープラーニングの発展により、自然言語処理テクノロジーは、従来の司法業界のさまざまな側面の効率を効果的に改善しました。
しかし、現在の取り組みのほとんどは個々の司法段階のみに焦点を当てており、段階を越えた協力は無視されている。
大規模な言語モデルを活用した自律エージェントはますます賢くなり、現実世界の環境で複雑な意思決定を行うことができるようになり、司法情報に新たな洞察を提供します。
この論文では、(1) 最も一般的な 3 種類の裁判にまたがる現実世界の 420 件の判決文書を網羅する司法ベンチマークである SimuCourt と、司法分析と判決を評価する新しいタスク Judicial Decision-Making を紹介します。
エージェントの力を作ること。
このタスクをサポートするために、私たちは複数の法律知識を備えた大規模な司法知識ベース JudicialKB を構築します。
(2) 新しいマルチエージェントフレームワークであるAgentsCourtを提案します。
私たちのフレームワークは、裁判官の意思決定をシミュレートするための法廷討論のシミュレーション、法的情報の検索、判断の洗練から構成される、現実世界の古典的な裁判プロセスに従っています。
(3) 私たちは広範な実験を行い、その結果、私たちのフレームワークがさまざまな側面、特に法的根拠の生成において既存の高度な手法より優れていることが実証され、私たちのモデルは一審と二審で F1 スコア 8.6% と 9.1% の大幅な改善を達成しました。
それぞれ設定します。

要約(オリジナル)

With the development of deep learning, natural language processing technology has effectively improved the efficiency of various aspects of the traditional judicial industry. However, most current efforts focus solely on individual judicial stage, overlooking cross-stage collaboration. As the autonomous agents powered by large language models are becoming increasingly smart and able to make complex decisions in real-world settings, offering new insights for judicial intelligence. In this paper, (1) we introduce SimuCourt, a judicial benchmark that encompasses 420 judgment documents from real-world, spanning the three most common types of judicial cases, and a novel task Judicial Decision-Making to evaluate the judicial analysis and decision-making power of agents. To support this task, we construct a large-scale judicial knowledge base, JudicialKB, with multiple legal knowledge. (2) we propose a novel multi-agent framework, AgentsCourt. Our framework follows the real-world classic court trial process, consisting of court debate simulation, legal information retrieval and judgement refinement to simulate the decision-making of judge. (3) we perform extensive experiments, the results demonstrate that, our framework outperforms the existing advanced methods in various aspects, especially in generating legal grounds, where our model achieves significant improvements of 8.6% and 9.1% F1 score in the first and second instance settings, respectively.

arxiv情報

著者 Zhitao He,Pengfei Cao,Chenhao Wang,Zhuoran Jin,Yubo Chen,Jiexin Xu,Huaijun Li,Xiaojian Jiang,Kang Liu,Jun Zhao
発行日 2024-03-05 13:30:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク