要約
LLMの法的数学的推論能力は、LLMの信頼性に直接影響するため、LLMを実世界のシナリオに適用する際に極めて重要である。既存の法的LLMは一般的な司法質問応答を行うことができるが、その法的数学的推論能力は訓練されていない。オープンドメインの推論モデルは、詳細な計算ステップを生成することはできるが、法的シナリオに必要な推論ロジックに従っていない。さらに、法的文脈におけるLLMの推論能力を検証し、強化するのに役立つ法的数学的推論データセットが現在のところ不足している。これらの問題に対処するため、我々は中国初の法的数理推論データセットLexNumを提案する。LexNumには3つの一般的な法的数理推論シナリオが含まれている:経済補償、労働災害補償、交通事故補償。LexNumに基づき、既存の法的LLMと推論LLMの性能をテストし、法的手続き認識によって導かれる強化学習アルゴリズムであるLexPamを導入してLLMを訓練し、法的シナリオにおける数学的推論能力を向上させた。3つの法的シナリオのタスクに関する実験から、法的数理的推論タスクにおける既存の法的LLMと推論モデルの性能は不満足であることが示された。LexPamはこれらのタスクにおけるLLMの能力を向上させることができる。
要約(オリジナル)
The legal mathematical reasoning ability of LLMs is crucial when applying them to real-world scenarios, as it directly affects the credibility of the LLM. While existing legal LLMs can perform general judicial question answering, their legal mathematical reasoning capabilities have not been trained. Open-domain reasoning models, though able to generate detailed calculation steps, do not follow the reasoning logic required for legal scenarios. Additionally, there is currently a lack of legal mathematical reasoning datasets to help validate and enhance LLMs’ reasoning abilities in legal contexts. To address these issues, we propose the first Chinese legal Mathematical Reasoning Dataset, LexNum, which includes three common legal mathematical reasoning scenarios: economic compensation, work injury compensation, and traffic accident compensation. Based on LexNum, we tested the performance of existing legal LLMs and reasoning LLMs, and introduced LexPam, a reinforcement learning algorithm guided by legal procedural awareness to train LLMs, enhancing their mathematical reasoning abilities in legal scenarios. Experiments on tasks in the three legal scenarios show that the performance of existing legal LLMs and reasoning models in legal mathematical reasoning tasks is unsatisfactory. LexPam can enhance the LLM’s ability in these tasks.
arxiv情報
| 著者 | Kepu Zhang,Guofu Xie,Weijie Yu,Mingyue Xu,Xu Tang,Yaxin Li,Jun Xu |
| 発行日 | 2025-04-03 13:54:53+00:00 |
| arxivサイト | arxiv_id(pdf) |