LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM

要約

独自およびオープンソースの両方である大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクにわたって顕著な能力を実証しています。
しかし、彼らは法的推論のタスクに大きな制限に直面しています。
独自のモデルでは、データのプライバシーリスクと高い推論コストを導入しますが、法的ドメイントレーニングデータが不十分なため、オープンソースモデルがパフォーマンスが低下しています。
これらの制限に対処するために、独自のLLMSの助けを借りて、オープンソースLLMSの法的推論パフォーマンスを改善するために、法的推論のためにデータ生成を研究します。
これは、独自のLLMSに関する法的知識の欠如と、生成されたデータの検証の難しさのために困難です。
法的推論のための知識ガイド付きデータ生成フレームワークであるKGDGを提案します。
当社のフレームワークにより、法的知識を活用して生成の多様性を高め、生成されたデータの品質を確保するための改良と検証プロセスを導入できます。
さらに、生成されたデータセットを拡張して、LLMの推論機能をさらに強化します。
KGDGを使用して、50K高品質の例を含む合成法的推論データセットを作成します。
訓練されたモデルLawGPTは、既存の法的固有のLLMSを上回り、独自のLLMに匹敵するパフォーマンスを達成し、KGDGとLawGPTの有効性を実証します。
私たちのコードとリソースは、https://anonymous.4open.science/r/kgdg-45f5で公開されています。

要約(オリジナル)

Large language models (LLMs), both proprietary and open-source, have demonstrated remarkable capabilities across various natural language processing tasks. However, they face significant limitations in legal reasoning tasks. Proprietary models introduce data privacy risks and high inference costs, while open-source models underperform due to insufficient legal domain training data. To address these limitations, we study data generation for legal reasoning to improve the legal reasoning performance of open-source LLMs with the help of proprietary LLMs. This is challenging due to the lack of legal knowledge in proprietary LLMs and the difficulty in verifying the generated data. We propose KgDG, a knowledge-guided data generation framework for legal reasoning. Our framework enables leveraging legal knowledge to enhance generation diversity and introduces a refinement and verification process to ensure the quality of generated data. Moreover, we expand the generated dataset to further enhance the LLM reasoning capabilities. Using KgDG, we create a synthetic legal reasoning dataset containing 50K high-quality examples. Our trained model LawGPT outperforms existing legal-specific LLMs and achieves performance comparable to proprietary LLMs, demonstrating the effectiveness of KgDG and LawGPT. Our code and resources is publicly available at https://anonymous.4open.science/r/KgDG-45F5 .

arxiv情報

著者 Zhi Zhou,Kun-Yang Yu,Shi-Yu Tian,Jiang-Xin Shi,Xiao-Wen Yang,Pengxiao Song,Yi-Xuan Jin,Lan-Zhe Guo,Yu-Feng Li
発行日 2025-02-10 15:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク