要約
法的推論タスクは、ドメイン固有の知識と推論プロセスの複雑さのために、大規模な言語モデル(LLMS)に独自の課題を提示します。
このホワイトペーパーでは、法的質問の回答精度を改善するために、1,514のマルチステートバー検査(MBE)の質問の限られたデータセットで、より小さな言語モデル(Llama 2 7bおよびllama 3 8b)を微調整できる方法を調査します。
これらのモデルを、「GPT-4で使用されているJDアドバイスからライセンスされた2022 MBE質問」で評価します。
私たちの方法論では、7つのドメインにわたって法的ドメインごとに約200の質問を収集することが含まれます。
Llama 3(70b)を使用してデータセットを蒸留し、説明を構造化されたIRAC(問題、ルール、アプリケーション、結論)形式に変換して、ガイド付き推論プロセスとして、未留めのデータセットよりもパフォーマンスが向上するかどうかを確認します。
ドメインごとに異なるサンプルサイズのために訓練された、監視された微調整(SFT)のカウンターパートと、非ファインチューニングモデルを、精度と迅速なアドヒアランスへの影響を研究するために、監視された微調整(SFT)のカウンターパートと比較します。
また、SFT後のオプション選択バイアスとその緩和を分析します。
さらに、複数の変数にわたってパフォーマンスを統合します:プロンプトタイプ(少数のショットvsゼロショット)、回答順序(選択対象対生成 – 実現最初)、応答形式(番号付きリストvs Markdown vs JSON)、およびさまざまなデコード温度。
私たちの調査結果は、ドメイン固有のSFTが、計算リソースが限られており、比較的小さなデータセットにもかかわらず、一部のモデル構成が人間のベースラインパフォーマンスに近づくのに役立つことを示しています。
収集されたSFTデータセットと、MBEパフォーマンスに最適化された監視付き微調整(SFT)アダプターのファミリーの両方をリリースします。
これにより、より小さなLLMでの効果的な法的質問の回答を達成するために必要なリソースの実用的な下限が確立されます。
要約(オリジナル)
Legal reasoning tasks present unique challenges for large language models (LLMs) due to the complexity of domain-specific knowledge and reasoning processes. This paper investigates how effectively smaller language models (Llama 2 7B and Llama 3 8B) can be fine-tuned with a limited dataset of 1,514 Multi-state Bar Examination (MBE) questions to improve legal question answering accuracy. We evaluate these models on the 2022 MBE questions licensed from JD Advising, the same dataset used in the ‘GPT-4 passes the Bar exam’ study. Our methodology involves collecting approximately 200 questions per legal domain across 7 domains. We distill the dataset using Llama 3 (70B) to transform explanations into a structured IRAC (Issue, Rule, Application, Conclusion) format as a guided reasoning process to see if it results in better performance over the non-distilled dataset. We compare the non-fine-tuned models against their supervised fine-tuned (SFT) counterparts, trained for different sample sizes per domain, to study the effect on accuracy and prompt adherence. We also analyse option selection biases and their mitigation following SFT. In addition, we consolidate the performance across multiple variables: prompt type (few-shot vs zero-shot), answer ordering (chosen-option first vs generated-explanation first), response format (Numbered list vs Markdown vs JSON), and different decoding temperatures. Our findings show that domain-specific SFT helps some model configurations achieve close to human baseline performance, despite limited computational resources and a relatively small dataset. We release both the gathered SFT dataset and the family of Supervised Fine-tuned (SFT) adapters optimised for MBE performance. This establishes a practical lower bound on resources needed towards achieving effective legal question answering in smaller LLMs.
arxiv情報
著者 | Rean Fernandes,André Biedenkapp,Frank Hutter,Noor Awad |
発行日 | 2025-04-07 11:31:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google