要約
民事訴訟における議論の推論に関する SemEval タスクは、法的概念を理解し、複雑な議論を推論する必要があるため、挑戦的です。
現在、法律分野で優れた大規模言語モデル (LLM) のほとんどは、主に分類タスクを目的としているため、その推論根拠には議論の余地があります。
私たちが提唱するアプローチには、強力な教師 LLM (ChatGPT) を使用して、説明を含むトレーニング データセットを拡張し、合成データを生成することが含まれます。
結果として得られたデータは、小規模な学生 LLM を微調整するために活用されます。
これまでの研究とは異なり、私たちの説明は教師の内部知識から直接得られたものではありません。
代わりに、それらは人間による本物の分析に基づいているため、優れた推論シグナルを提供します。
さらに、新しい「突然変異」メソッドにより、既存のデータ インスタンスからインスピレーションを得た人工データ インスタンスが生成されます。
私たちは、元のデータセットの拡張として説明を、合成データセットとその両方の生成に使用されたプロンプトとともに公開公開しています。
当社のシステムは SemEval コンテストで 15 位にランクされました。
独自の教師よりも優れたパフォーマンスを発揮し、法律の専門家によって検証されたように、人間による元の分析に沿った説明を生成できます。
要約(オリジナル)
The SemEval task on Argument Reasoning in Civil Procedure is challenging in that it requires understanding legal concepts and inferring complex arguments. Currently, most Large Language Models (LLM) excelling in the legal realm are principally purposed for classification tasks, hence their reasoning rationale is subject to contention. The approach we advocate involves using a powerful teacher-LLM (ChatGPT) to extend the training dataset with explanations and generate synthetic data. The resulting data are then leveraged to fine-tune a small student-LLM. Contrary to previous work, our explanations are not directly derived from the teacher’s internal knowledge. Instead they are grounded in authentic human analyses, therefore delivering a superior reasoning signal. Additionally, a new `mutation’ method generates artificial data instances inspired from existing ones. We are publicly releasing the explanations as an extension to the original dataset, along with the synthetic dataset and the prompts that were used to generate both. Our system ranked 15th in the SemEval competition. It outperforms its own teacher and can produce explanations aligned with the original human analyses, as verified by legal experts.
arxiv情報
著者 | Odysseas S. Chlapanis,Ion Androutsopoulos,Dimitrios Galanis |
発行日 | 2024-05-14 11:04:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google