Archimedes-AUEB at SemEval-2024 Task 5: LLM explains Civil Procedure


民事訴訟における議論の推論に関する SemEval タスクは、法的概念を理解し、複雑な議論を推論する必要があるため、挑戦的です。
現在、法律分野で優れた大規模言語モデル (LLM) のほとんどは、主に分類タスクを目的としているため、その推論根拠には議論の余地があります。
私たちが提唱するアプローチには、強力な教師 LLM (ChatGPT) を使用して、説明を含むトレーニング データセットを拡張し、合成データを生成することが含まれます。
結果として得られたデータは、小規模な学生 LLM を微調整するために活用されます。
さらに、新しい「突然変異」メソッドにより、既存のデータ インスタンスからインスピレーションを得た人工データ インスタンスが生成されます。
当社のシステムは SemEval コンテストで 15 位にランクされました。


The SemEval task on Argument Reasoning in Civil Procedure is challenging in that it requires understanding legal concepts and inferring complex arguments. Currently, most Large Language Models (LLM) excelling in the legal realm are principally purposed for classification tasks, hence their reasoning rationale is subject to contention. The approach we advocate involves using a powerful teacher-LLM (ChatGPT) to extend the training dataset with explanations and generate synthetic data. The resulting data are then leveraged to fine-tune a small student-LLM. Contrary to previous work, our explanations are not directly derived from the teacher’s internal knowledge. Instead they are grounded in authentic human analyses, therefore delivering a superior reasoning signal. Additionally, a new `mutation’ method generates artificial data instances inspired from existing ones. We are publicly releasing the explanations as an extension to the original dataset, along with the synthetic dataset and the prompts that were used to generate both. Our system ranked 15th in the SemEval competition. It outperforms its own teacher and can produce explanations aligned with the original human analyses, as verified by legal experts.


著者 Odysseas S. Chlapanis,Ion Androutsopoulos,Dimitrios Galanis
発行日 2024-05-14 11:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク