要約
法的文章の含意の目的は、法的質問の主張が 1 つまたは複数の法的条文で提供されている情報から論理的に導かれているかどうかを確認することです。
大規模な言語モデルである ChatGPT は、法的テキストの含意を含む多くの自然言語処理タスクにおいて堅牢です。温度 = 0 (ChatGPT の応答は決定論的) に設定してモデルをプロンプトすると、COLIEE 2022 データセットで 70.64% の精度を達成します。
これは、以前の SOTA の 67.89% を上回ります。
一方、温度がゼロより大きい場合、ChatGPT の応答は決定論的ではないため、一貫性のない応答や変動する結果が生じます。
ラベル モデル (弱い監視手法の基本コンポーネント) を活用して、ChatGPT による暫定的な回答を統合ラベルに統合することを提案します。
このようにして、ChatGPT の暫定的な回答を、ラベル モデルによって統合できるノイズの多い予測として扱います。
実験結果は、このアプローチが 76.15% の精度を達成できることを示しており、以前の最先端のベンチマークと比較して 8.26% の大幅な改善を示しています。
さらに、ChatGPT が不正確な回答を生成するインスタンスの分析を実行し、エラーを分類して、将来の研究活動の潜在的な機能強化に役立つ洞察を提供します。
要約(オリジナル)
The objective of legal text entailment is to ascertain whether the assertions in a legal query logically follow from the information provided in one or multiple legal articles. ChatGPT, a large language model, is robust in many natural language processing tasks, including legal text entailment: when we set the temperature = 0 (the ChatGPT answers are deterministic) and prompt the model, it achieves 70.64% accuracy on COLIEE 2022 dataset, which outperforms the previous SOTA of 67.89%. On the other hand, if the temperature is larger than zero, ChatGPT answers are not deterministic, leading to inconsistent answers and fluctuating results. We propose to leverage label models (a fundamental component of weak supervision techniques) to integrate the provisional answers by ChatGPT into consolidated labels. By that way, we treat ChatGPT provisional answers as noisy predictions which can be consolidated by label models. The experimental results demonstrate that this approach can attain an accuracy of 76.15%, marking a significant improvement of 8.26% over the prior state-of-the-art benchmark. Additionally, we perform an analysis of the instances where ChatGPT produces incorrect answers, then we classify the errors, offering insights that could guide potential enhancements for future research endeavors.
arxiv情報
著者 | Chau Nguyen,Le-Minh Nguyen |
発行日 | 2024-01-31 15:04:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google