要約
この研究では、利用可能なラベル付き法律データが少なく不均衡であり、結果の品質を損なう可能性がある、データ不足の分類シナリオを分析します。
私たちは 2 つの微調整目標に焦点を当てました。
SetFit (Sentence Transformer Finetuning)、対照的な学習セットアップ、および法的条項分類タスクのバニラ微調整セットアップ。
さらに、LIME (Local Interpretable Model-agnostic Explains) で抽出された特徴を比較して、どの特定の特徴がモデルの分類決定に寄与したかを確認します。
結果は、トレーニング サンプルの一部を使用しているにもかかわらず、SetFit を使用した対照的なセットアップが通常の微調整よりも優れたパフォーマンスを示していることを示しています。
LIME の結果は、対比学習アプローチが、法的に有益で分類結果に寄与する肯定的な特徴と否定的な特徴の両方を強化するのに役立つことを示しています。
したがって、対照的な目的に合わせて微調整されたモデルは、法的に有益な特徴に基づいてより自信を持って決定を下すようです。
要約(オリジナル)
In this study, we analyze data-scarce classification scenarios, where available labeled legal data is small and imbalanced, potentially hurting the quality of the results. We focused on two finetuning objectives; SetFit (Sentence Transformer Finetuning), a contrastive learning setup, and a vanilla finetuning setup on a legal provision classification task. Additionally, we compare the features that are extracted with LIME (Local Interpretable Model-agnostic Explanations) to see which particular features contributed to the model’s classification decisions. The results show that a contrastive setup with SetFit performed better than vanilla finetuning while using a fraction of the training samples. LIME results show that the contrastive learning approach helps boost both positive and negative features which are legally informative and contribute to the classification results. Thus a model finetuned with a contrastive objective seems to base its decisions more confidently on legally informative features.
arxiv情報
| 著者 | Burak Kilic,Florix Bex,Albert Gatt |
| 発行日 | 2023-07-06 09:36:54+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google