SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations

要約

ニューラル モデルの決定を説明することは、展開時にモデルの信頼性を確保するために非常に重要です。
モデルの予測を正当化するために自然言語説明 (NLE) を使用することへの関心が最近高まっています。
ただし、このアプローチでは通常、グラウンドトゥルースの答えを得るために人間が作成した NLE の大規模なデータセットが必要ですが、これは高価であり、一部のアプリケーションでは実行不可能である可能性があります。
利用可能な NLE が少数しかない場合にモデルが高品質の NLE を生成するには、プロンプトベースの学習と組み合わせた事前トレーニング言語モデル (PLM) の微調整が最近登場しました。
ただし、PLM には通常、数十億のパラメータがあり、微調整には費用がかかります。
私たちは、個別のプロンプトを活用して予測と NLE を共同生成する、まばらな少数ショットの微調整戦略である SparseFit を提案します。
T5 モデルと 4 つのデータセットで SparseFit を実験し、パラメータ効率の高い最先端の微調整手法と比較します。
私たちは自動評価と人間による評価を実行して、モデル生成された NLE の品質を評価しました。その結果、モデル パラメーターのわずか 6.8% を微調整するだけで、タスクのパフォーマンスと NLE の品質の両方において競争力のある結果が得られることがわかりました。

要約(オリジナル)

Explaining the decisions of neural models is crucial for ensuring their trustworthiness at deployment time. Using Natural Language Explanations (NLEs) to justify a model’s predictions has recently gained increasing interest. However, this approach usually demands large datasets of human-written NLEs for the ground-truth answers, which are expensive and potentially infeasible for some applications. For models to generate high-quality NLEs when only a few NLEs are available, the fine-tuning of Pre-trained Language Models (PLMs) in conjunction with prompt-based learning recently emerged. However, PLMs typically have billions of parameters, making fine-tuning expensive. We propose SparseFit, a sparse few-shot fine-tuning strategy that leverages discrete prompts to jointly generate predictions and NLEs. We experiment with SparseFit on the T5 model and four datasets and compare it against state-of-the-art parameter-efficient fine-tuning techniques. We perform automatic and human evaluations to assess the quality of the model-generated NLEs, finding that fine-tuning only 6.8% of the model parameters leads to competitive results for both the task performance and the quality of the NLEs.

arxiv情報

著者 Jesus Solano,Oana-Maria Camburu,Pasquale Minervini
発行日 2023-05-22 17:06:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク