Multi-Prompting Decoder Helps Better Language Understanding

要約

最近の事前トレーニング済み言語モデル (PLM) は通常、推論 API、つまり新たな Model-as-a-Service (MaaS) 設定のみをユーザーに提供します。
パラメーターや勾配にアクセスせずに MaaS PLM をダウンストリーム タスクに適応させるために、一部の既存の方法では PLM の出力側の適応に焦点を当て、PLM をエンコーダーとして見て、出力の隠れ状態とクラス スコアをデコードするためにタスク固有のデコーダーを最適化します。
PLMの。
これらの方法の有効性にもかかわらず、デコードのために PLM をクエリするために単一のプロンプトしか使用しないため、採用されたプロンプトの品質に大きく依存することになります。
この論文では、MaaS 適応のためのシンプルかつ効果的なマルチプロンプティング デコーダー (MPD) フレームワークを提案します。
中心となるアイデアは、サンプルごとに複数の異なるプロンプトを使用して PLM にクエリを実行し、それによって複数の出力隠れ状態と後続のデコード用のクラス スコアを取得することです。
このようなマルチプロンプトのデコードパラダイムは、単一のプロンプトの品質への依存を軽減し、少数ショット設定でのデータ不足の問題を軽減し、PLM から抽出されたより豊富な知識を同時に提供できます。
具体的には、隠れ状態の最適なトランスポートを使用したマルチプロンプト復号化と、クラス スコアの調整された復号化の 2 つの復号化戦略を提案します。
広範な実験により、私たちの方法が少数ショット設定の下で複数の自然言語理解データセットに対して新しい最先端の結果を達成できることが実証されました。

要約(オリジナル)

Recent Pre-trained Language Models (PLMs) usually only provide users with the inference APIs, namely the emerging Model-as-a-Service (MaaS) setting. To adapt MaaS PLMs to downstream tasks without accessing their parameters and gradients, some existing methods focus on the output-side adaptation of PLMs, viewing the PLM as an encoder and then optimizing a task-specific decoder for decoding the output hidden states and class scores of the PLM. Despite the effectiveness of these methods, they only use a single prompt to query PLMs for decoding, leading to a heavy reliance on the quality of the adopted prompt. In this paper, we propose a simple yet effective Multi-Prompting Decoder (MPD) framework for MaaS adaptation. The core idea is to query PLMs with multiple different prompts for each sample, thereby obtaining multiple output hidden states and class scores for subsequent decoding. Such multi-prompting decoding paradigm can simultaneously mitigate reliance on the quality of a single prompt, alleviate the issue of data scarcity under the few-shot setting, and provide richer knowledge extracted from PLMs. Specifically, we propose two decoding strategies: multi-prompting decoding with optimal transport for hidden states and calibrated decoding for class scores. Extensive experiments demonstrate that our method achieves new state-of-the-art results on multiple natural language understanding datasets under the few-shot setting.

arxiv情報

著者 Zifeng Cheng,Zhaoling Chen,Zhiwei Jiang,Yafeng Yin,Shiping Ge,Yuliang Liu,Qing Gu
発行日 2024-06-10 13:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク