On the Relationship between Skill Neurons and Robustness in Prompt Tuning

要約

プロンプト チューニングは、事前トレーニングされた大規模言語モデル (PLM) に対する一般的なパラメーター効率の高い微調整方法です。
RoBERTa を使った実験に基づいて、プロンプト チューニングは変圧器のフィードフォワード ネットワーク内の特定のニューロンを活性化し、特定のタスクに対して予測性と選択性が高いことが示唆されています。
この論文では、RoBERTa と T5 を使用して、これらの「スキル ニューロン」に関連したプロンプト チューニングの堅牢性を研究します。
特定のタスク用に調整されたプロンプトは、同じタイプのタスクに転送可能ですが、敵対的なデータに対してはあまり堅牢ではないことを示します。
RoBERTa 用に調整されたプロンプトは、敵対的データに対してチャンスを下回るパフォーマンスをもたらしますが、T5 用に調整されたプロンプトはわずかに堅牢で、3 つのケースのうち 2 つでチャンスを上回るパフォーマンスを維持します。
同時に、スキル ニューロンが RoBERTa に存在するという発見を再現し、さらにスキル ニューロンが T5 にも存在することを示します。
興味深いことに、非敵対的データに基づいて決定された T5 のスキル ニューロンは、敵対的データに対して最も予測性の高いニューロンの 1 つでもありますが、これは RoBERTa には当てはまりません。
私たちは、より高い敵対的堅牢性は、敵対的データに対して関連するスキル ニューロンを一貫して活性化するモデルの能力に関連している可能性があると結論付けています。

要約(オリジナル)

Prompt Tuning is a popular parameter-efficient finetuning method for pre-trained large language models (PLMs). Based on experiments with RoBERTa, it has been suggested that Prompt Tuning activates specific neurons in the transformer’s feed-forward networks, that are highly predictive and selective for the given task. In this paper, we study the robustness of Prompt Tuning in relation to these ‘skill neurons’, using RoBERTa and T5. We show that prompts tuned for a specific task are transferable to tasks of the same type but are not very robust to adversarial data. While prompts tuned for RoBERTa yield below-chance performance on adversarial data, prompts tuned for T5 are slightly more robust and retain above-chance performance in two out of three cases. At the same time, we replicate the finding that skill neurons exist in RoBERTa and further show that skill neurons also exist in T5. Interestingly, the skill neurons of T5 determined on non-adversarial data are also among the most predictive neurons on the adversarial data, which is not the case for RoBERTa. We conclude that higher adversarial robustness may be related to a model’s ability to consistently activate the relevant skill neurons on adversarial data.

arxiv情報

著者 Leon Ackermann,Xenia Ohmer
発行日 2024-03-25 10:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク