On the Relationship between Skill Neurons and Robustness in Prompt Tuning

要約

プロンプト チューニングは、事前トレーニングされた大規模言語モデル (PLM) に対する一般的なパラメーター効率の高い微調整方法です。
最近、RoBERTa を使った実験に基づいて、プロンプト チューニングが変圧器のフィードフォワード ネットワーク内の特定のニューロンを活性化し、特定のタスクに対して予測性と選択性が高いことが示唆されました。
この論文では、RoBERTa と T5 を使用して、これらの「スキル ニューロン」に関連したプロンプト チューニングの堅牢性を研究します。
特定のタスク用に調整されたプロンプトは同じタイプのタスクに転送可能ですが、敵対的なデータに対してあまり堅牢ではなく、T5 の堅牢性が RoBERTa よりも高いことを示します。
同時に、RoBERTa でスキル ニューロンの存在を再現し、さらにスキル ニューロンが T5 にも存在するようであることを示しました。
興味深いことに、非敵対的データに基づいて決定された T5 のスキル ニューロンは、敵対的データに対して最も予測性の高いニューロンの 1 つでもありますが、これは RoBERTa には当てはまりません。
私たちは、より高い敵対的堅牢性は、敵対的データに対して関連するスキル ニューロンを活性化するモデルの能力に関連している可能性があると結論付けています。

要約(オリジナル)

Prompt Tuning is a popular parameter-efficient finetuning method for pre-trained large language models (PLMs). Recently, based on experiments with RoBERTa, it has been suggested that Prompt Tuning activates specific neurons in the transformer’s feed-forward networks, that are highly predictive and selective for the given task. In this paper, we study the robustness of Prompt Tuning in relation to these ‘skill neurons’, using RoBERTa and T5. We show that prompts tuned for a specific task are transferable to tasks of the same type but are not very robust to adversarial data, with higher robustness for T5 than RoBERTa. At the same time, we replicate the existence of skill neurons in RoBERTa and further show that skill neurons also seem to exist in T5. Interestingly, the skill neurons of T5 determined on non-adversarial data are also among the most predictive neurons on the adversarial data, which is not the case for RoBERTa. We conclude that higher adversarial robustness may be related to a model’s ability to activate the relevant skill neurons on adversarial data.

arxiv情報

著者 Leon Ackermann,Xenia Ohmer
発行日 2023-09-21 17:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク