Why do universal adversarial attacks work on large language models?: Geometry might be the answer

要約

創発的な能力を持つトランスフォーマーベースの大規模言語モデルは、社会でますますユビキタスになってきている。しかし、敵対的攻撃の文脈で、その内部構造を理解し解釈するという課題は、ほとんど未解決のままである。勾配に基づく普遍的敵対的攻撃は、大規模な言語モデルに対して非常に有効であることが示されているが、その入力にとらわれない性質により潜在的に危険である。本研究では、大規模言語モデルに対する普遍的敵対的攻撃を説明する新しい幾何学的視点を提示する。117MパラメータのGPT-2モデルを攻撃することで、普遍的敵対的トリガーが、敵対的学習領域の意味情報を単に近似しただけの埋め込みベクトルである可能性を示す証拠を発見する。この仮説は、次元削減と隠れた表現の類似性測定からなるホワイトボックスモデル解析によって支持される。我々は、普遍的な攻撃を駆動する根本的なメカニズムに関するこの新しい幾何学的視点が、LLMの内部動作と故障モードに対する深い洞察の獲得に役立ち、その結果、LLMの緩和が可能になると考えている。

要約(オリジナル)

Transformer based large language models with emergent capabilities are becoming increasingly ubiquitous in society. However, the task of understanding and interpreting their internal workings, in the context of adversarial attacks, remains largely unsolved. Gradient-based universal adversarial attacks have been shown to be highly effective on large language models and potentially dangerous due to their input-agnostic nature. This work presents a novel geometric perspective explaining universal adversarial attacks on large language models. By attacking the 117M parameter GPT-2 model, we find evidence indicating that universal adversarial triggers could be embedding vectors which merely approximate the semantic information in their adversarial training region. This hypothesis is supported by white-box model analysis comprising dimensionality reduction and similarity measurement of hidden representations. We believe this new geometric perspective on the underlying mechanism driving universal attacks could help us gain deeper insight into the internal workings and failure modes of LLMs, thus enabling their mitigation.

arxiv情報

著者 Varshini Subhash,Anna Bialas,Weiwei Pan,Finale Doshi-Velez
発行日 2023-09-01 05:09:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク