Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability

要約

大規模言語モデル (LLM) は、自己教師ありの方法で大量のデータでトレーニングされることを特徴としており、幅広いタスクにわたって優れたパフォーマンスを示しています。
実際、その生成能力は、幅広いコンテキストにわたる LLM の適用に対する関心を引き起こしています。
ただし、一般にニューラル ネットワーク、特に LLM は敵対的攻撃に対して脆弱であることが知られており、入力への知覚できない変更がモデルの出力を誤解させる可能性があります。
これは、誤った予測が重大な結果を暗示する可能性がある医療など、一か八かのアプリケーションでの LLM の使用を妨げる重大な懸念事項です。
LLM を敵対的攻撃に対してより堅牢にするための取り組みは数多くありますが、LLM を敵対的攻撃に陥りやすくするこれらの脆弱性を \emph{どのように} および \emph{どこ} で研究している研究はほとんどありません。
これらの事実に動機づけられて、私たちは脆弱性を特定して理解する方法を探求し、機械的解釈 (MI) 技術に基づいてこのプロセスを導く方法を提案します。
具体的には、この方法では、(i) そのタスクを担当するモデルのサブセットを取得し、(ii) そのタスクの敵対的サンプルを生成し、(iii) MI 技術を併用して、特定のタスクに関連する脆弱性を検出できます。
以前のサンプルを使用して、潜在的な脆弱性を発見して理解します。
3 文字の頭字語を予測するタスクを実行する事前トレーニング済み GPT-2 Small モデルでの手法を紹介し、モデルの具体的な脆弱性を特定して理解する際の有効性を実証します。

要約(オリジナル)

Large Language Models (LLMs), characterized by being trained on broad amounts of data in a self-supervised manner, have shown impressive performance across a wide range of tasks. Indeed, their generative abilities have aroused interest on the application of LLMs across a wide range of contexts. However, neural networks in general, and LLMs in particular, are known to be vulnerable to adversarial attacks, where an imperceptible change to the input can mislead the output of the model. This is a serious concern that impedes the use of LLMs on high-stakes applications, such as healthcare, where a wrong prediction can imply serious consequences. Even though there are many efforts on making LLMs more robust to adversarial attacks, there are almost no works that study \emph{how} and \emph{where} these vulnerabilities that make LLMs prone to adversarial attacks happen. Motivated by these facts, we explore how to localize and understand vulnerabilities, and propose a method, based on Mechanistic Interpretability (MI) techniques, to guide this process. Specifically, this method enables us to detect vulnerabilities related to a concrete task by (i) obtaining the subset of the model that is responsible for that task, (ii) generating adversarial samples for that task, and (iii) using MI techniques together with the previous samples to discover and understand the possible vulnerabilities. We showcase our method on a pretrained GPT-2 Small model carrying out the task of predicting 3-letter acronyms to demonstrate its effectiveness on locating and understanding concrete vulnerabilities of the model.

arxiv情報

著者 Jorge García-Carrasco,Alejandro Maté,Juan Trujillo
発行日 2024-07-29 09:55:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク