Targeted Angular Reversal of Weights (TARS) for Knowledge Removal in Large Language Models

要約

最新の大規模言語モデル (LLM) のトレーニングに必要な膨大なデータは、モデルが著作権で保護された作品を複製する能力だけでなく、バ​​イオ セキュリティなどの機密トピックの知識を獲得する可能性が高いため、重大なリスクをもたらします。
このような知識を削除するように設計されたメソッドは、多言語対応で、一般的なモデルのパフォーマンスを低下させることなく、あらゆる方向から削除する必要があります。
この目的を達成するために、LLM から知識を削除する Targeted Angular Reversal (TARS) 方法を導入します。
TARS メソッドは、まず LLM を詳細なプロンプトと組み合わせて利用し、選択された概念に関する情報を LLM の内部表現空間に集約します。
次に、この近似概念ベクトルをノイズで摂動させ、言語モデルのヘッドでトークン スコアに変換することで、この近似概念ベクトルを洗練し、高確率で概念トークンをトリガーします。
内部表現空間に直接作用し、このターゲティング ベクトルと最も高いコサイン類似性を持つ LLM のフィードフォワード重みベクトルは、反転されたターゲティング ベクトルに置き換えられるため、モデルを介して伝播する概念の能力が制限されます。
TARS メソッドのモジュール性により、有名な文学探偵シャーロック ホームズや惑星土星などの概念を Llama 3.1 8B から順次削除できます。
わずか 1 回の TARS 編集でターゲット概念をトリガーする確率を 0.00 に低減でき、同時に双方向に知識を削除できることが実証されています。
さらに、英語のみを対象としているにもかかわらず、知識はすべての言語で削除されていることが示されています。
重要なのは、モジュラー形式で 5 つの多様な概念を削除した後、Wikipedia テキストの大規模なコーパス (中央値 0.002) での LLM の次のトークン確率における KL 発散が最小限であるため、TARS が一般的なモデルの機能に与える影響は最小限であることです。

要約(オリジナル)

The sheer scale of data required to train modern large language models (LLMs) poses significant risks, as models are likely to gain knowledge of sensitive topics such as bio-security, as well the ability to replicate copyrighted works. Methods designed to remove such knowledge must do so from all prompt directions, in a multi-lingual capacity and without degrading general model performance. To this end, we introduce the targeted angular reversal (TARS) method of knowledge removal from LLMs. The TARS method firstly leverages the LLM in combination with a detailed prompt to aggregate information about a selected concept in the internal representation space of the LLM. It then refines this approximate concept vector to trigger the concept token with high probability, by perturbing the approximate concept vector with noise and transforming it into token scores with the language model head. The feedforward weight vectors in the LLM which operate directly on the internal representation space, and have the highest cosine similarity with this targeting vector, are then replaced by a reversed targeting vector, thus limiting the ability of the concept to propagate through the model. The modularity of the TARS method allows for a sequential removal of concepts from Llama 3.1 8B, such as the famous literary detective Sherlock Holmes, and the planet Saturn. It is demonstrated that the probability of triggering target concepts can be reduced to 0.00 with as few as 1 TARS edit, whilst simultaneously removing the knowledge bi-directionally. Moreover, knowledge is shown to be removed across all languages despite only being targeted in English. Importantly, TARS has minimal impact on the general model capabilities, as after removing 5 diverse concepts in a modular fashion, there is minimal KL divergence in the next token probabilities of the LLM on large corpora of Wikipedia text (median of 0.002).

arxiv情報

著者 Harry J. Davies,Giorgos Iacovides,Danilo P. Mandic
発行日 2024-12-13 16:26:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク