Towards General Conceptual Model Editing via Adversarial Representation Engineering

要約

大規模言語モデル (LLM) の開発が目覚ましい成功を収めて以来、その内部の複雑なメカニズムを理解して制御することが緊急の課題となっています。
最近の研究では、内面表現のレンズを通して彼らの行動を解釈することが試みられています。
ただし、これらの表現を一般的かつ柔軟なモデル編集に適用するための実用的で効率的な方法を開発することは依然として困難です。
この研究では、表現センサーをオラクルとして展開することで、表現エンジニアリング手法を使用して LLM の編集をガイドする方法を検討します。
私たちはまず、編集中の堅牢で信頼性の高いセンサーの重要性を特定し、次にベースラインのパフォーマンスを損なうことなく概念モデル編集のための統一された解釈可能なアプローチを提供する敵対的表現エンジニアリング (ARE) フレームワークを提案します。
複数のモデル編集パラダイムに関する実験により、さまざまな設定における ARE の有効性が実証されています。
コードとデータは https://github.com/Zhang-Yihao/Adversarial-Representation-Engineering で入手できます。

要約(オリジナル)

Since the development of Large Language Models (LLMs) has achieved remarkable success, understanding and controlling their internal complex mechanisms has become an urgent problem. Recent research has attempted to interpret their behaviors through the lens of inner representation. However, developing practical and efficient methods for applying these representations for general and flexible model editing remains challenging. In this work, we explore how to use representation engineering methods to guide the editing of LLMs by deploying a representation sensor as an oracle. We first identify the importance of a robust and reliable sensor during editing, then propose an Adversarial Representation Engineering (ARE) framework to provide a unified and interpretable approach for conceptual model editing without compromising baseline performance. Experiments on multiple model editing paradigms demonstrate the effectiveness of ARE in various settings. Code and data are available at https://github.com/Zhang-Yihao/Adversarial-Representation-Engineering.

arxiv情報

著者 Yihao Zhang,Zeming Wei,Jun Sun,Meng Sun
発行日 2024-05-23 13:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG, math.OC パーマリンク