Adversarial Representation Engineering: A General Model Editing Framework for Large Language Models

要約

ラージ・ランゲージ・モデル(LLM)の急速な発展が目覚ましい成功を収めて以来、その複雑な内部メカニズムの理解と修正が喫緊の課題となっている。最近の研究では、内部表現というレンズを通してその振る舞いを解釈することが試みられている。しかし、これらの表現を一般的で柔軟なモデル編集に応用するための実用的で効率的な手法の開発は、依然として困難である。本研究では、LLMの編集をガイドするために、表現工学の知見を活用する方法を探る。まず、編集時に頑健で信頼性の高いセンサーの重要性を明らかにし、次に、ベースラインの性能を損なうことなく、概念モデル編集のための統一的で解釈可能なアプローチを提供するために、逆数的表現工学(ARE)フレームワークを提案する。複数のタスクに関する実験により、様々なモデル編集シナリオにおけるAREの有効性を実証する。我々のコードとデータはhttps://github.com/Zhang-Yihao/Adversarial-Representation-Engineering。

要約(オリジナル)

Since the rapid development of Large Language Models (LLMs) has achieved remarkable success, understanding and rectifying their internal complex mechanisms has become an urgent issue. Recent research has attempted to interpret their behaviors through the lens of inner representation. However, developing practical and efficient methods for applying these representations for general and flexible model editing remains challenging. In this work, we explore how to leverage insights from representation engineering to guide the editing of LLMs by deploying a representation sensor as an editing oracle. We first identify the importance of a robust and reliable sensor during editing, then propose an Adversarial Representation Engineering (ARE) framework to provide a unified and interpretable approach for conceptual model editing without compromising baseline performance. Experiments on multiple tasks demonstrate the effectiveness of ARE in various model editing scenarios. Our code and data are available at https://github.com/Zhang-Yihao/Adversarial-Representation-Engineering.

arxiv情報

著者 Yihao Zhang,Zeming Wei,Jun Sun,Meng Sun
発行日 2024-11-01 07:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG, math.OC パーマリンク