EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models

要約

このペーパーでは、EasyEdit2を紹介します。これは、大規模な言語モデル(LLM)動作を制御するためのプラグアンドプレイ調整可能性を可能にするために設計されたフレームワークです。
EasyEdit2は、安全性、感情、人格、推論パターン、事実、言語の特徴など、幅広いテスト時間介入をサポートしています。
前任者とは異なり、EasyEdit2は、シームレスなモデルステアリング専用に設計された新しいアーキテクチャを備えています。
ステアリングベクトルジェネレーターやステアリングベクトルアプリアなどの重要なモジュールで構成されており、ステアリングベクターの自動生成と適用がパラメーターを変更せずにモデルの動作に影響を与えることができます。
EasyEdit2の主な利点の1つは、使用ユーザーが簡単にすることで、広範な技術的知識が必要ないことです。
たった1つの例を使用すると、モデルの応答を効果的にガイドして調整することができ、アクセスしやすく効率的な正確な制御を実現できます。
経験的には、さまざまなLLMのモデルステアリングパフォーマンスを報告し、これらの手法の有効性を実証します。
https://github.com/zjunlp/easyeditのGithubでソースコードをリリースしました。
さらに、https://zjunlp.github.io/project/easyedit2/videoでデモビデオを提供して、すばやく紹介します。

要約(オリジナル)

In this paper, we introduce EasyEdit2, a framework designed to enable plug-and-play adjustability for controlling Large Language Model (LLM) behaviors. EasyEdit2 supports a wide range of test-time interventions, including safety, sentiment, personality, reasoning patterns, factuality, and language features. Unlike its predecessor, EasyEdit2 features a new architecture specifically designed for seamless model steering. It comprises key modules such as the steering vector generator and the steering vector applier, which enable automatic generation and application of steering vectors to influence the model’s behavior without modifying its parameters. One of the main advantages of EasyEdit2 is its ease of use-users do not need extensive technical knowledge. With just a single example, they can effectively guide and adjust the model’s responses, making precise control both accessible and efficient. Empirically, we report model steering performance across different LLMs, demonstrating the effectiveness of these techniques. We have released the source code on GitHub at https://github.com/zjunlp/EasyEdit along with a demonstration notebook. In addition, we provide a demo video at https://zjunlp.github.io/project/EasyEdit2/video for a quick introduction.

arxiv情報

著者 Ziwen Xu,Shuxun Wang,Kewei Xu,Haoming Xu,Mengru Wang,Xinle Deng,Yunzhi Yao,Guozhou Zheng,Huajun Chen,Ningyu Zhang
発行日 2025-04-21 14:33:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG パーマリンク