要約
大規模な言語モデル(LLMS)の生成を制御することは、安全で信頼できる展開を確保するための中心的な課題のままです。
迅速なエンジニアリングと微調整は一般的なアプローチですが、最近の作業では、LLM内部アクティベーションを変化させて生成を導く軽量のテクニックである潜在的なステアリングを調査しました。
しかし、その後の研究により、潜在的なステアリングの有効性が制限されていることが明らかになり、多くの場合、単純な指示の促しを下しました。
この制限に対処するために、最初に、ステアリング技術の標準化された評価のための多様な行動にわたってベンチマークを確立します。
このベンチマークからの洞察に基づいて、私たちは、生成中のモデルの注意を変えることで指導の強さを高める潜在的なステアリング方法である、命令注意ブースト(Instaboost)を導入します。
Instaboostは、既存のアプローチの強みを組み合わせており、トランスベースのモデルでフォローするコンテキスト内のルールを指示に操作することで制御できることを示唆する以前の研究によって理論的にサポートされています。
経験的に、Instaboostは、従来のプロンプトと潜在ステアリングの両方と比較して、優れた制御の成功を示しています。
要約(オリジナル)
Controlling the generation of large language models (LLMs) remains a central challenge to ensure their safe and reliable deployment. While prompt engineering and finetuning are common approaches, recent work has explored latent steering, a lightweight technique that alters LLM internal activations to guide generation. However, subsequent studies revealed latent steering’s effectiveness to be limited, often underperforming simple instruction prompting. To address this limitation, we first establish a benchmark across diverse behaviors for standardized evaluation of steering techniques. Building on insights from this benchmark, we introduce Instruction Attention Boosting (InstABoost), a latent steering method that boosts the strength of instruction prompting by altering the model’s attention during generation. InstABoost combines the strengths of existing approaches and is theoretically supported by prior work that suggests that in-context rule following in transformer-based models can be controlled by manipulating attention on instructions. Empirically, InstABoost demonstrates superior control success compared to both traditional prompting and latent steering.
arxiv情報
著者 | Vitoria Guardieiro,Adam Stein,Avishree Khare,Eric Wong |
発行日 | 2025-06-16 17:42:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google