要約
ステアリングベクターは、推論時間に言語モデルのアクティベーションに学習バイアスを追加することにより、テキストプロパティを制御するための軽量な方法です。
これまでのところ、ステアリングベクトルは主に多肢選択設定で評価されていますが、フリーフォームの生成タスクでの有効性は依然として研究されていません。
「複数選択を超えて」移動すると、ニュートデータセットの抽象的な要約で、局所的な焦点、感情、毒性、読みやすさを適応的に制御する際のステアリングベクターの有効性を徹底的に評価します。
ステアリングはターゲットを絞った要約プロパティを効果的に制御しますが、高いステアリング強度は一貫して内因性テキストと外因性の両方のテキスト品質を低下させることがわかります。
ステアリングと比較して、プロンプトはテキストの品質を維持しながら、より弱い制御を提供します。
ステアリングとプロンプトを組み合わせることで、テキストプロパティに対する最も強力な制御が得られ、中程度のステアリング強度で最も有利な有効性品質のトレードオフを提供します。
私たちの結果は、フリーフォーム生成タスクにステアリングベクターを適用する際の制御強度とテキスト品質の保存との実用的なトレードオフを強調しています。
要約(オリジナル)
Steering vectors are a lightweight method for controlling text properties by adding a learned bias to language model activations at inference time. So far, steering vectors have predominantly been evaluated in multiple-choice settings, while their effectiveness in free-form generation tasks remains understudied. Moving ‘Beyond Multiple Choice,’ we thoroughly evaluate the effectiveness of steering vectors in adaptively controlling topical focus, sentiment, toxicity, and readability in abstractive summaries of the NEWTS dataset. We find that steering effectively controls the targeted summary properties, but high steering strengths consistently degrade both intrinsic and extrinsic text quality. Compared to steering, prompting offers weaker control, while preserving text quality. Combining steering and prompting yields the strongest control over text properties and offers the most favorable efficacy-quality trade-off at moderate steering strengths. Our results underscore the practical trade-off between control strength and text quality preservation when applying steering vectors to free-form generation tasks.
arxiv情報
著者 | Joschka Braun,Carsten Eickhoff,Seyed Ali Bahrainian |
発行日 | 2025-05-30 17:57:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google