Focus On This, Not That! Steering LLMs With Adaptive Feature Specification

要約

ユーザー指定の任意のタスクを実行するように大規模言語モデル (LLM) をトレーニングする命令チューニング (IT) にもかかわらず、これらのモデルは依然としてトレーニング データから学習した偽の特徴や偏った特徴を活用することが多く、新しいコンテキストにデプロイする際に望ましくない動作が発生します。

この研究では、他の機能を無視して特定の機能に焦点を当て、応答を調整するように LLM をトレーニングするフォーカス命令チューニング (FIT) を導入します。これにより、指定された機能に基づいて異なる動作が可能になります。
いくつかの実験設定にわたって、焦点調整されたモデルは、推論時にさまざまな特徴に焦点を当てることで適応的に操作できることを示します。たとえば、タスクの原因となる特徴に焦点を当て、偽の特徴を無視することでロバスト性を向上させることができ、社会的バイアスは、
人口統計上のカテゴリーを無視することで軽減されます。
さらに、FIT は新しいコンテキストで動作を誘導し、分布の変化の下で一般化し、推論時に目に見えない新しい機能に適用することで、現実世界の環境でより堅牢で公平で制御可能な LLM アプリケーションを促進します。

要約(オリジナル)

Despite the success of Instruction Tuning (IT) in training large language models (LLMs) to perform arbitrary user-specified tasks, these models often still leverage spurious or biased features learned from their training data, leading to undesired behaviours when deploying them in new contexts. In this work, we introduce Focus Instruction Tuning (FIT), which trains LLMs to condition their responses by focusing on specific features whilst ignoring others, leading to different behaviours based on what features are specified. Across several experimental settings, we show that focus-tuned models can be adaptively steered by focusing on different features at inference-time: for instance, robustness can be improved by focusing on task-causal features and ignoring spurious features, and social bias can be mitigated by ignoring demographic categories. Furthermore, FIT can steer behaviour in new contexts, generalising under distribution shift and to new unseen features at inference time, and thereby facilitating more robust, fair, and controllable LLM applications in real-world environments.

arxiv情報

著者 Tom A. Lamb,Adam Davies,Alasdair Paren,Philip H. S. Torr,Francesco Pinto
発行日 2025-01-16 11:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク