The Illusion of Role Separation: Hidden Shortcuts in LLM Role Learning (and How to Fix Them)

要約

複数の入力ロール(システム命令、ユーザークエリ、外部ツール出力など)を統合する大規模な言語モデル(LLMS)は、実際にますます一般的になっています。
モデルが各ロール(\ emphed {役割分離}と呼ばれる概念)からメッセージを正確に区別することが、一貫したマルチロール動作に不可欠であることを保証することです。
最近の研究では、最先端の迅速な噴射防御をターゲットにしていることがよくありますが、そのような方法は、LLMに役割を区別するか、単に既知のトリガーを記憶するように本当に教えているかどうかは不明のままです。
このホワイトペーパーでは、\ emph {ロール分離学習}を調べます。LLMSを教えるプロセスを、システムとユーザートークンを堅牢に区別するプロセスです。
\ emph {シンプルで制御された実験フレームワーク}を通じて、微調整されたモデルは、しばしば役割識別のために2つのプロキシに依存していることがわかります:(1)タスクタイプの搾取、および(2)テキストの開始への近さ。
データの増強はこれらのショートカットを部分的に軽減できますが、一般に、より深い修正ではなく、反復的なパッチングにつながります。
これに対処するために、モデルの入力エンコードでトークンごとのキューを調整することにより、役割の境界をマークする強化\ emph {invariant信号}を提案します。
特に、ポジションIDを操作することで、モデルがより明確な区別を学習し、表面的なプロキシへの依存を減らすのに役立ちます。
このメカニズム中心の視点に焦点を当てることにより、私たちの仕事は、LLMが単に既知のプロンプトやトリガーを記憶することなく、より確実に一貫したマルチロール動作をより確実に維持できる方法を照らします。

要約(オリジナル)

Large language models (LLMs) that integrate multiple input roles (e.g., system instructions, user queries, external tool outputs) are increasingly prevalent in practice. Ensuring that the model accurately distinguishes messages from each role — a concept we call \emph{role separation} — is crucial for consistent multi-role behavior. Although recent work often targets state-of-the-art prompt injection defenses, it remains unclear whether such methods truly teach LLMs to differentiate roles or merely memorize known triggers. In this paper, we examine \emph{role-separation learning}: the process of teaching LLMs to robustly distinguish system and user tokens. Through a \emph{simple, controlled experimental framework}, we find that fine-tuned models often rely on two proxies for role identification: (1) task type exploitation, and (2) proximity to begin-of-text. Although data augmentation can partially mitigate these shortcuts, it generally leads to iterative patching rather than a deeper fix. To address this, we propose reinforcing \emph{invariant signals} that mark role boundaries by adjusting token-wise cues in the model’s input encoding. In particular, manipulating position IDs helps the model learn clearer distinctions and reduces reliance on superficial proxies. By focusing on this mechanism-centered perspective, our work illuminates how LLMs can more reliably maintain consistent multi-role behavior without merely memorizing known prompts or triggers.

arxiv情報

著者 Zihao Wang,Yibo Jiang,Jiahao Yu,Heqing Huang
発行日 2025-05-05 03:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, I.2 パーマリンク