Do LLMs ‘know’ internally when they follow instructions?

要約

これらのモデルは、ユーザーが提供する制約とガイドラインを厳密に順守する必要があるため、指導のフォローは、大きな言語モデル(LLMS)を持つAIエージェントを構築するために重要です。
ただし、LLMSは、単純で明確な指示でさえも従わないことがよくあります。
指導に従う動作を改善し、望ましくない出力を防ぐために、LLMの内部状態がこれらの結果にどのように関連するかをより深く理解することが必要です。
この作業では、LLMSが、指導に従う成功と相関する表現で情報をエンコードしているかどうかを調査します。これは、内部で知っているプロパティです。
私たちの分析は、応答が特定の命令に準拠するかどうかを予測する、命令に従う次元と呼ばれる入力埋め込みスペースの方向を特定します。
このディメンションは、目に見えないタスク全体で十分に一般化されているが、目に見えない命令タイプ全体ではないことがわかります。
この次元に沿って表現を変更すると、応答の質を損なうことなく、ランダムな変更と比較して命令に従う成功率が向上することを実証します。
さらなる調査により、この次元は、タスクや命令の固有の難易度ではなく、プロンプトのフレージングにより密接に関連していることが明らかになりました。
この作業は、LLMSの指導の公開の内部仕組みに関する洞察を提供し、信頼できるLLMエージェントへの道を開いています。

要約(オリジナル)

Instruction-following is crucial for building AI agents with large language models (LLMs), as these models must adhere strictly to user-provided constraints and guidelines. However, LLMs often fail to follow even simple and clear instructions. To improve instruction-following behavior and prevent undesirable outputs, a deeper understanding of how LLMs’ internal states relate to these outcomes is required. In this work, we investigate whether LLMs encode information in their representations that correlate with instruction-following success – a property we term knowing internally. Our analysis identifies a direction in the input embedding space, termed the instruction-following dimension, that predicts whether a response will comply with a given instruction. We find that this dimension generalizes well across unseen tasks but not across unseen instruction types. We demonstrate that modifying representations along this dimension improves instruction-following success rates compared to random changes, without compromising response quality. Further investigation reveals that this dimension is more closely related to the phrasing of prompts rather than the inherent difficulty of the task or instructions. This work provides insight into the internal workings of LLMs’ instruction-following, paving the way for reliable LLM agents.

arxiv情報

著者 Juyeon Heo,Christina Heinze-Deml,Oussama Elachqar,Kwan Ho Ryan Chan,Shirley Ren,Udhay Nallasamy,Andy Miller,Jaya Narain
発行日 2025-03-28 15:40:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク