要約
この作業では、大規模な言語モデル(LLM)は、次のトークンのみを予測するように訓練されていますが、緊急計画行動を示します。
単純なプロービングを通じて、LLMプロンプト表現は、$ \ textit {structure属性} $(応答長、推論ステップなど)、$ \ textit {content属性} $(例えば、ストーリーライティングの文字選択、応答の終了時の回答{$ \ centhion {e. $ \ centhion {e. $ \ textion {centsion {centsion {content属性)、$ \ textit {content属性)を含む、応答全体のグローバル属性をエンコードすることを実証します。
事実の一貫性)。
応答計画の識別に加えて、タスク全体でモデルサイズでどのようにスケーリングし、生成中にどのように進化するかを探ります。
LLMSが隠された表現において将来のために前進する結果は、透明性と生成制御を改善するための潜在的なアプリケーションを示唆しています。
要約(オリジナル)
In this work, we argue that large language models (LLMs), though trained to predict only the next token, exhibit emergent planning behaviors: $\textbf{their hidden representations encode future outputs beyond the next token}$. Through simple probing, we demonstrate that LLM prompt representations encode global attributes of their entire responses, including $\textit{structure attributes}$ (e.g., response length, reasoning steps), $\textit{content attributes}$ (e.g., character choices in storywriting, multiple-choice answers at the end of response), and $\textit{behavior attributes}$ (e.g., answer confidence, factual consistency). In addition to identifying response planning, we explore how it scales with model size across tasks and how it evolves during generation. The findings that LLMs plan ahead for the future in their hidden representations suggest potential applications for improving transparency and generation control.
arxiv情報
著者 | Zhichen Dong,Zhanhui Zhou,Zhixuan Liu,Chao Yang,Chaochao Lu |
発行日 | 2025-06-06 15:38:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google