要約
大規模な言語モデル(LLMS)が$ \ textIT {内部チェーンオブオブチャーチ} $を示すことを示します。それらは、レイヤーごとの複合タスクを順次分解して実行します。
2つの主張は、私たちの研究を根拠にします。(i)異なるネットワークの深さで異なるサブタスクが学習され、(ii)これらのサブタスクはレイヤー間で順次実行されます。
15の2段階の複合タスクのベンチマークでは、コンテキストからレイヤーからレイヤーを使用し、新しいクロスタスクパッチング方法を提案し、(i)を確認します。
クレーム(II)を調べるために、logitlensを適用して隠された状態をデコードし、一貫した層状実行パターンを明らかにします。
さらに、実際の$ \ Text {Trace} $ベンチマークで分析を再現し、同じ段階的なダイナミクスを観察します。
一緒になって、私たちの結果は、サブタスク(または命令)を内部的に計画および実行する能力を示し、微調整された命令レベルのアクティベーションステアリングの手段を開くことにより、LLMSの透明性を高めます。
要約(オリジナル)
We show that large language models (LLMs) exhibit an $\textit{internal chain-of-thought}$: they sequentially decompose and execute composite tasks layer-by-layer. Two claims ground our study: (i) distinct subtasks are learned at different network depths, and (ii) these subtasks are executed sequentially across layers. On a benchmark of 15 two-step composite tasks, we employ layer-from context-masking and propose a novel cross-task patching method, confirming (i). To examine claim (ii), we apply LogitLens to decode hidden states, revealing a consistent layerwise execution pattern. We further replicate our analysis on the real-world $\text{TRACE}$ benchmark, observing the same stepwise dynamics. Together, our results enhance LLMs transparency by showing their capacity to internally plan and execute subtasks (or instructions), opening avenues for fine-grained, instruction-level activation steering.
arxiv情報
著者 | Zhipeng Yang,Junzhuo Li,Siyu Xia,Xuming Hu |
発行日 | 2025-05-20 15:49:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google