Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking

要約

大規模な言語モデル(LLM)は、特に複雑な推論を必要とする重要なトークンの処理において、パラメーター制約の下で固有のパフォーマンスボトルネックに直面しています。
経験的分析により、挑戦的なトークンは層全体に突然の勾配スパイクを誘発し、標準変圧器の建築ストレスポイントを公開します。
この洞察に基づいて、私たちは内なる思考変圧器(ITT)を提案します。これは、層の計算を暗黙の思考ステップとして再考します。
ITTは、適応トークンルーティングを介して計算を動的に割り当て、残留思考接続を介して表現を繰り返し洗練し、思考ステップエンコードを使用して推論フェーズを区別します。
ITTにより、パラメーター拡張なしに重要なトークンをより深く処理できます。
162M-466Mパラメーターモデルの評価では、ITTが162mパラメーターのみを使用して466mの変圧器の96.5%のパフォーマンスを達成し、トレーニングデータを43.2 \%減らし、11のベンチマークでトランス/ループバリエーションを上回ることが示されています。
推論中に弾性計算割り当てを有効にすることにより、ITTは、暗黙の思考経路のアーキテクチャ対応の最適化を通じてパフォーマンスと効率のバランスをとります。

要約(オリジナル)

Large language models (LLMs) face inherent performance bottlenecks under parameter constraints, particularly in processing critical tokens that demand complex reasoning. Empirical analysis reveals challenging tokens induce abrupt gradient spikes across layers, exposing architectural stress points in standard Transformers. Building on this insight, we propose Inner Thinking Transformer (ITT), which reimagines layer computations as implicit thinking steps. ITT dynamically allocates computation through Adaptive Token Routing, iteratively refines representations via Residual Thinking Connections, and distinguishes reasoning phases using Thinking Step Encoding. ITT enables deeper processing of critical tokens without parameter expansion. Evaluations across 162M-466M parameter models show ITT achieves 96.5\% performance of a 466M Transformer using only 162M parameters, reduces training data by 43.2\%, and outperforms Transformer/Loop variants in 11 benchmarks. By enabling elastic computation allocation during inference, ITT balances performance and efficiency through architecture-aware optimization of implicit thinking pathways.

arxiv情報

著者 Yilong Chen,Junyuan Shang,Zhenyu Zhang,Yanxi Xie,Jiawei Sheng,Tingwen Liu,Shuohuan Wang,Yu Sun,Hua Wu,Haifeng Wang
発行日 2025-02-19 16:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク