要約
この作業では、パス積分形式のフレームワーク内でコアメカニズムを再解釈することにより、トランスアルゴリズムの一般化された定式化を提示します。
この観点では、注意メカニズムは、将来のトークン状態につながる可能なすべての遷移パスを統合するプロセスとして再構築され、時間の進化はフィードフォワードネットワークによって支配されます。
トランスの各コンポーネントをパス積分定式化におけるその対応物に体系的にマッピングすることにより、よりコンパクトで効率的な表現を取得します。この表現では、シーケンスのコンテキスト情報がメモリのようなセグメントに凝縮されます。
これらのセグメントは、変圧器層全体で再発して処理され、より効果的な長期情報保持が可能になります。
PassKeyの検索タスクと要約タスクを通じてこのアプローチの有効性を検証し、提案された方法がシーケンスの長さで直線的にスケーリングするメモリ使用量を示しながら履歴情報を保持していることを示します。
これは、標準的な注意メカニズムで通常観察される非線形記憶成長とは対照的です。
この量子に触発されたトランスアーキテクチャの一般化により、将来の変圧器モデルの効率と表現力の両方を高めるための新しい道が開かれると予想されます。
要約(オリジナル)
In this work, we present a generalized formulation of the Transformer algorithm by reinterpreting its core mechanisms within the framework of Path Integral formalism. In this perspective, the attention mechanism is recast as a process that integrates all possible transition paths leading to future token states, with temporal evolution governed by the Feed-Forward Network. By systematically mapping each component of the Transformer to its counterpart in the Path Integral formulation, we obtain a more compact and efficient representation, in which the contextual information of a sequence is condensed into memory-like segments. These segments are recurrently processed across Transformer layers, enabling more effective long-term information retention. We validate the effectiveness of this approach through the Passkey retrieval task and a summarization task, demonstrating that the proposed method preserves historical information while exhibiting memory usage that scales linearly with sequence length. This contrasts with the non-linear memory growth typically observed in standard attention mechanisms. We expect that this quantum-inspired generalization of the Transformer architecture will open new avenues for enhancing both the efficiency and expressiveness of future Transformer models.
arxiv情報
著者 | Won-Gi Paeng,Daesuk Kwon,Kyungwon Jeong,Honggyo Suh |
発行日 | 2025-03-10 13:24:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google