要約
ループされた変圧器は、推論タスクのためのパラメーター効率、計算機能、および一般化の利点を提供します。
ただし、関数近似に関するそれらの表現力のある力は未定のままです。
この論文では、シーケンスからシーケンス関数の連続性の弾性率を定義することにより、ループされた変圧器の近似速度を確立します。
これにより、ループアーキテクチャに固有の制限が明らかになります。
つまり、分析により、各ループのスケーリングパラメーターの組み込みが促され、タイムステップエンコーディングが条件付けられます。
実験では、理論的な結果が検証され、ループの数を増やすとパフォーマンスが向上し、タイムステップエンコーディングを通じてさらなる利益が達成されることが示されています。
要約(オリジナル)
Looped Transformers provide advantages in parameter efficiency, computational capabilities, and generalization for reasoning tasks. However, their expressive power regarding function approximation remains underexplored. In this paper, we establish the approximation rate of Looped Transformers by defining the modulus of continuity for sequence-to-sequence functions. This reveals a limitation specific to the looped architecture. That is, the analysis prompts the incorporation of scaling parameters for each loop, conditioned on timestep encoding. Experiments validate the theoretical results, showing that increasing the number of loops enhances performance, with further gains achieved through the timestep encoding.
arxiv情報
著者 | Kevin Xu,Issei Sato |
発行日 | 2025-03-11 15:51:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google