On Expressive Power of Looped Transformers: Theoretical Analysis and Enhancement via Timestep Encoding

要約

ループ化変換器は、推論タスクのパラメータ効率、計算能力、汎化性において優位性がある。しかし、関数の近似に関するその表現力は未解明である。本論文では、配列間関数の連続性の係数を定義することで、ループ化変換器の近似率を確立する。これにより、ループ型アーキテクチャ特有の限界が明らかになった。すなわち、解析は、タイムステップエンコーディングを条件として、各ループにスケーリングパラメータを組み込むことを促す。実験により理論結果が検証され、ループの数を増やすことで性能が向上し、タイムステップエンコーディングによってさらに性能が向上することが示された。

要約(オリジナル)

Looped Transformers provide advantages in parameter efficiency, computational capabilities, and generalization for reasoning tasks. However, their expressive power regarding function approximation remains underexplored. In this paper, we establish the approximation rate of Looped Transformers by defining the modulus of continuity for sequence-to-sequence functions. This reveals a limitation specific to the looped architecture. That is, the analysis prompts the incorporation of scaling parameters for each loop, conditioned on timestep encoding. Experiments validate the theoretical results, showing that increasing the number of loops enhances performance, with further gains achieved through the timestep encoding.

arxiv情報

著者 Kevin Xu,Issei Sato
発行日 2025-05-02 17:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク