要約
特定のモデルの表現力を理解することは、その能力の限界を把握するために不可欠です。
最近、いくつかの研究により、トランス アーキテクチャの回路複雑さの限界が確立されました。
さらに、Visual AutoRegressive (VAR) モデルは、高品質の画像を生成する際に拡散トランスフォーマーなどの以前の技術を上回って、画像生成の分野で著名な手法として台頭しています。
この研究では、VAR モデルの回路の複雑さを調査し、限界を確立しました。
私たちの主な結果は、VAR モデルが隠れ次元 $d \leq O(n)$ および $\mathrm{poly}(n)$ を持つ均一 $\mathsf{TC}^0$ 閾値回路によるシミュレーションと同等であることを示しています。
精度。
これは、VAR モデルの優れたパフォーマンスにもかかわらず、その表現力の限界を厳密に強調した最初の研究です。
私たちは、私たちの調査結果がこれらのモデルに固有の制約についての貴重な洞察を提供し、将来的にはより効率的で表現力豊かなアーキテクチャの開発に役立つと信じています。
要約(オリジナル)
Understanding the expressive ability of a specific model is essential for grasping its capacity limitations. Recently, several studies have established circuit complexity bounds for Transformer architecture. Besides, the Visual AutoRegressive (VAR) model has risen to be a prominent method in the field of image generation, outperforming previous techniques, such as Diffusion Transformers, in generating high-quality images. We investigate the circuit complexity of the VAR model and establish a bound in this study. Our primary result demonstrates that the VAR model is equivalent to a simulation by a uniform $\mathsf{TC}^0$ threshold circuit with hidden dimension $d \leq O(n)$ and $\mathrm{poly}(n)$ precision. This is the first study to rigorously highlight the limitations in the expressive power of VAR models despite their impressive performance. We believe our findings will offer valuable insights into the inherent constraints of these models and guide the development of more efficient and expressive architectures in the future.
arxiv情報
著者 | Yekun Ke,Xiaoyu Li,Yingyu Liang,Zhenmei Shi,Zhao Song |
発行日 | 2025-01-08 06:07:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google