要約
自己回帰モデルは、ビジュアル生成のための強力なアプローチとして登場しましたが、トークンごとの逐次予測プロセスにより推論速度が遅いという問題があります。
この論文では、自己回帰モデリングの利点を維持しながら生成効率を向上させる、並列化された自己回帰ビジュアル生成のためのシンプルかつ効果的なアプローチを提案します。
私たちの重要な洞察は、並列生成は視覚的なトークンの依存関係に依存しているということです。弱い依存関係を持つトークンは並列生成できますが、独立したサンプリングが不整合を引き起こす可能性があるため、強く依存する隣接するトークンを一緒に生成するのは困難です。
この観察に基づいて、依存性の強いローカル トークンの順次生成を維持しながら、依存性の弱い遠隔トークンを並列生成する並列生成戦略を開発します。
私たちのアプローチは、アーキテクチャやトークナイザーを変更することなく、標準の自己回帰モデルにシームレスに統合できます。
ImageNet と UCF-101 での実験では、私たちの方法が画像とビデオの両方の生成タスクにわたって、同等の品質で 3.6 倍の高速化、および最小限の品質劣化で最大 9.5 倍の高速化を達成することを実証しています。
この研究が、効率的なビジュアル生成と統合自己回帰モデリングにおける将来の研究に刺激を与えることを願っています。
プロジェクトページ: https://epiphqny.github.io/PAR-project。
要約(オリジナル)
Autoregressive models have emerged as a powerful approach for visual generation but suffer from slow inference speed due to their sequential token-by-token prediction process. In this paper, we propose a simple yet effective approach for parallelized autoregressive visual generation that improves generation efficiency while preserving the advantages of autoregressive modeling. Our key insight is that parallel generation depends on visual token dependencies-tokens with weak dependencies can be generated in parallel, while strongly dependent adjacent tokens are difficult to generate together, as their independent sampling may lead to inconsistencies. Based on this observation, we develop a parallel generation strategy that generates distant tokens with weak dependencies in parallel while maintaining sequential generation for strongly dependent local tokens. Our approach can be seamlessly integrated into standard autoregressive models without modifying the architecture or tokenizer. Experiments on ImageNet and UCF-101 demonstrate that our method achieves a 3.6x speedup with comparable quality and up to 9.5x speedup with minimal quality degradation across both image and video generation tasks. We hope this work will inspire future research in efficient visual generation and unified autoregressive modeling. Project page: https://epiphqny.github.io/PAR-project.
arxiv情報
著者 | Yuqing Wang,Shuhuai Ren,Zhijie Lin,Yujin Han,Haoyuan Guo,Zhenheng Yang,Difan Zou,Jiashi Feng,Xihui Liu |
発行日 | 2024-12-19 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google