NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis


この論文では、任意のサイズの高解像度画像または長時間のビデオを生成するタスクとして定義されている、無限の視覚合成の生成モデルである NUWA-Infinity を紹介します。
この可変サイズの生成タスクに対処するために、自己回帰に対する自己回帰生成メカニズムが提案されています。グローバル パッチ レベルの自己回帰モデルはパッチ間の依存関係を考慮し、ローカル トークン レベルの自己回帰モデルは各パッチ内のビジュアル トークン間の依存関係を考慮します。
Nearby Context Pool (NCP) は、生成中の現在のパッチのコンテキストとして既に生成されているキャッシュ関連のパッチに導入されます。これにより、パッチレベルの依存関係モデリングを犠牲にすることなく、計算コストを大幅に節約できます。
任意方向コントローラー (ADC) を使用して、さまざまな視覚合成タスクに適した生成順序を決定し、順序を意識した位置埋め込みを学習します。
DALL-E、Imagen、Parti と比較して、NUWA-Infinity は任意のサイズの高解像度画像を生成でき、さらに長時間のビデオ生成をサポートします。
NUWA-Infinity は、画像や動画もカバーする NUWA と比較して、解像度と可変サイズ生成の点で優れたビジュアル合成機能を備えています。
GitHub リンクは です。
ホームページのリンクは です。


In this paper, we present NUWA-Infinity, a generative model for infinite visual synthesis, which is defined as the task of generating arbitrarily-sized high-resolution images or long-duration videos. An autoregressive over autoregressive generation mechanism is proposed to deal with this variable-size generation task, where a global patch-level autoregressive model considers the dependencies between patches, and a local token-level autoregressive model considers dependencies between visual tokens within each patch. A Nearby Context Pool (NCP) is introduced to cache-related patches already generated as the context for the current patch being generated, which can significantly save computation costs without sacrificing patch-level dependency modeling. An Arbitrary Direction Controller (ADC) is used to decide suitable generation orders for different visual synthesis tasks and learn order-aware positional embeddings. Compared to DALL-E, Imagen and Parti, NUWA-Infinity can generate high-resolution images with arbitrary sizes and support long-duration video generation additionally. Compared to NUWA, which also covers images and videos, NUWA-Infinity has superior visual synthesis capabilities in terms of resolution and variable-size generation. The GitHub link is The homepage link is


著者 Chenfei Wu,Jian Liang,Xiaowei Hu,Zhe Gan,Jianfeng Wang,Lijuan Wang,Zicheng Liu,Yuejian Fang,Nan Duan
発行日 2022-08-12 04:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク