要約
Recurrent Interface Network (RIN) を提示します。これは、情報の分布に従って計算を入力に適応的に割り当てるニューラル ネットワーク アーキテクチャであり、高次元データの反復生成にスケーリングできるようにします。
RIN の非表示ユニットは、入力にローカルに接続されているインターフェイスと、入力から切り離されてグローバルに情報を交換できる潜在ユニットに分割されます。
RIN ブロックは、インターフェースから潜在変数に選択的に読み取り、大容量処理を行い、増分更新をインターフェースに書き戻します。
複数のブロックを積み重ねることで、ローカル レベルとグローバル レベルの間で効果的なルーティングが可能になります。
ルーティングはオーバーヘッドを追加しますが、コストは、拡散モデルを使用した反復生成など、よりグローバルなコンテキストが持続する一方で入力が徐々に変化する反復計算設定で償却できます。
この目的のために、生成プロセスの各反復で潜在を「ウォームスタート」する潜在自己調整手法を提案します。
ピクセルで直接動作する拡散モデルに適用すると、RIN はカスケードやガイダンスなしで最先端の画像とビデオの生成を実現し、ドメインにとらわれず、特殊な 2D および 3D U と比較して最大 10$\times$ 効率的です。
-ネッツ。
要約(オリジナル)
We present the Recurrent Interface Network (RIN), a neural net architecture that allocates computation adaptively to the input according to the distribution of information, allowing it to scale to iterative generation of high-dimensional data. Hidden units of RINs are partitioned into the interface, which is locally connected to inputs, and latents, which are decoupled from inputs and can exchange information globally. The RIN block selectively reads from the interface into latents for high-capacity processing, with incremental updates written back to the interface. Stacking multiple blocks enables effective routing across local and global levels. While routing adds overhead, the cost can be amortized in recurrent computation settings where inputs change gradually while more global context persists, such as iterative generation using diffusion models. To this end, we propose a latent self-conditioning technique that ‘warm-starts’ the latents at each iteration of the generation process. When applied to diffusion models operating directly on pixels, RINs yield state-of-the-art image and video generation without cascades or guidance, while being domain-agnostic and up to 10$\times$ more efficient compared to specialized 2D and 3D U-Nets.
arxiv情報
著者 | Allan Jabri,David Fleet,Ting Chen |
発行日 | 2022-12-22 18:55:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google