Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer

要約

近年、拡散モデルは画像生成において目覚ましい性能を発揮しています。
ただし、超高解像度画像 (4096*4096 など) の生成中にメモリが 2 次的に増加するため、生成される画像の解像度は 1024*1024 に制限されることがよくあります。
この仕事で。
私たちは、推論プロセス中にメモリ オーバーヘッドを適応的に調整し、グローバルな依存関係を処理できる一方向ブロック アテンション メカニズムを提案します。
このモジュールをベースに、アップサンプリングにDiT構造を採用し、さまざまな形状や解像度の画像をアップサンプリングできる無限超解像モデルを開発しました。
包括的な実験により、私たちのモデルは機械評価と人間による評価の両方で超高解像度画像の生成において SOTA パフォーマンスを達成していることが示されています。
一般的に使用されている UNet 構造と比較して、私たちのモデルは 4096*4096 画像を生成する際に 5 倍以上のメモリを節約できます。
プロジェクトの URL は https://github.com/THUDM/Inf-DiT です。

要約(オリジナル)

Diffusion models have shown remarkable performance in image generation in recent years. However, due to a quadratic increase in memory during generating ultra-high-resolution images (e.g. 4096*4096), the resolution of generated images is often limited to 1024*1024. In this work. we propose a unidirectional block attention mechanism that can adaptively adjust the memory overhead during the inference process and handle global dependencies. Building on this module, we adopt the DiT structure for upsampling and develop an infinite super-resolution model capable of upsampling images of various shapes and resolutions. Comprehensive experiments show that our model achieves SOTA performance in generating ultra-high-resolution images in both machine and human evaluation. Compared to commonly used UNet structures, our model can save more than 5x memory when generating 4096*4096 images. The project URL is https://github.com/THUDM/Inf-DiT.

arxiv情報

著者 Zhuoyi Yang,Heyang Jiang,Wenyi Hong,Jiayan Teng,Wendi Zheng,Yuxiao Dong,Ming Ding,Jie Tang
発行日 2024-05-08 07:17:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク