要約
視覚拡散モデルは目覚ましい進歩を遂げていますが、高解像度データの欠如と計算リソースの制約により、通常は限られた解像度でトレーニングされ、高解像度で忠実度の高い画像やビデオを生成する能力が妨げられています。
最近の取り組みでは、事前トレーニング済みモデルの未開発の潜在的な高解像度ビジュアル生成を示すチューニング不要の戦略が模索されています。
ただし、これらの方法でも、繰り返しパターンを含む低品質のビジュアル コンテンツが生成される傾向があります。
主な障害は、モデルがトレーニング解像度を超える視覚コンテンツを生成するときに高周波情報が必然的に増加し、蓄積されたエラーから生じる望ましくない反復パターンにつながることにあります。
この課題に取り組むために、スケール フュージョンによる高解像度のビジュアル生成を可能にするチューニング不要の推論パラダイムである FreeScale を提案します。
具体的には、FreeScale はさまざまな受容スケールからの情報を処理し、目的の周波数成分を抽出することで情報を融合します。
広範な実験により、画像モデルとビデオモデルの両方で高解像度のビジュアル生成機能を拡張するという私たちのパラダイムの優位性が検証されました。
注目すべき点は、以前の最高のパフォーマンスの方法と比較して、FreeScale が初めて 8k 解像度の画像の生成を可能にしたことです。
要約(オリジナル)
Visual diffusion models achieve remarkable progress, yet they are typically trained at limited resolutions due to the lack of high-resolution data and constrained computation resources, hampering their ability to generate high-fidelity images or videos at higher resolutions. Recent efforts have explored tuning-free strategies to exhibit the untapped potential higher-resolution visual generation of pre-trained models. However, these methods are still prone to producing low-quality visual content with repetitive patterns. The key obstacle lies in the inevitable increase in high-frequency information when the model generates visual content exceeding its training resolution, leading to undesirable repetitive patterns deriving from the accumulated errors. To tackle this challenge, we propose FreeScale, a tuning-free inference paradigm to enable higher-resolution visual generation via scale fusion. Specifically, FreeScale processes information from different receptive scales and then fuses it by extracting desired frequency components. Extensive experiments validate the superiority of our paradigm in extending the capabilities of higher-resolution visual generation for both image and video models. Notably, compared with the previous best-performing method, FreeScale unlocks the generation of 8k-resolution images for the first time.
arxiv情報
著者 | Haonan Qiu,Shiwei Zhang,Yujie Wei,Ruihang Chu,Hangjie Yuan,Xiang Wang,Yingya Zhang,Ziwei Liu |
発行日 | 2024-12-12 18:59:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google