要約
テキストからイメージ(T2I)拡散/フローモデルは、柔軟な視覚的な創造物を提供する驚くべき能力により、最近かなりの注目を集めています。
それでも、高解像度の画像合成は、高解像度の内容の希少性と複雑さのために手ごわい課題を提示します。
この目的のために、事前に訓練されたフローモデルの解像度の可能性を解き放つために、トレーニングなしでモデルに依存しないフレームワークであるHiflowを提示します。
具体的には、HIFLOWは、低解像度のフロー情報の特性を効果的にキャプチャする高解像度空間内の仮想参照フローを確立し、3つの重要な側面を通じて高解像度の生成のガイダンスを提供します。
このフローアライメントガイダンスを活用することにより、HIFLOWはT2Iモデルの高解像度画像合成の品質を大幅に向上させ、パーソナライズされたバリアント全体で汎用性を示します。
広範な実験では、現在の最先端の方法よりも優れた高解像度の画質を達成する際のHiflowの優位性を検証します。
要約(オリジナル)
Text-to-image (T2I) diffusion/flow models have drawn considerable attention recently due to their remarkable ability to deliver flexible visual creations. Still, high-resolution image synthesis presents formidable challenges due to the scarcity and complexity of high-resolution content. To this end, we present HiFlow, a training-free and model-agnostic framework to unlock the resolution potential of pre-trained flow models. Specifically, HiFlow establishes a virtual reference flow within the high-resolution space that effectively captures the characteristics of low-resolution flow information, offering guidance for high-resolution generation through three key aspects: initialization alignment for low-frequency consistency, direction alignment for structure preservation, and acceleration alignment for detail fidelity. By leveraging this flow-aligned guidance, HiFlow substantially elevates the quality of high-resolution image synthesis of T2I models and demonstrates versatility across their personalized variants. Extensive experiments validate HiFlow’s superiority in achieving superior high-resolution image quality over current state-of-the-art methods.
arxiv情報
著者 | Jiazi Bu,Pengyang Ling,Yujie Zhou,Pan Zhang,Tong Wu,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Dahua Lin,Jiaqi Wang |
発行日 | 2025-04-08 17:30:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google