要約
Floweditなどのフローベースの画像編集方法は、安定した拡散3などの事前に訓練されたノイズ間フローモデルを活用し、通常の微分方程式(ODE)を解くことによりテキスト駆動型の操作を可能にします。
正確な潜在的反転の欠如はこれらの方法の中心的な利点ですが、多くの場合、不安定な編集軌跡とソースの一貫性が低下します。
この制限に対処するために、原則的な軌跡制御を備えた一貫した画像編集のための新しい反転のないフローベースのフレームワークであるFlowAlignを提案します。
FlowAlignは、編集プロセス中によりスムーズで安定した軌跡を促進するための正規化メカニズムとしてフローマッチング損失を導入します。
特に、フローマッチング損失は、編集プロンプトと軌跡に沿ったソース画像との構造的一貫性とセマンティックアライメントを明示的にバランスさせることが示されています。
さらに、FlowAlignは、オードの軌跡を単純に逆転させることにより、自然に逆編集をサポートし、変換の可逆的で一貫した性質を強調します。
広範な実験では、流れがソースの保存と編集制御可能性の両方で既存の方法を上回ることが示されています。
要約(オリジナル)
Recent inversion-free, flow-based image editing methods such as FlowEdit leverages a pre-trained noise-to-image flow model such as Stable Diffusion 3, enabling text-driven manipulation by solving an ordinary differential equation (ODE). While the lack of exact latent inversion is a core advantage of these methods, it often results in unstable editing trajectories and poor source consistency. To address this limitation, we propose FlowAlign, a novel inversion-free flow-based framework for consistent image editing with principled trajectory control. FlowAlign introduces a flow-matching loss as a regularization mechanism to promote smoother and more stable trajectories during the editing process. Notably, the flow-matching loss is shown to explicitly balance semantic alignment with the edit prompt and structural consistency with the source image along the trajectory. Furthermore, FlowAlign naturally supports reverse editing by simply reversing the ODE trajectory, highlighting the reversible and consistent nature of the transformation. Extensive experiments demonstrate that FlowAlign outperforms existing methods in both source preservation and editing controllability.
arxiv情報
著者 | Jeongsol Kim,Yeobin Hong,Jong Chul Ye |
発行日 | 2025-06-17 12:51:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google