要約
シーン内のシームレスに移動するオブジェクトは、画像編集の一般的な要件ですが、既存の編集方法にとっては依然として課題です。
特に実際の画像の場合、閉塞の状況はさらに困難を増加させます。
主な難しさは、移動が進む前に閉塞部分を完了する必要があることです。
事前に訓練された拡散モデルに埋め込まれた現実世界の知識を活用するために、Diffoomという名前の閉塞されたオブジェクトの動き用に特別に設計された拡散ベースのフレームワークを提案します。
提案されているディフームは、オブジェクトの脱気圧と動きを同時に実行する2つの平行な分岐で構成されています。
脱気圧分岐は、バックグラウンドカラーフィル戦略と継続的に更新されたオブジェクトマスクを利用して、ターゲットオブジェクトの不明瞭な部分を完了する拡散プロセスに焦点を合わせます。
同時に、ムーブメントブランチは潜在的な最適化を採用して、完成したオブジェクトをターゲットの場所に配置し、オブジェクトを適切に統合するためにローカルテキストコンディショニングされたガイダンスを採用します。
広範な評価は、包括的なユーザー調査によってさらに検証される方法の優れたパフォーマンスを示しています。
要約(オリジナル)
Seamlessly moving objects within a scene is a common requirement for image editing, but it is still a challenge for existing editing methods. Especially for real-world images, the occlusion situation further increases the difficulty. The main difficulty is that the occluded portion needs to be completed before movement can proceed. To leverage the real-world knowledge embedded in the pre-trained diffusion models, we propose a Diffusion-based framework specifically designed for Occluded Object Movement, named DiffOOM. The proposed DiffOOM consists of two parallel branches that perform object de-occlusion and movement simultaneously. The de-occlusion branch utilizes a background color-fill strategy and a continuously updated object mask to focus the diffusion process on completing the obscured portion of the target object. Concurrently, the movement branch employs latent optimization to place the completed object in the target location and adopts local text-conditioned guidance to integrate the object into new surroundings appropriately. Extensive evaluations demonstrate the superior performance of our method, which is further validated by a comprehensive user study.
arxiv情報
著者 | Zheng-Peng Duan,Jiawei Zhang,Siyu Liu,Zheng Lin,Chun-Le Guo,Dongqing Zou,Jimmy Ren,Chongyi Li |
発行日 | 2025-04-02 16:29:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google