要約
テキストの指示に基づいて画像にオブジェクトを追加することは、セマンティック画像編集において困難な作業であり、元のシーンの保存と、新しいオブジェクトを適切な位置にシームレスに統合することとの間のバランスが必要です。
多大な努力にもかかわらず、既存のモデルはこのバランス、特に複雑なシーンにオブジェクトを追加するための自然な位置を見つけるのに苦労することがよくあります。
拡散モデルの注意メカニズムを拡張して、シーン画像、テキスト プロンプト、生成された画像自体という 3 つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである Add-it を紹介します。
当社の加重拡張注意メカニズムは、オブジェクトの自然な配置を保証しながら、構造の一貫性と細かいディテールを維持します。
タスク固有の微調整を行わなくても、Add-it は、オブジェクト配置の妥当性を評価するために新しく構築された「Additing Affordance Benchmark」を含む、実際の画像挿入ベンチマークと生成された画像挿入ベンチマークの両方で最先端の結果を達成し、教師付き手法を上回ります。
人間による評価では、80% 以上のケースで Add-it が好まれることが示されており、さまざまな自動化された指標の改善も実証されています。
要約(オリジナル)
Adding Object into images based on text instructions is a challenging task in semantic image editing, requiring a balance between preserving the original scene and seamlessly integrating the new object in a fitting location. Despite extensive efforts, existing models often struggle with this balance, particularly with finding a natural location for adding an object in complex scenes. We introduce Add-it, a training-free approach that extends diffusion models’ attention mechanisms to incorporate information from three key sources: the scene image, the text prompt, and the generated image itself. Our weighted extended-attention mechanism maintains structural consistency and fine details while ensuring natural object placement. Without task-specific fine-tuning, Add-it achieves state-of-the-art results on both real and generated image insertion benchmarks, including our newly constructed ‘Additing Affordance Benchmark’ for evaluating object placement plausibility, outperforming supervised methods. Human evaluations show that Add-it is preferred in over 80% of cases, and it also demonstrates improvements in various automated metrics.
arxiv情報
著者 | Yoad Tewel,Rinon Gal,Dvir Samuel Yuval Atzmon,Lior Wolf,Gal Chechik |
発行日 | 2024-11-11 18:50:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google