AnyDoor: Zero-shot Object-level Image Customization

要約

この作品では、ターゲット オブジェクトをユーザーが指定した場所の新しいシーンに調和のとれた方法でテレポートする機能を備えた拡散ベースの画像ジェネレーターである AnyDoor を紹介します。
オブジェクトごとにパラメーターを調整するのではなく、モデルは 1 回だけトレーニングされ、推論段階でさまざまなオブジェクトとシーンの組み合わせに簡単に一般化されます。
このような挑戦的なゼロショット設定には、特定のオブジェクトの適切な特性評価が必要です。
この目的を達成するために、一般的に使用されるアイデンティティ特徴を詳細特徴で補完します。詳細特徴は、テクスチャの詳細を維持しながら、多様な局所的なバリエーション (照明、方向、姿勢など) を可能にするように慎重に設計されており、オブジェクトがさまざまな環境と良好にブレンドされるようにサポートします。

さらに、ビデオ データセットから知識を借用することを提案します。これにより、単一のオブジェクトのさまざまな形式 (つまり、時間軸に沿った) を観察でき、モデルの一般化性とロバスト性が強化されます。
広範な実験により、既存の代替手段に対する当社のアプローチの優位性だけでなく、仮想試着や物体の移動などの実世界のアプリケーションにおけるその大きな可能性が実証されました。
プロジェクトページは https://damo-vilab.github.io/AnyDoor-Page/ です。

要約(オリジナル)

This work presents AnyDoor, a diffusion-based image generator with the power to teleport target objects to new scenes at user-specified locations in a harmonious way. Instead of tuning parameters for each object, our model is trained only once and effortlessly generalizes to diverse object-scene combinations at the inference stage. Such a challenging zero-shot setting requires an adequate characterization of a certain object. To this end, we complement the commonly used identity feature with detail features, which are carefully designed to maintain texture details yet allow versatile local variations (e.g., lighting, orientation, posture, etc.), supporting the object in favorably blending with different surroundings. We further propose to borrow knowledge from video datasets, where we can observe various forms (i.e., along the time axis) of a single object, leading to stronger model generalizability and robustness. Extensive experiments demonstrate the superiority of our approach over existing alternatives as well as its great potential in real-world applications, such as virtual try-on and object moving. Project page is https://damo-vilab.github.io/AnyDoor-Page/.

arxiv情報

著者 Xi Chen,Lianghua Huang,Yu Liu,Yujun Shen,Deli Zhao,Hengshuang Zhao
発行日 2023-07-18 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク