DragAPart: Learning a Part-Level Motion Prior for Articulated Objects

要約

DragAPart というメソッドを紹介します。このメソッドは、画像と一連のドラッグを入力として指定すると、ドラッグのアクションと互換性のある新しい状態で同じオブジェクトの新しい画像を生成できます。
オブジェクトの再配置に焦点を当てた以前の作品とは異なり、DragAPart は引き出しの開閉などのパーツレベルのインタラクションを予測します。
私たちは、特定の運動学的構造やオブジェクト カテゴリに限定されない、一般的な運動モデルを学習するための代用としてこの問題を研究します。
この目的を達成するために、事前トレーニングされた画像ジェネレーターから開始し、導入した新しい合成データセット Drag-a-Move で微調整します。
ドラッグおよびデータセットのランダム化のための新しいエンコーディングと組み合わせることで、新しいモデルは実際の画像やさまざまなカテゴリに適切に一般化されます。
以前のモーション制御ジェネレーターと比較して、パーツレベルでのモーションの理解がはるかに優れていることを実証します。

要約(オリジナル)

We introduce DragAPart, a method that, given an image and a set of drags as input, can generate a new image of the same object in a new state, compatible with the action of the drags. Differently from prior works that focused on repositioning objects, DragAPart predicts part-level interactions, such as opening and closing a drawer. We study this problem as a proxy for learning a generalist motion model, not restricted to a specific kinematic structure or object category. To this end, we start from a pre-trained image generator and fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce. Combined with a new encoding for the drags and dataset randomization, the new model generalizes well to real images and different categories. Compared to prior motion-controlled generators, we demonstrate much better part-level motion understanding.

arxiv情報

著者 Ruining Li,Chuanxia Zheng,Christian Rupprecht,Andrea Vedaldi
発行日 2024-03-22 17:58:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク