Affordance Diffusion: Synthesizing Hand-Object Interactions

要約

画像合成における最近の成功は、大規模な拡散モデルによって支えられています。
ただし、ほとんどの方法は現在、画像全体の合成、テクスチャ転送、またはユーザー指定の領域へのオブジェクトの挿入のためのテキストまたは画像条件付き生成のいずれかに限定されています。
対照的に、この研究では、特定のオブジェクトとの複雑な相互作用 (つまり、多関節の手) を合成することに焦点を当てています。
物体の RGB 画像が与えられた場合、それと対話する人間の手がもっともらしい画像を幻覚することを目指します。
我々は、2 段階の生成アプローチを提案します。1 つは関節に依存しない手とオブジェクトのインタラクション レイアウトをサンプリングする LayoutNet で、もう 1 つは予測されたレイアウトに基づいてオブジェクトを掴む手の画像を合成する ContentNet です。
どちらも、潜在的な表現を利用するために、大規模な事前学習済みの拡散モデルの上に構築されています。
ベースラインと比較して、提案された方法は、新しいオブジェクトに対してよりよく一般化し、ポータブルサイズのオブジェクトの配布外の野生のシーンで驚くほどうまく機能することが示されています。
結果として得られるシステムにより、手の関節動作や方向への接近など、記述的なアフォーダンス情報を予測できるようになります。
プロジェクトページ: https://judyye.github.io/affordiffusion-www

要約(オリジナル)

Recent successes in image synthesis are powered by large-scale diffusion models. However, most methods are currently limited to either text- or image-conditioned generation for synthesizing an entire image, texture transfer or inserting objects into a user-specified region. In contrast, in this work we focus on synthesizing complex interactions (ie, an articulated hand) with a given object. Given an RGB image of an object, we aim to hallucinate plausible images of a human hand interacting with it. We propose a two-step generative approach: a LayoutNet that samples an articulation-agnostic hand-object-interaction layout, and a ContentNet that synthesizes images of a hand grasping the object given the predicted layout. Both are built on top of a large-scale pretrained diffusion model to make use of its latent representation. Compared to baselines, the proposed method is shown to generalize better to novel objects and perform surprisingly well on out-of-distribution in-the-wild scenes of portable-sized objects. The resulting system allows us to predict descriptive affordance information, such as hand articulation and approaching orientation. Project page: https://judyye.github.io/affordiffusion-www

arxiv情報

著者 Yufei Ye,Xueting Li,Abhinav Gupta,Shalini De Mello,Stan Birchfield,Jiaming Song,Shubham Tulsiani,Sifei Liu
発行日 2023-05-20 22:12:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク