PICO: Reconstructing 3D People In Contact with Objects

要約

シングルカラー画像から3Dヒトオブジェクト相互作用(HOI)を回復することは、深さのあいまいさ、閉塞、およびオブジェクトの形状と外観の大きなばらつきのために困難です。
したがって、過去の作業では、既知のオブジェクト形状や連絡先などの制御された設定が必要であり、限られたオブジェクトクラスのみに取り組んでいます。
代わりに、自然な画像や新しいオブジェクトクラスに一般化する方法が必要です。
これには、2つの主な方法で取り組みます。(1)Pico-DBを収集します。これは、ボディメッシュとオブジェクトメッシュの両方で密な3D接触と独自に組み合わせた自然画像の新しいデータセットです。
この目的のために、連絡先と組み合わせた最近のデイモンデータセットの画像を使用しますが、これらの連絡先は標準的な3Dボディでのみ注釈が付けられています。
対照的に、ボディとオブジェクトの両方に接触ラベルを探します。
これらを与えられた画像を推測するために、Vision Foundationモデルを活用することにより、データベースから適切な3Dオブジェクトメッシュを取得します。
次に、パッチごとに2クリックしか必要とする新しい方法を介して、デイモンのボディコンタクトパッチをオブジェクトに投影します。
この最小限の人間の入力は、ボディとオブジェクトの間の豊富な接触対応を確立します。
(2)インタラクションで3Dボディとオブジェクトメッシュを回復するために、Pico-Fitと呼ばれる新しいレンダリングおよびコンパールフィッティング方法で、連絡先の新しいデータセットを利用します。
PICO-FITは、SMPL-Xボディの接触を促進し、そのオブジェクトのPico-DBから3Dオブジェクトメッシュと接触を取得し、接触を使用して、3Dボディとオブジェクトメッシュに最適化を介してイメージを繰り返します。
ユニークなことに、Pico-Fitは、既存の方法に取り組むことができない多くのオブジェクトカテゴリに適しています。
これは、HOIの理解が野生でスケーリングできるようにするために重要です。
当社のデータとコードは、https://pico.is.tue.mpg.deで入手できます。

要約(オリジナル)

Recovering 3D Human-Object Interaction (HOI) from single color images is challenging due to depth ambiguities, occlusions, and the huge variation in object shape and appearance. Thus, past work requires controlled settings such as known object shapes and contacts, and tackles only limited object classes. Instead, we need methods that generalize to natural images and novel object classes. We tackle this in two main ways: (1) We collect PICO-db, a new dataset of natural images uniquely paired with dense 3D contact on both body and object meshes. To this end, we use images from the recent DAMON dataset that are paired with contacts, but these contacts are only annotated on a canonical 3D body. In contrast, we seek contact labels on both the body and the object. To infer these given an image, we retrieve an appropriate 3D object mesh from a database by leveraging vision foundation models. Then, we project DAMON’s body contact patches onto the object via a novel method needing only 2 clicks per patch. This minimal human input establishes rich contact correspondences between bodies and objects. (2) We exploit our new dataset of contact correspondences in a novel render-and-compare fitting method, called PICO-fit, to recover 3D body and object meshes in interaction. PICO-fit infers contact for the SMPL-X body, retrieves a likely 3D object mesh and contact from PICO-db for that object, and uses the contact to iteratively fit the 3D body and object meshes to image evidence via optimization. Uniquely, PICO-fit works well for many object categories that no existing method can tackle. This is crucial to enable HOI understanding to scale in the wild. Our data and code are available at https://pico.is.tue.mpg.de.

arxiv情報

著者 Alpár Cseke,Shashank Tripathi,Sai Kumar Dwivedi,Arjun Lakshmipathy,Agniv Chatterjee,Michael J. Black,Dimitrios Tzionas
発行日 2025-04-24 16:03:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク