TriDi: Trilateral Diffusion of 3D Humans, Objects, and Interactions

要約

3D Human-Object Interaction(HOI)のモデリングは、コンピュータービジョンにとって非常に興味深い問題であり、仮想および混合現実アプリケーションの重要なイネーブラーです。
既存の方法は一方向で動作します:一部の人は、3Dオブジェクトに条件付けられたもっともらしい人間の相互作用を回復します。
他の人は、人間のポーズを調整したオブジェクトポーズを回復します。
代わりに、任意の方向に動作する最初の統一モデルであるTridiを提供します。
具体的には、新しい3方向拡散プロセスと同時にヒト、オブジェクト、および相互作用のモダリティを生成し、1つのネットワークで7つの分布をモデル化できます。
私たちは、さまざまなモダリティのトークンに参加するトランスとしてTridiを実装し、それによってそれらの間の条件付き関係を発見します。
ユーザーは、HOIのテキスト説明または連絡先マップのいずれかとして相互作用を制御できます。
これらの2つの表現を共有潜在空間に埋め込み、テキストの説明の実用性と接触マップの表現力を組み合わせました。
単一のネットワークを使用して、Tridiは以前の作業のすべての特別なケースを統合し、新しいものに拡張し、7つの分布のファミリをモデル化します。
驚くべきことに、単一のモデルを使用しているにもかかわらず、Tridi生成サンプルは、定性的および定量的メトリックの両方の観点から、グラブと振る舞いの一元配置特殊ベースラインを上回り、より良い多様性を実証します。
シーンの人口へのTridiの適用性、人間接触データセットのオブジェクトの生成、および目に見えないオブジェクトのジオメトリへの一般化を示します。
プロジェクトページは、https://virtualhumans.mpi-inf.mpg.de/tridiで入手できます。

要約(オリジナル)

Modeling 3D human-object interaction (HOI) is a problem of great interest for computer vision and a key enabler for virtual and mixed-reality applications. Existing methods work in a one-way direction: some recover plausible human interactions conditioned on a 3D object; others recover the object pose conditioned on a human pose. Instead, we provide the first unified model – TriDi which works in any direction. Concretely, we generate Human, Object, and Interaction modalities simultaneously with a new three-way diffusion process, allowing to model seven distributions with one network. We implement TriDi as a transformer attending to the various modalities’ tokens, thereby discovering conditional relations between them. The user can control the interaction either as a text description of HOI or a contact map. We embed these two representations into a shared latent space, combining the practicality of text descriptions with the expressiveness of contact maps. Using a single network, TriDi unifies all the special cases of prior work and extends to new ones, modeling a family of seven distributions. Remarkably, despite using a single model, TriDi generated samples surpass one-way specialized baselines on GRAB and BEHAVE in terms of both qualitative and quantitative metrics, and demonstrating better diversity. We show the applicability of TriDi to scene population, generating objects for human-contact datasets, and generalization to unseen object geometry. The project page is available at: https://virtualhumans.mpi-inf.mpg.de/tridi.

arxiv情報

著者 Ilya A. Petrov,Riccardo Marin,Julian Chibane,Gerard Pons-Moll
発行日 2025-03-10 15:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク