Compositional Human-Scene Interaction Synthesis with Semantic Control

要約

仮想人間とその3D環境の間の自然な相互作用を合成することは、コンピューターゲームやAR/VR体験などの多くのアプリケーションにとって重要です。
私たちの目標は、高レベルのセマンティック仕様によって制御される特定の3Dシーンと相互作用する人間を、アクションカテゴリとオブジェクトインスタンスのペアとして合成することです(例:「椅子に座る」)。
インタラクションセマンティクスを生成フレームワークに組み込む際の重要な課題は、人体のアーティキュレーション、3Dオブジェクトのジオメトリ、インタラクションの意図など、異種の情報を効果的にキャプチャする共同表現を学習することです。
この課題に対処するために、関節式の3D人体表面ポイントと3Dオブジェクトが統合された潜在空間に共同でエンコードされ、人間とオブジェクト間の相互作用のセマンティクスが
位置エンコーディング。
さらに、人間が複数のオブジェクトと同時に相互作用できる相互作用の構成的性質に触発されて、相互作用セマンティクスをさまざまな数の原子アクションとオブジェクトのペアの構成として定義します。
私たちが提案する生成モデルは、さまざまな数の原子相互作用を自然に組み込むことができます。これにより、複合相互作用データを必要とせずに、構成的な人間とシーンの相互作用を合成できます。
インタラクションセマンティックラベルとシーンインスタンスセグメンテーションを使用してPROXデータセットを拡張し、メソッドを評価し、メソッドがセマンティックコントロールを使用して現実的な人間とシーンのインタラクションを生成できることを示します。
私たちの知覚研究は、私たちの合成された仮想人間が3Dシーンと自然に相互作用し、既存の方法を大幅に上回っていることを示しています。
セマンティック制御を使用した組成相互作用合成のために、メソッドにCOINSという名前を付けます。
コードとデータはhttps://github.com/zkf1997/COINSで入手できます。

要約(オリジナル)

Synthesizing natural interactions between virtual humans and their 3D environments is critical for numerous applications, such as computer games and AR/VR experiences. Our goal is to synthesize humans interacting with a given 3D scene controlled by high-level semantic specifications as pairs of action categories and object instances, e.g., ‘sit on the chair’. The key challenge of incorporating interaction semantics into the generation framework is to learn a joint representation that effectively captures heterogeneous information, including human body articulation, 3D object geometry, and the intent of the interaction. To address this challenge, we design a novel transformer-based generative model, in which the articulated 3D human body surface points and 3D objects are jointly encoded in a unified latent space, and the semantics of the interaction between the human and objects are embedded via positional encoding. Furthermore, inspired by the compositional nature of interactions that humans can simultaneously interact with multiple objects, we define interaction semantics as the composition of varying numbers of atomic action-object pairs. Our proposed generative model can naturally incorporate varying numbers of atomic interactions, which enables synthesizing compositional human-scene interactions without requiring composite interaction data. We extend the PROX dataset with interaction semantic labels and scene instance segmentation to evaluate our method and demonstrate that our method can generate realistic human-scene interactions with semantic control. Our perceptual study shows that our synthesized virtual humans can naturally interact with 3D scenes, considerably outperforming existing methods. We name our method COINS, for COmpositional INteraction Synthesis with Semantic Control. Code and data are available at https://github.com/zkf1997/COINS.

arxiv情報

著者 Kaifeng Zhao,Shaofei Wang,Yan Zhang,Thabo Beeler,Siyu Tang
発行日 2022-07-26 11:37:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク