Narrator: Towards Natural Control of Human-Scene Interaction Generation via Relationship Reasoning

要約

自然に制御可能なヒューマン シーン インタラクション (HSI) の生成は、VR/AR コンテンツの作成や人間中心の AI など、さまざまな分野で重要な役割を果たします。
ただし、既存の方法は、制御性が不自然で直感的でないため、実際の適用が大きく制限されます。
したがって、テキスト記述から現実的で多様な HSI を自然かつ制御可能に生成するという挑戦的なタスクに焦点を当てています。
人間の認識から、理想的な生成モデルは、空間的な関係とインタラクティブなアクションについて正しく推論する必要があります。
そのために、Narrator を提案します。これは、3D シーンとテキスト記述が与えられた場合に自然に制御可能な生成のために条件付きバリエーション オートエンコーダーを使用する、新しい関係推論ベースの生成的アプローチです。
また、シーン グラフに基づいて、それぞれ 3D シーンとテキスト記述でグローバルおよびローカルの空間関係をモデル化し、パーツ レベルのアクション メカニズムを導入して、相互作用をアトミック ボディ パーツの状態として表現します。
特に、関係推論の恩恵を受けて、シンプルで効果的な複数人間生成戦略をさらに提案します。これは、制御可能な複数人間シーンの相互作用生成の最初の調査です。
私たちの広範な実験と知覚研究は、ナレーターが多様な相互作用を制御可能に生成し、既存の作品を大幅に上回ることを示しています。
コードとデータセットは研究目的で利用できます。

要約(オリジナル)

Naturally controllable human-scene interaction (HSI) generation has an important role in various fields, such as VR/AR content creation and human-centered AI. However, existing methods are unnatural and unintuitive in their controllability, which heavily limits their application in practice. Therefore, we focus on a challenging task of naturally and controllably generating realistic and diverse HSIs from textual descriptions. From human cognition, the ideal generative model should correctly reason about spatial relationships and interactive actions. To that end, we propose Narrator, a novel relationship reasoning-based generative approach using a conditional variation autoencoder for naturally controllable generation given a 3D scene and a textual description. Also, we model global and local spatial relationships in a 3D scene and a textual description respectively based on the scene graph, and introduce a partlevel action mechanism to represent interactions as atomic body part states. In particular, benefiting from our relationship reasoning, we further propose a simple yet effective multi-human generation strategy, which is the first exploration for controllable multi-human scene interaction generation. Our extensive experiments and perceptual studies show that Narrator can controllably generate diverse interactions and significantly outperform existing works. The code and dataset will be available for research purposes.

arxiv情報

著者 Haibiao Xuan,Xiongzheng Li,Jinsong Zhang,Hongwen Zhang,Yebin Liu,Kun Li
発行日 2023-03-16 15:44:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク