GenZI: Zero-Shot 3D Human-Scene Interaction Generation

要約

3D 人間とシーンのインタラクション データから学習せずに、シーンと対話する 3D 人間を合成できますか?
私たちは、3D ヒューマンシーンのインタラクションを生成するための初のゼロショット アプローチである GenZI を提案します。
GenZI の鍵となるのは、2D の人間のシーンの構成の豊かな意味空間を学習した大規模なビジョン言語モデル (VLM) からインタラクション事前分布を抽出することです。
自然言語による説明と 3D シーン内の目的のインタラクションの大まかな点の位置が与えられると、まず VLM を活用して、シーンの複数のレンダリングされたビューに塗りつぶされるもっともらしい 2D 人間のインタラクションを想像します。
次に、2D インタラクション仮説との一貫性に基づいて、シーン内の 3D 人体モデルのポーズと形状を合成するための堅牢な反復最適化を定式化します。
既存の学習ベースのアプローチとは対照的に、GenZI はキャプチャされた 3D インタラクション データの従来の必要性を回避し、使いやすいテキスト プロンプトで 3D インタラクション合成を柔軟に制御できます。
広範な実験により、当社のゼロショット アプローチは高い柔軟性と汎用性を備え、屋内と屋外の両方の環境を含むさまざまなシーン タイプに適用できることがわかりました。

要約(オリジナル)

Can we synthesize 3D humans interacting with scenes without learning from any 3D human-scene interaction data? We propose GenZI, the first zero-shot approach to generating 3D human-scene interactions. Key to GenZI is our distillation of interaction priors from large vision-language models (VLMs), which have learned a rich semantic space of 2D human-scene compositions. Given a natural language description and a coarse point location of the desired interaction in a 3D scene, we first leverage VLMs to imagine plausible 2D human interactions inpainted into multiple rendered views of the scene. We then formulate a robust iterative optimization to synthesize the pose and shape of a 3D human model in the scene, guided by consistency with the 2D interaction hypotheses. In contrast to existing learning-based approaches, GenZI circumvents the conventional need for captured 3D interaction data, and allows for flexible control of the 3D interaction synthesis with easy-to-use text prompts. Extensive experiments show that our zero-shot approach has high flexibility and generality, making it applicable to diverse scene types, including both indoor and outdoor environments.

arxiv情報

著者 Lei Li,Angela Dai
発行日 2023-11-29 15:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク