ZeroHSI: Zero-Shot 4D Human-Scene Interaction by Video Generation

要約

具体化されたAI、仮想現実、およびロボット工学のアプリケーションには、人間のシーン相互作用(HSI)生成が重要です。
しかし、既存の方法は、ペアの3Dシーンに依存し、目に見えない環境では利用できないトレーニングのために人間のモーションデータをキャプチャしているため、野生のシーンや再構築されたシーンなどの目に見えない環境での相互作用を合成することはできません。
ZeroHSIは、ゼロショット4Dヒトシーン相互作用合成を可能にする新しいアプローチを提示し、MOCAPデータのトレーニングの必要性を排除します。
私たちの重要な洞察は、膨大な量の自然な人間の動きと相互作用について訓練された最先端のビデオ生成モデルから人間のシーンの相互作用を蒸留し、微分可能なレンダリングを使用して人間のシーンの相互作用を再構築することです。
ZeroHSIは、地上の真実のモーションデータを必要とせずに、動的なオブジェクトを使用して、静的シーンと環境の両方で現実的な人間の動きを合成できます。
さまざまな相互作用プロンプトを持つさまざまな種類のさまざまな屋内および屋外シーンのキュレーションされたデータセットでZeroHSIを評価し、多様で文脈的に適切なヒューマンシーン相互作用を生成する能力を示しています。

要約(オリジナル)

Human-scene interaction (HSI) generation is crucial for applications in embodied AI, virtual reality, and robotics. Yet, existing methods cannot synthesize interactions in unseen environments such as in-the-wild scenes or reconstructed scenes, as they rely on paired 3D scenes and captured human motion data for training, which are unavailable for unseen environments. We present ZeroHSI, a novel approach that enables zero-shot 4D human-scene interaction synthesis, eliminating the need for training on any MoCap data. Our key insight is to distill human-scene interactions from state-of-the-art video generation models, which have been trained on vast amounts of natural human movements and interactions, and use differentiable rendering to reconstruct human-scene interactions. ZeroHSI can synthesize realistic human motions in both static scenes and environments with dynamic objects, without requiring any ground-truth motion data. We evaluate ZeroHSI on a curated dataset of different types of various indoor and outdoor scenes with different interaction prompts, demonstrating its ability to generate diverse and contextually appropriate human-scene interactions.

arxiv情報

著者 Hongjie Li,Hong-Xing Yu,Jiaman Li,Jiajun Wu
発行日 2025-03-21 16:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク