Scene Synthesis from Human Motion

要約

多様で複雑なシーンにおける人物の動きの大規模なキャプチャは、非常に有用であるにもかかわらず、しばしば法外なコストがかかると考えられています。一方、人物の動きには、その人物が存在し、相互作用するシーンに関する豊富な情報が含まれています。例えば、座っている人間は椅子の存在を示唆し、その脚の位置はさらに椅子の姿勢を示唆する。本論文では、人間の動作に基づき、多様で意味的に妥当かつ物理的に妥当な情景を合成することを提案する。本論文で提案するScene Synthesis from HUMan MotiON (SUMMON)は、2つのステップから構成されている。まず、新たに導入した接触予測器ContactFormerを用いて、人間の動きから時間的に一貫した接触ラベルを得る。この予測に基づき、SUMMONは対話する物体を選択し、物理的な妥当性の損失を最適化する。さらに、人間と対話しない物体をシーンに埋め込む。実験結果は、SUMMONが実現可能で、妥当性が高く、多様なシーンを合成することを示し、コミュニティのための広範な人間-シーン相互作用データを生成する可能性があることを示した。

要約(オリジナル)

Large-scale capture of human motion with diverse, complex scenes, while immensely useful, is often considered prohibitively costly. Meanwhile, human motion alone contains rich information about the scene they reside in and interact with. For example, a sitting human suggests the existence of a chair, and their leg position further implies the chair’s pose. In this paper, we propose to synthesize diverse, semantically reasonable, and physically plausible scenes based on human motion. Our framework, Scene Synthesis from HUMan MotiON (SUMMON), includes two steps. It first uses ContactFormer, our newly introduced contact predictor, to obtain temporally consistent contact labels from human motion. Based on these predictions, SUMMON then chooses interacting objects and optimizes physical plausibility losses; it further populates the scene with objects that do not interact with humans. Experimental results demonstrate that SUMMON synthesizes feasible, plausible, and diverse scenes and has the potential to generate extensive human-scene interaction data for the community.

arxiv情報

著者 Sifan Ye,Yixing Wang,Jiaman Li,Dennis Park,C. Karen Liu,Huazhe Xu,Jiajun Wu
発行日 2023-01-04 03:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.GR パーマリンク