SceneMI: Motion In-betweening for Modeling Human-Scene Interactions

要約

人間の相互作用(HSI)のモデリングは、日常の人間の行動を理解してシミュレートするために不可欠です。
生成モデリングを利用する最近のアプローチは、このドメインで進歩しました。
ただし、実際のアプリケーションの制御性と柔軟性は限られています。
これらの課題に対処するために、HSIモデリングの問題を、より扱いやすく実用的なタスクであるHSIモデリングの問題を、より扱いやすく実用的なタスクであると再定式化することを提案します。
3Dシーンでのキーフレームガイド付き文字アニメーションや不完全なHSIデータのモーション品質の向上など、いくつかの実用的なアプリケーションをサポートするフレームワークであるScenemiを紹介します。
Scenemiは、グローバルおよびローカルシーンのコンテキストを包括的にエンコードするために、デュアルシーン記述子を採用しています。
さらに、我々のフレームワークは、拡散モデルの固有の除去の性質を活用して、騒々しいキーフレームを一般化します。
実験結果は、Noisy IMUセンサーとスマートフォンによってモーションとシーンが獲得される現実世界のGimoデータセットのシーンを認識したキーフレームにおけるシーンの有効性を示しています。
さらに、単眼ビデオからのHSI再構築におけるScenemiの適用性を紹介します。

要約(オリジナル)

Modeling human-scene interactions (HSI) is essential for understanding and simulating everyday human behaviors. Recent approaches utilizing generative modeling have made progress in this domain; however, they are limited in controllability and flexibility for real-world applications. To address these challenges, we propose reformulating the HSI modeling problem as Scene-aware Motion In-betweening — a more tractable and practical task. We introduce SceneMI, a framework that supports several practical applications, including keyframe-guided character animation in 3D scenes and enhancing the motion quality of imperfect HSI data. SceneMI employs dual scene descriptors to comprehensively encode global and local scene context. Furthermore, our framework leverages the inherent denoising nature of diffusion models to generalize on noisy keyframes. Experimental results demonstrate SceneMI’s effectiveness in scene-aware keyframe in-betweening and generalization to the real-world GIMO dataset, where motions and scenes are acquired by noisy IMU sensors and smartphones. We further showcase SceneMI’s applicability in HSI reconstruction from monocular videos.

arxiv情報

著者 Inwoo Hwang,Bing Zhou,Young Min Kim,Jian Wang,Chuan Guo
発行日 2025-03-20 16:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク