Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method

要約

視線は、特に手と物体の相互作用シナリオにおいて、人間の注意と意図を明らかにする上で重要な役割を果たします。視線は、脳、手、物体の間の正確な調整を必要とする複雑なタスクを導き、同期させます。
これを動機として、拡張現実、仮想現実、支援技術に応用できる可能性のある視線誘導型ハンドオブジェクトインタラクション合成という新しいタスクを導入します。
このタスクをサポートするために、視線、手、オブジェクトのインタラクションの同時 3D モデリングをキャプチャする最初のデータセットである GazeHOI を紹介します。
このタスクは、視線データの固有の希薄性とノイズ、および手とオブジェクトの動きの生成における高い一貫性と物理的妥当性の必要性により、重大な課題を引き起こします。
これらの問題に取り組むために、私たちは GHO-Diffusion と呼ばれる、積み重ねられた視線誘導型の手とオブジェクトの相互作用拡散モデルを提案します。
スタック設計により、モーション生成の複雑さが効果的に軽減されます。
また、GHO 拡散のサンプリング段階で HOI マニホールド ガイダンスを導入し、データ多様体を維持しながら、生成されたモーションをきめ細かく制御できるようにします。
さらに、拡散条件の時空間注視特徴エンコードを提案し、注視接触マップと注視インタラクション軌跡の間の一貫性スコアに基づいて拡散結果を選択します。
広範な実験により、私たちの手法の有効性とデータセットの独自の貢献が強調されます。

要約(オリジナル)

Gaze plays a crucial role in revealing human attention and intention, particularly in hand-object interaction scenarios, where it guides and synchronizes complex tasks that require precise coordination between the brain, hand, and object. Motivated by this, we introduce a novel task: Gaze-Guided Hand-Object Interaction Synthesis, with potential applications in augmented reality, virtual reality, and assistive technologies. To support this task, we present GazeHOI, the first dataset to capture simultaneous 3D modeling of gaze, hand, and object interactions. This task poses significant challenges due to the inherent sparsity and noise in gaze data, as well as the need for high consistency and physical plausibility in generating hand and object motions. To tackle these issues, we propose a stacked gaze-guided hand-object interaction diffusion model, named GHO-Diffusion. The stacked design effectively reduces the complexity of motion generation. We also introduce HOI-Manifold Guidance during the sampling stage of GHO-Diffusion, enabling fine-grained control over generated motions while maintaining the data manifold. Additionally, we propose a spatial-temporal gaze feature encoding for the diffusion condition and select diffusion results based on consistency scores between gaze-contact maps and gaze-interaction trajectories. Extensive experiments highlight the effectiveness of our method and the unique contributions of our dataset.

arxiv情報

著者 Jie Tian,Ran Ji,Lingxiao Yang,Yuexin Ma,Lan Xu,Jingyi Yu,Ye Shi,Jingya Wang
発行日 2024-08-22 13:51:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク