GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects

要約

拡散モデルと大規模なモーションデータセットは、テキスト駆動型のヒトモーション合成の高度なものですが、主に大規模な4D HOIデータセットの利用可能性が限られているため、これらの進歩を4Dヒトオブジェクト相互作用（HOI）に拡大することは依然として困難です。
私たちの研究では、2つの重要な目的を達成することを目的とした新しい2段階のフレームワークであるGenhoiを紹介します。1）目に見えないオブジェクトへの一般化と2）高忠実度4D HOIシーケンスの統合。
フレームワークの初期段階では、オブジェクトアンチョーネットを使用して、3D HOIデータセットだけから学習し、大規模な4D HOIデータセットへの依存を軽減するために、目に見えないオブジェクトのスパース3D HOIキーフレームを再構築します。
その後、第2段階で接触認識拡散モデル（contactDM）を導入して、まばらな3D HOIキーフレームを密に一時的にコヒーレントな4D HOIシーケンスにシームレスに補間します。
生成された4D HOIシーケンスの品質を向上させるために、ContactDM内の新しいコンタクト認識エンコーダーを提案して、ヒトオブジェクトの接触パターンと、コンタクトシグナルを拡散モデルに効果的に統合するための新しいコンタクト認識HOIの注意を抽出します。
実験結果は、公開されているOMOMOおよび3D-Futureデータセットで最新の結果を達成し、目に見えないオブジェクトに強力な一般化能力を実証し、高忠実度の4D HOI生成を可能にすることを示しています。

要約(オリジナル)

While diffusion models and large-scale motion datasets have advanced text-driven human motion synthesis, extending these advances to 4D human-object interaction (HOI) remains challenging, mainly due to the limited availability of large-scale 4D HOI datasets. In our study, we introduce GenHOI, a novel two-stage framework aimed at achieving two key objectives: 1) generalization to unseen objects and 2) the synthesis of high-fidelity 4D HOI sequences. In the initial stage of our framework, we employ an Object-AnchorNet to reconstruct sparse 3D HOI keyframes for unseen objects, learning solely from 3D HOI datasets, thereby mitigating the dependence on large-scale 4D HOI datasets. Subsequently, we introduce a Contact-Aware Diffusion Model (ContactDM) in the second stage to seamlessly interpolate sparse 3D HOI keyframes into densely temporally coherent 4D HOI sequences. To enhance the quality of generated 4D HOI sequences, we propose a novel Contact-Aware Encoder within ContactDM to extract human-object contact patterns and a novel Contact-Aware HOI Attention to effectively integrate the contact signals into diffusion models. Experimental results show that we achieve state-of-the-art results on the publicly available OMOMO and 3D-FUTURE datasets, demonstrating strong generalization abilities to unseen objects, while enabling high-fidelity 4D HOI generation.

arxiv情報

著者	Shujia Li,Haiyu Zhang,Xinyuan Chen,Yaohui Wang,Yutong Ban
発行日	2025-06-18 14:17:53+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

GenHOI: Generalizing Text-driven 4D Human-Object Interaction Synthesis for Unseen Objects

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー