要約
私たちは、現実的でもっともらしい人間とオブジェクトの相互作用(HOI)を合成するためのテキスト駆動型拡散フレームワークであるHoidiniを提示します。
HOIの生成は、多様な動きマニホールドとともに厳格な接触精度を誘発するため、非常に困難です。
現在の文献はリアリズムと身体的正しさの間でトレードオフしますが、ホイディニは、拡散ノイズ最適化(DNO)を使用して、前処理された拡散モデルのノイズ空間で直接最適化し、両方を達成します。
これは、問題を2つのフェーズに分けることができるという観察のおかげで実現可能になります。オブジェクト中心の相、主に手オブジェクトの接触位置の個別の選択を行うこと、およびこの青写真を実現するために全身の動きを改善する人間中心のフェーズです。
この構造化されたアプローチにより、運動の自然さを損なうことなく、正確な手観オブジェクトの接触が可能になります。
グラブデータセットだけでの定量的、定性的、および主観的評価だけで、接触の精度、身体的妥当性、および全体的な品質の以前の作業とベースラインのホイディニのアウトパフォーマンスを明確に示しています。
我々の結果は、テキストプロンプトのみによって駆動される、把握、配置、全身調整など、複雑で制御可能な相互作用を生成する能力を示しています。
https://hoidini.github.io。
要約(オリジナル)
We present HOIDiNi, a text-driven diffusion framework for synthesizing realistic and plausible human-object interaction (HOI). HOI generation is extremely challenging since it induces strict contact accuracies alongside a diverse motion manifold. While current literature trades off between realism and physical correctness, HOIDiNi optimizes directly in the noise space of a pretrained diffusion model using Diffusion Noise Optimization (DNO), achieving both. This is made feasible thanks to our observation that the problem can be separated into two phases: an object-centric phase, primarily making discrete choices of hand-object contact locations, and a human-centric phase that refines the full-body motion to realize this blueprint. This structured approach allows for precise hand-object contact without compromising motion naturalness. Quantitative, qualitative, and subjective evaluations on the GRAB dataset alone clearly indicate HOIDiNi outperforms prior works and baselines in contact accuracy, physical validity, and overall quality. Our results demonstrate the ability to generate complex, controllable interactions, including grasping, placing, and full-body coordination, driven solely by textual prompts. https://hoidini.github.io.
arxiv情報
著者 | Roey Ron,Guy Tevet,Haim Sawdayee,Amit H. Bermano |
発行日 | 2025-06-18 16:54:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google