要約
DreamHOI は、人間とオブジェクトのインタラクション (HOI) をゼロショットで合成するための新しい手法であり、テキストによる説明に基づいて 3D 人体モデルが任意のオブジェクトとリアルに対話できるようにします。
このタスクは、現実世界のオブジェクトのさまざまなカテゴリと形状、および多様な HOI を網羅するデータセットの不足によって複雑になります。
大量のデータの必要性を回避するために、数十億の画像とキャプションのペアでトレーニングされたテキストから画像への拡散モデルを活用します。
画像空間の編集を予測するこれらのモデルから得られたスコア蒸留サンプリング (SDS) 勾配を使用して、スキンされた人間のメッシュのアーティキュレーションを最適化します。
ただし、画像空間の勾配を複雑な関節パラメータに直接逆伝播することは、そのような勾配の局所的な性質のため効果がありません。
これを克服するために、(暗黙的な) ニューラル放射フィールド (NeRF) と (明示的な) スケルトン駆動のメッシュ アーティキュレーションを組み合わせた、スキン メッシュの暗黙的および明示的なデュアル表現を導入します。
最適化中に、陰的形式と陽的形式の間で移行し、メッシュのアーティキュレーションを調整しながら NeRF 生成を基礎にします。
私たちは広範な実験を通じてアプローチを検証し、現実的な HOI を生成する際のその有効性を実証します。
要約(オリジナル)
We present DreamHOI, a novel method for zero-shot synthesis of human-object interactions (HOIs), enabling a 3D human model to realistically interact with any given object based on a textual description. This task is complicated by the varying categories and geometries of real-world objects and the scarcity of datasets encompassing diverse HOIs. To circumvent the need for extensive data, we leverage text-to-image diffusion models trained on billions of image-caption pairs. We optimize the articulation of a skinned human mesh using Score Distillation Sampling (SDS) gradients obtained from these models, which predict image-space edits. However, directly backpropagating image-space gradients into complex articulation parameters is ineffective due to the local nature of such gradients. To overcome this, we introduce a dual implicit-explicit representation of a skinned mesh, combining (implicit) neural radiance fields (NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization, we transition between implicit and explicit forms, grounding the NeRF generation while refining the mesh articulation. We validate our approach through extensive experiments, demonstrating its effectiveness in generating realistic HOIs.
arxiv情報
著者 | Thomas Hanwen Zhu,Ruining Li,Tomas Jakab |
発行日 | 2024-09-12 17:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google