InterFusion: Text-Driven Generation of 3D Human-Object Interaction

要約

この研究では、ゼロショットのテキストから 3D への方法で、テキストの説明から 3D の人間とオブジェクトのインタラクション (HOI) を生成するという複雑なタスクに取り組みます。
私たちは 2 つの重要な課題を特定し、それに対処します。1 つは、主にペアになったテキスト インタラクション データの欠如による HOI での直接テキストから 3D への手法の不満足な結果、もう 1 つは、複雑な空間関係を持つ複数の概念を同時に生成する際の固有の困難です。
これらの問題に効果的に対処するために、HOI 生成用に特別に設計された 2 段階のフレームワークである InterFusion を紹介します。
InterFusion には、幾何学的事前分布としてテキストから導出される人間の姿勢推定が含まれており、これによりテキストから 3D への変換プロセスが簡素化され、正確なオブジェクト生成のための追加の制約が導入されます。
最初の段階で、InterFusion は幅広いインタラクションを表す合成画像データセットから 3D 人間のポーズを抽出し、続いてこれらのポーズをインタラクションの説明にマッピングします。
InterFusion の第 2 段階では、テキストから 3D への生成における最新の開発を活用し、リアルで高品質の 3D HOI シーンの制作を可能にします。
これは、ローカルとグローバルの最適化プロセスを通じて実現されます。このプロセスでは、人体とオブジェクトの生成が個別に最適化され、シーン全体のグローバルな最適化と合わせて洗練され、シームレスで文脈的に一貫した統合が保証されます。
私たちの実験結果は、InterFusion が 3D HOI 生成において既存の最先端の方法を大幅に上回っていることを裏付けています。

要約(オリジナル)

In this study, we tackle the complex task of generating 3D human-object interactions (HOI) from textual descriptions in a zero-shot text-to-3D manner. We identify and address two key challenges: the unsatisfactory outcomes of direct text-to-3D methods in HOI, largely due to the lack of paired text-interaction data, and the inherent difficulties in simultaneously generating multiple concepts with complex spatial relationships. To effectively address these issues, we present InterFusion, a two-stage framework specifically designed for HOI generation. InterFusion involves human pose estimations derived from text as geometric priors, which simplifies the text-to-3D conversion process and introduces additional constraints for accurate object generation. At the first stage, InterFusion extracts 3D human poses from a synthesized image dataset depicting a wide range of interactions, subsequently mapping these poses to interaction descriptions. The second stage of InterFusion capitalizes on the latest developments in text-to-3D generation, enabling the production of realistic and high-quality 3D HOI scenes. This is achieved through a local-global optimization process, where the generation of human body and object is optimized separately, and jointly refined with a global optimization of the entire scene, ensuring a seamless and contextually coherent integration. Our experimental results affirm that InterFusion significantly outperforms existing state-of-the-art methods in 3D HOI generation.

arxiv情報

著者 Sisi Dai,Wenhao Li,Haowen Sun,Haibin Huang,Chongyang Ma,Hui Huang,Kai Xu,Ruizhen Hu
発行日 2024-07-16 17:20:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク