要約
我々は、大規模言語モデル (LLM) と階層型モーション固有のベクトル量子化変分オートエンコーダ (VQ-VAE) を活用して、エージェント – オブジェクト – エージェントの協調的なインタラクションを生成するための新しいフレームワーク COLLAGE を提案します。
私たちのモデルは、LLM の知識と推論能力を組み込んで生成拡散モデルを導くことで、この領域の豊富なデータセットの不足に対処しています。
階層的な VQ-VAE アーキテクチャは、複数の抽象化レベルでさまざまなモーション固有の特性をキャプチャし、冗長な概念を回避し、効率的なマルチ解像度表現を可能にします。
潜在空間で動作し、ノイズ除去プロセスをガイドするために LLM で生成されたモーション プランニング キューを組み込む拡散モデルを導入します。これにより、より優れた制御と多様性を備えたプロンプト固有のモーション生成が実現します。
CORE-4D および InterHuman データセットの実験結果は、現実的で多様な人間、物体、人間の協調的なインタラクションを生成する際の私たちのアプローチの有効性が実証されており、最先端の手法を上回っています。
私たちの研究は、ロボット工学、グラフィックス、コンピューター ビジョンなど、さまざまな分野で複雑な相互作用をモデル化するための新たな可能性を切り開きます。
要約(オリジナル)
We propose a novel framework COLLAGE for generating collaborative agent-object-agent interactions by leveraging large language models (LLMs) and hierarchical motion-specific vector-quantized variational autoencoders (VQ-VAEs). Our model addresses the lack of rich datasets in this domain by incorporating the knowledge and reasoning abilities of LLMs to guide a generative diffusion model. The hierarchical VQ-VAE architecture captures different motion-specific characteristics at multiple levels of abstraction, avoiding redundant concepts and enabling efficient multi-resolution representation. We introduce a diffusion model that operates in the latent space and incorporates LLM-generated motion planning cues to guide the denoising process, resulting in prompt-specific motion generation with greater control and diversity. Experimental results on the CORE-4D, and InterHuman datasets demonstrate the effectiveness of our approach in generating realistic and diverse collaborative human-object-human interactions, outperforming state-of-the-art methods. Our work opens up new possibilities for modeling complex interactions in various domains, such as robotics, graphics and computer vision.
arxiv情報
著者 | Divyanshu Daiya,Damon Conover,Aniket Bera |
発行日 | 2024-09-30 17:02:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google