要約
テキストベースの人間のモーション生成のための、新しいマルチパート融合ベースの検索拡張生成戦略である MoRAG を紹介します。
この方法は、改善されたモーション検索プロセスを通じて得られた追加の知識を活用することにより、モーション拡散モデルを強化します。
大規模言語モデル (LLM) を効果的にプロンプトすることで、モーション検索におけるスペルミスや言い換えの問題に対処します。
私たちのアプローチでは、マルチパート検索戦略を利用して、言語空間全体にわたるモーション検索の一般化可能性を向上させます。
取り出したモーションを空間構成することで多様なサンプルを制作します。
さらに、低レベルのパーツ固有のモーション情報を利用することで、目に見えないテキスト記述のモーション サンプルを構築できます。
私たちの実験では、私たちのフレームワークがプラグアンドプレイ モジュールとして機能し、モーション拡散モデルのパフォーマンスを向上できることが実証されました。
コード、事前トレーニングされたモデル、サンプルビデオは、https://motion-rag.github.io/ から入手できます。
要約(オリジナル)
We introduce MoRAG, a novel multi-part fusion based retrieval-augmented generation strategy for text-based human motion generation. The method enhances motion diffusion models by leveraging additional knowledge obtained through an improved motion retrieval process. By effectively prompting large language models (LLMs), we address spelling errors and rephrasing issues in motion retrieval. Our approach utilizes a multi-part retrieval strategy to improve the generalizability of motion retrieval across the language space. We create diverse samples through the spatial composition of the retrieved motions. Furthermore, by utilizing low-level, part-specific motion information, we can construct motion samples for unseen text descriptions. Our experiments demonstrate that our framework can serve as a plug-and-play module, improving the performance of motion diffusion models. Code, pretrained models and sample videos are available at: https://motion-rag.github.io/
arxiv情報
著者 | Sai Shashank Kalakonda,Shubh Maheshwari,Ravi Kiran Sarvadevabhatla |
発行日 | 2024-12-10 18:24:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google