要約
大規模な言語モデル(LLMS)の最近の進歩により、自然で文脈的に関連するテキストを生成する能力が大幅に向上し、より多くの人間のようなAI相互作用が可能になりました。
ただし、複数の個人が協調的な動きに従事するインタラクティブな人間のような動きを生成して理解することは、これらの相互作用をモデル化する複雑さのために困難なままです。
さらに、ユーザーの命令や割り当てられた役割に動的に適応するチャットシステムなど、多様なインタラクティブなシナリオを処理するには、統一された多用途のモデルが必要です。
これらの課題に対処するために、言語と運動の両方のモダリティを統合して、マルチターンの会話コンテキストでインタラクティブな動きを効果的に理解、生成、制御する汎用性の高いインタラクティブなモーション言語モデルであるVIMを紹介します。
主にテキストからモーションやテキストへの動きなどの一方向のタスクに焦点を当てた以前の研究とは異なり、VIMは、モーションとテキストの両方のモダリティを同時に理解し、生成できる統一されたアーキテクチャを採用しています。
このタスクをサポートするための適切なデータセットがないことを考えると、153Kのインタラクティブモーションサンプルをカバーする82.7Kマルチターンインタラクティブモーション命令を含む大規模な命令調整データセットであるInter-MT2を導入します。
Inter-MT2は、モーション編集、質問応答、ストーリー生成を含む多様な指導シナリオにまたがり、既製の大手言語モデルとモーション拡散モデルを活用して、幅広いインタラクティブモーション命令を構築します。
モーションツーテキスト、テキストからモーション、反応、モーション編集、モーションシーケンスに関する推論など、複数のインタラクティブなモーション関連のタスクにわたるVIMの汎用性を広く評価します。
要約(オリジナル)
Recent advancements in large language models (LLMs) have significantly improved their ability to generate natural and contextually relevant text, enabling more human-like AI interactions. However, generating and understanding interactive human-like motion, where multiple individuals engage in coordinated movements, remains challenging due to the complexity of modeling these interactions. Additionally, a unified and versatile model is needed to handle diverse interactive scenarios, such as chat systems that dynamically adapt to user instructions and assigned roles. To address these challenges, we introduce VIM, the Versatile Interactive Motion-language model, which integrates both language and motion modalities to effectively understand, generate, and control interactive motions in multi-turn conversational contexts. Unlike previous studies that primarily focus on uni-directional tasks such as text-to-motion or motion-to-text, VIM employs a unified architecture capable of simultaneously understanding and generating both motion and text modalities. Given the absence of an appropriate dataset to support this task, we introduce Inter-MT2, a large-scale instruction-tuning dataset containing 82.7K multi-turn interactive motion instructions, covering 153K interactive motion samples. Inter-MT2 spans diverse instructional scenarios, including motion editing, question answering, and story generation, leveraging off-the-shelf large language models and motion diffusion models to construct a broad set of interactive motion instructions. We extensively evaluate the versatility of VIM across multiple interactive motion-related tasks, including motion-to-text, text-to-motion, reaction generation, motion editing, and reasoning about motion sequences.
arxiv情報
著者 | Jeongeun Park,Sungjoon Choi,Sangdoo Yun |
発行日 | 2025-03-12 05:54:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google