要約
この研究では、スケーラブルな離散表現を活用した物理ベースのモーション制御のための新しい統合フレームワークである MoConVQ を紹介します。
ベクトル量子化変分オートエンコーダ (VQ-VAE) とモデルベースの強化学習に基づいて構築された私たちのアプローチは、数十時間にわたるモーション サンプルに及ぶ大規模な非構造化データセットからモーションの埋め込みを効果的に学習します。
結果として得られるモーション表現は、多様なモーション スキルを捉えるだけでなく、さまざまなアプリケーションに堅牢で直感的なインターフェイスも提供します。
私たちは、さまざまなモーション ソースからのユニバーサル トラッキング コントロール、教師あり学習を使用した潜在モーション表現によるインタラクティブ キャラクター コントロール、GPT フレームワークを使用した自然言語記述からの物理ベースのモーション生成、そして最も興味深いことにシームレスな統合など、いくつかのアプリケーションを通じて MoConVQ の多用途性を実証します。
大規模言語モデル (LLM) とコンテキスト内学習を使用して、複雑で抽象的なタスクに取り組みます。
要約(オリジナル)
In this work, we present MoConVQ, a novel unified framework for physics-based motion control leveraging scalable discrete representations. Building upon vector quantized variational autoencoders (VQ-VAE) and model-based reinforcement learning, our approach effectively learns motion embeddings from a large, unstructured dataset spanning tens of hours of motion examples. The resultant motion representation not only captures diverse motion skills but also offers a robust and intuitive interface for various applications. We demonstrate the versatility of MoConVQ through several applications: universal tracking control from various motion sources, interactive character control with latent motion representations using supervised learning, physics-based motion generation from natural language descriptions using the GPT framework, and, most interestingly, seamless integration with large language models (LLMs) with in-context learning to tackle complex and abstract tasks.
arxiv情報
著者 | Heyuan Yao,Zhenhua Song,Yuyang Zhou,Tenglong Ao,Baoquan Chen,Libin Liu |
発行日 | 2023-12-19 16:44:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google