要約
再利用可能なモーション事前学習の最近の進歩により、自然な動作を生成する際の有効性が実証されました。
この論文では、既存の最先端の方法よりも大幅に改善されたモーション品質と多様性を備えた物理ベースのキャラクターを制御するための、このパラダイムにおける新しい学習フレームワークを提案します。
提案された方法は、ベクトル量子化変分オートエンコーダ (VQ-VAE) で採用されているように、強化学習 (RL) を使用して、離散情報ボトルネックを使用して非構造化モーション クリップから本物のような動きを最初に追跡および模倣します。
この構造は、モーション クリップからの最も関連性の高い情報を、コンパクトでありながら有益な潜在空間、つまりベクトル量子化コード上の離散空間に圧縮します。
トレーニングされたカテゴリ事前分布から空間内のコードをサンプリングすることにより、コンピューター ビジョンでの VQ-VAE の使用と同様に、高品質で本物のような動作を生成できます。
この事前分布はエンコーダーの出力を監視してトレーニングできますが、データセット内の元のモーション クリップ分布に従い、設定で不均衡な動作を引き起こす可能性があります。
この問題に対処するために、好奇心主導の RL を使用して事前分布を調整する事前シフトと呼ばれる手法をさらに提案します。
結果の分布は、十分な行動の多様性を提供し、下流のタスクに対する上位レベルのポリシー学習を大幅に促進することが実証されています。
私たちは、剣盾での打撃と 2 人用のボクシング ゲームという 2 つの困難な下流タスクについて、人型キャラクターを使用した包括的な実験を行っています。
私たちの結果は、提案されたフレームワークが、行動戦略、多様性、リアリズムの観点から、かなり高品質の動きを実行するようにキャラクターを制御できることを示しています。
ビデオ、コード、データは https://tencent-roboticsx.github.io/NCP/ で入手できます。
要約(オリジナル)
Recent advances in learning reusable motion priors have demonstrated their effectiveness in generating naturalistic behaviors. In this paper, we propose a new learning framework in this paradigm for controlling physics-based characters with significantly improved motion quality and diversity over existing state-of-the-art methods. The proposed method uses reinforcement learning (RL) to initially track and imitate life-like movements from unstructured motion clips using the discrete information bottleneck, as adopted in the Vector Quantized Variational AutoEncoder (VQ-VAE). This structure compresses the most relevant information from the motion clips into a compact yet informative latent space, i.e., a discrete space over vector quantized codes. By sampling codes in the space from a trained categorical prior distribution, high-quality life-like behaviors can be generated, similar to the usage of VQ-VAE in computer vision. Although this prior distribution can be trained with the supervision of the encoder’s output, it follows the original motion clip distribution in the dataset and could lead to imbalanced behaviors in our setting. To address the issue, we further propose a technique named prior shifting to adjust the prior distribution using curiosity-driven RL. The outcome distribution is demonstrated to offer sufficient behavioral diversity and significantly facilitates upper-level policy learning for downstream tasks. We conduct comprehensive experiments using humanoid characters on two challenging downstream tasks, sword-shield striking and two-player boxing game. Our results demonstrate that the proposed framework is capable of controlling the character to perform considerably high-quality movements in terms of behavioral strategies, diversity, and realism. Videos, codes, and data are available at https://tencent-roboticsx.github.io/NCP/.
arxiv情報
著者 | Qingxu Zhu,He Zhang,Mengting Lan,Lei Han |
発行日 | 2023-08-14 15:10:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google