要約
近年、強化学習と模倣学習は、人型ロボットの動作を制御するための大きな可能性を示しています。
ただし、これらの方法は通常、シミュレーション環境を作成し、特定のタスクに報酬を与えるため、複数のポリシーが必要となり、複雑で未知のタスクに取り組むための機能が制限されます。
これらの問題を克服するために、敵対的模倣学習と大規模言語モデル (LLM) を組み合わせた新しいアプローチを紹介します。
この革新的な方法により、エージェントは単一のポリシーで再利用可能なスキルを学習し、LLM の指導の下でゼロショット タスクを解決できるようになります。
特に、タスク固有のプロンプトを理解することで、以前に学習したスキルを新しいタスクに適用するための戦略プランナーとして LLM を利用します。
これにより、ロボットは指定されたアクションを順番に実行できるようになります。
モデルを改善するために、コードブックベースのベクトル量子化を組み込み、LLM からの目に見えないテキスト コマンドに応答してエージェントが適切なアクションを生成できるようにします。
さらに、ヒューマノイドロボットの独特の動作特徴を考慮した一般的な報酬関数を設計し、追加の誘導方向アプローチやポリシーなしで目標方向性を維持しながら、エージェントが動作データを模倣することを保証します。
私たちの知る限り、これは単一の学習ポリシー ネットワークと LLM をプランナーとして使用して人型ロボットを制御する最初のフレームワークです。
広範な実験により、私たちの方法が複雑な動作タスクにおいて効率的で適応性のある能力を発揮することが実証されました。
要約(オリジナル)
In recent years, reinforcement learning and imitation learning have shown great potential for controlling humanoid robots’ motion. However, these methods typically create simulation environments and rewards for specific tasks, resulting in the requirements of multiple policies and limited capabilities for tackling complex and unknown tasks. To overcome these issues, we present a novel approach that combines adversarial imitation learning with large language models (LLMs). This innovative method enables the agent to learn reusable skills with a single policy and solve zero-shot tasks under the guidance of LLMs. In particular, we utilize the LLM as a strategic planner for applying previously learned skills to novel tasks through the comprehension of task-specific prompts. This empowers the robot to perform the specified actions in a sequence. To improve our model, we incorporate codebook-based vector quantization, allowing the agent to generate suitable actions in response to unseen textual commands from LLMs. Furthermore, we design general reward functions that consider the distinct motion features of humanoid robots, ensuring the agent imitates the motion data while maintaining goal orientation without additional guiding direction approaches or policies. To the best of our knowledge, this is the first framework that controls humanoid robots using a single learning policy network and LLM as a planner. Extensive experiments demonstrate that our method exhibits efficient and adaptive ability in complicated motion tasks.
arxiv情報
著者 | Jingkai Sun,Qiang Zhang,Yiqun Duan,Xiaoyang Jiang,Chong Cheng,Renjing Xu |
発行日 | 2024-07-31 03:32:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google