要約
我々は、一般的な強化学習実験ワークフローの一部を自動化し、身体化されたエージェントの制御ドメインの自動習得を可能にするエージェント アーキテクチャを提案します。
そのために、VLM を利用して、実験の進行状況の監視と分析、エージェントの過去の成功と失敗に基づく新しいタスクの提案、タスクのシーケンスへの分解など、人間の実験者に通常必要とされる機能の一部を実行します。
サブタスク (スキル) の管理と、実行するスキルの取得により、システムが学習用の自動カリキュラムを構築できるようになります。
これは、強化学習の実験サイクル全体を通じて VLM を活用するシステムに対する最初の提案の 1 つであると私たちは考えています。
私たちはこのシステムの最初のプロトタイプを提供し、現在のモデルと技術の望ましいレベルの自動化の実現可能性を検討します。
このため、追加の微調整を行わずに、標準的な Gemini モデルを使用して、言語条件付きの Actor-Critic アルゴリズムにスキルのカリキュラムを提供し、新しいスキルの学習を支援するようにデータ収集を制御します。
この方法で収集されたデータは、ロボット工学ドメインの制御ポリシーを学習し、反復的に改善するのに役立つことが示されています。
成長を続けるスキルのライブラリを構築し、それらのスキルのトレーニングの進捗状況を判断するシステムの能力についての追加検査でも、有望な結果が示されており、提案されたアーキテクチャがタスクとドメインを完全に自動化して習得するための潜在的なレシピを提供することを示唆しています。
実体化したエージェント向け。
要約(オリジナル)
We propose an agent architecture that automates parts of the common reinforcement learning experiment workflow, to enable automated mastery of control domains for embodied agents. To do so, it leverages a VLM to perform some of the capabilities normally required of a human experimenter, including the monitoring and analysis of experiment progress, the proposition of new tasks based on past successes and failures of the agent, decomposing tasks into a sequence of subtasks (skills), and retrieval of the skill to execute – enabling our system to build automated curricula for learning. We believe this is one of the first proposals for a system that leverages a VLM throughout the full experiment cycle of reinforcement learning. We provide a first prototype of this system, and examine the feasibility of current models and techniques for the desired level of automation. For this, we use a standard Gemini model, without additional fine-tuning, to provide a curriculum of skills to a language-conditioned Actor-Critic algorithm, in order to steer data collection so as to aid learning new skills. Data collected in this way is shown to be useful for learning and iteratively improving control policies in a robotics domain. Additional examination of the ability of the system to build a growing library of skills, and to judge the progress of the training of those skills, also shows promising results, suggesting that the proposed architecture provides a potential recipe for fully automated mastery of tasks and domains for embodied agents.
arxiv情報
著者 | Jingwei Zhang,Thomas Lampe,Abbas Abdolmaleki,Jost Tobias Springenberg,Martin Riedmiller |
発行日 | 2024-09-05 10:38:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google