要約
我々は、多段階強化学習を通して、高レベルのタスクプロンプトを機敏なロボットのための展開可能な制御ポリシーに変換することに関わる組み合わせ爆発について研究する。我々は、スキーマ中心のカリキュラムRLフレームワークであるAURA(Agentic Upskilling via Reinforced Abstractions)を導入し、LLM(Large Language Models)を多段階カリキュラムの自律的な設計者として活用する。AURAは、ユーザープロンプトを、完全な報酬関数、ドメインランダム化戦略、およびトレーニング設定をエンコードするYAMLワークフローに変換する。すべてのファイルは、GPU時間が消費される前にスキーマに対して静的に検証され、人間の介入なしに信頼性の高い効率的な実行が保証されます。検索によって強化されたフィードバックループにより、特殊なLLMエージェントが、ベクターデータベースに保存された過去のトレーニング結果に基づいて段階的なカリキュラムを設計、実行、改良することができ、時間の経過に伴う継続的な改善をサポートします。アブレーション研究では、カリキュラムの質と収束の安定性において検索が重要であることが強調されている。定量的な実験によると、AURAは、GPUで加速されたトレーニングフレームワークにおいて、LLMガイドのベースラインを常に上回っている。定性的なテストでは、AURAは、ユーザのプロンプトから直接エンドツーエンドのポリシーを学習し、さまざまな環境にわたってカスタムヒューマノイドロボット上にゼロショットで展開することに成功しています。カリキュラム設計の複雑さを抽象化することで、AURAは、手作業で構築するには法外に複雑な、スケーラブルで適応的なポリシー学習パイプラインを可能にします。
要約(オリジナル)
We study the combinatorial explosion involved in translating high-level task prompts into deployable control policies for agile robots through multi-stage reinforcement learning. We introduce AURA (Agentic Upskilling via Reinforced Abstractions), a schema-centric curriculum RL framework that leverages Large Language Models (LLMs) as autonomous designers of multi-stage curricula. AURA transforms user prompts into YAML workflows that encode full reward functions, domain randomization strategies, and training configurations. All files are statically validated against a schema before any GPU time is consumed, ensuring reliable and efficient execution without human intervention. A retrieval-augmented feedback loop allows specialized LLM agents to design, execute, and refine staged curricula based on prior training results stored in a vector database, supporting continual improvement over time. Ablation studies highlight the importance of retrieval for curriculum quality and convergence stability. Quantitative experiments show that AURA consistently outperforms LLM-guided baselines on GPU-accelerated training frameworks. In qualitative tests, AURA successfully trains end-to-end policies directly from user prompts and deploys them zero-shot on a custom humanoid robot across a range of environments. By abstracting away the complexity of curriculum design, AURA enables scalable and adaptive policy learning pipelines that would be prohibitively complex to construct by hand.
arxiv情報
著者 | Alvin Zhu,Yusuke Tanaka,Dennis Hong |
発行日 | 2025-06-03 06:37:34+00:00 |
arxivサイト | arxiv_id(pdf) |