要約
人間による最小限の指導で自律的にタスクを探索し解決する能力は、身体化された知性の自己開発にとって非常に重要です。
強化学習手法により人間の労力は大幅に軽減されますが、関節とタスク間の関係が複雑であるため、実世界のタスク、特に高次元ロボット制御の報酬関数を設計することは困難です。
最近の進歩による大規模言語モデル (LLM) により、報酬関数の自動設計が可能になります。
ただし、アプローチは、ポリシーをゼロから再トレーニングすることで報酬関数を評価し、報酬関数に過度の負担をかけ、ポリシー改善プロセス全体を通じて効果的であることを期待しています。
私たちはロボットの自律性におけるより実践的な戦略を主張し、普遍的なものではなく政策依存の報酬関数を使用して既存の政策を洗練することに焦点を当てています。
この目的を達成するために、我々は、報酬関数と学習されたポリシーがその場での進歩的な改善から相互に恩恵を受け、より効率的でパフォーマンスの高いスキルの習得をもたらす、新しい報酬ポリシー共進化フレームワークを提案します。
具体的には、報酬進化プロセスは、ロボットの以前の最良の報酬関数、タスクおよび環境の説明をテキスト入力に変換します。
これらの入力は、LLM をクエリして動的量の報酬関数候補を生成するために使用され、進化の各ラウンドでの継続的な改善を保証します。
政策の進化のために、私たちの方法は歴史的に最適な政策とランダムな政策をハイブリッド化することによって新しい政策集団を生成します。
改良されたベイジアン最適化を通じて、私たちのアプローチは効率的かつ堅牢に、最も有能で柔軟な報酬とポリシーの組み合わせを特定し、共進化の次のラウンドに進みます。
使用するデータが少ないにもかかわらず、私たちのアプローチは、さまざまな高次元ロボット スキル学習タスク全体で平均 95.3% の正規化された改善を示しています。
要約(オリジナル)
The ability to autonomously explore and resolve tasks with minimal human guidance is crucial for the self-development of embodied intelligence. Although reinforcement learning methods can largely ease human effort, it’s challenging to design reward functions for real-world tasks, especially for high-dimensional robotic control, due to complex relationships among joints and tasks. Recent advancements large language models (LLMs) enable automatic reward function design. However, approaches evaluate reward functions by re-training policies from scratch placing an undue burden on the reward function, expecting it to be effective throughout the whole policy improvement process. We argue for a more practical strategy in robotic autonomy, focusing on refining existing policies with policy-dependent reward functions rather than a universal one. To this end, we propose a novel reward-policy co-evolution framework where the reward function and the learned policy benefit from each other’s progressive on-the-fly improvements, resulting in more efficient and higher-performing skill acquisition. Specifically, the reward evolution process translates the robot’s previous best reward function, descriptions of tasks and environment into text inputs. These inputs are used to query LLMs to generate a dynamic amount of reward function candidates, ensuring continuous improvement at each round of evolution. For policy evolution, our method generates new policy populations by hybridizing historically optimal and random policies. Through an improved Bayesian optimization, our approach efficiently and robustly identifies the most capable and plastic reward-policy combination, which then proceeds to the next round of co-evolution. Despite using less data, our approach demonstrates an average normalized improvement of 95.3% across various high-dimensional robotic skill learning tasks.
arxiv情報
著者 | Changxin Huang,Yanbin Chang,Junfan Lin,Junyang Liang,Runhao Zeng,Jianqiang Li |
発行日 | 2024-12-18 04:20:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google