Automated Hybrid Reward Scheduling via Large Language Models for Robotic Skill Learning

要約

高度なフリードームロボットを可能にすることが、ロボットダイナミクスの複雑さのために、特定のスキルを学ぶことが困難な作業です。
強化学習(RL)は、有望な解決策として浮上しています。
ただし、このような問題に対処するには、ロボットモーションのさまざまな制約を説明するために、複数の報酬関数の設計が必要です。
既存のアプローチは、通常、すべての報酬コンポーネントを無差別に要約して、RL値機能とポリシーを最適化します。
ポリシーの最適化にすべての報酬コンポーネントを均一に含めることは非効率的であり、ロボットの学習パフォーマンスを制限すると主張します。
これに対処するために、大規模な言語モデル(LLM)に基づいた自動ハイブリッド報酬スケジューリング(AHRS)フレームワークを提案します。
このパラダイムは、ポリシーの最適化プロセス全体で各報酬コンポーネントの学習強度を動的に調整し、ロボットが段階的かつ構造化された方法でスキルを獲得できるようにします。
具体的には、各ブランチが異なる報酬コンポーネントに対応するマルチブランチバリューネットワークを設計します。
ポリシーの最適化中、各ブランチにはその重要性を反映する重みが割り当てられ、これらの重みはLLMSによって設計されたルールに基づいて自動的に計算されます。
LLMは、タスクの説明から派生したルールを事前に生成し、トレーニング中に、各ブランチのパフォーマンスを評価する言語プロンプトに基づいてライブラリから重量計算ルールを選択します。
実験結果は、AHRSメソッドが複数の高度の高度ロボットタスクで平均6.48%のパフォーマンス改善を達成することを示しています。

要約(オリジナル)

Enabling a high-degree-of-freedom robot to learn specific skills is a challenging task due to the complexity of robotic dynamics. Reinforcement learning (RL) has emerged as a promising solution; however, addressing such problems requires the design of multiple reward functions to account for various constraints in robotic motion. Existing approaches typically sum all reward components indiscriminately to optimize the RL value function and policy. We argue that this uniform inclusion of all reward components in policy optimization is inefficient and limits the robot’s learning performance. To address this, we propose an Automated Hybrid Reward Scheduling (AHRS) framework based on Large Language Models (LLMs). This paradigm dynamically adjusts the learning intensity of each reward component throughout the policy optimization process, enabling robots to acquire skills in a gradual and structured manner. Specifically, we design a multi-branch value network, where each branch corresponds to a distinct reward component. During policy optimization, each branch is assigned a weight that reflects its importance, and these weights are automatically computed based on rules designed by LLMs. The LLM generates a rule set in advance, derived from the task description, and during training, it selects a weight calculation rule from the library based on language prompts that evaluate the performance of each branch. Experimental results demonstrate that the AHRS method achieves an average 6.48% performance improvement across multiple high-degree-of-freedom robotic tasks.

arxiv情報

著者 Changxin Huang,Junyang Liang,Yanbin Chang,Jingzhao Xu,Jianqiang Li
発行日 2025-05-05 09:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク