要約
ロボットに幅広いスキルのレパートリーを持たせるには、報酬関数の学習が依然としてボトルネックとなっています。
大規模言語モデル (LLM) には、報酬関数の学習に役立つ可能性がある貴重なタスク関連の知識が含まれています。
ただし、提案された報酬関数は不正確である可能性があり、非効率であるため、環境情報をさらに基礎とする必要があります。
私たちは人間不在下でより効率的に報酬を学習する手法を提案しました。
私たちのアプローチは 2 つのコンポーネントで構成されています。まず LLM を使用して報酬の特徴とパラメーター化を提案し、次に反復的な自己調整プロセスを通じてパラメーターを更新します。
特に、このプロセスは、LLM と実行フィードバックに基づいて学習された報酬関数の間のランキングの不一致を最小限に抑えます。
この方法は、2 つのシミュレーション環境にわたる 9 つのタスクで検証されました。
これは、トレーニングの有効性と効率が一貫して向上していることを示しており、一方で、代替の突然変異ベースの方法と比較して GPT トークンの消費量が大幅に少なくなります。
要約(オリジナル)
Learning reward functions remains the bottleneck to equip a robot with a broad repertoire of skills. Large Language Models (LLM) contain valuable task-related knowledge that can potentially aid in the learning of reward functions. However, the proposed reward function can be imprecise, thus ineffective which requires to be further grounded with environment information. We proposed a method to learn rewards more efficiently in the absence of humans. Our approach consists of two components: We first use the LLM to propose features and parameterization of the reward, then update the parameters through an iterative self-alignment process. In particular, the process minimizes the ranking inconsistency between the LLM and the learnt reward functions based on the execution feedback. The method was validated on 9 tasks across 2 simulation environments. It demonstrates a consistent improvement over training efficacy and efficiency, meanwhile consuming significantly fewer GPT tokens compared to the alternative mutation-based method.
arxiv情報
著者 | Yuwei Zeng,Yao Mu,Lin Shao |
発行日 | 2024-05-15 13:59:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google