Eureka: Human-Level Reward Design via Coding Large Language Models

要約

大規模言語モデル (LLM) は、逐次的な意思決定タスクのための高レベルのセマンティック プランナーとして優れています。
しかし、器用なペン回しなどの複雑で低レベルの操作タスクを学習するためにそれらを利用することは、未解決の問題のままです。
私たちはこの根本的なギャップを埋め、LLM を活用した人間レベルの報酬設計アルゴリズムである Eureka を紹介します。
Eureka は、GPT-4 などの最先端の LLM の優れたゼロショット生成、コード作成、コンテキスト内改善機能を利用して、報酬コードに対して進化的最適化を実行します。
得られた報酬は、強化学習を通じて複雑なスキルを習得するために使用できます。
タスク固有のプロンプトや事前定義された報酬テンプレートを使用せずに、Eureka は専門家が人間によって操作した報酬を上回る報酬関数を生成します。
10 の異なるロボット形態を含む 29 のオープンソース RL 環境の多様なスイートにおいて、Eureka はタスクの 83% で人間の専門家を上回り、平均 52% の正規化改善につながりました。
Eureka の汎用性により、ヒューマン フィードバックからの強化学習 (RLHF) に対する新しい勾配フリーのインコンテキスト学習アプローチも可能になり、人間の入力を容易に組み込んで、モデルを更新せずに生成された報酬の品質と安全性を向上させることができます。
最後に、カリキュラム学習設定で Eureka 報酬を使用して、高速で円を描くようにペンを巧みに操作する、ペン回転トリックを実行できるシミュレートされたシャドウ ハンドを初めて実証します。

要約(オリジナル)

Large Language Models (LLMs) have excelled as high-level semantic planners for sequential decision-making tasks. However, harnessing them to learn complex low-level manipulation tasks, such as dexterous pen spinning, remains an open problem. We bridge this fundamental gap and present Eureka, a human-level reward design algorithm powered by LLMs. Eureka exploits the remarkable zero-shot generation, code-writing, and in-context improvement capabilities of state-of-the-art LLMs, such as GPT-4, to perform evolutionary optimization over reward code. The resulting rewards can then be used to acquire complex skills via reinforcement learning. Without any task-specific prompting or pre-defined reward templates, Eureka generates reward functions that outperform expert human-engineered rewards. In a diverse suite of 29 open-source RL environments that include 10 distinct robot morphologies, Eureka outperforms human experts on 83% of the tasks, leading to an average normalized improvement of 52%. The generality of Eureka also enables a new gradient-free in-context learning approach to reinforcement learning from human feedback (RLHF), readily incorporating human inputs to improve the quality and the safety of the generated rewards without model updating. Finally, using Eureka rewards in a curriculum learning setting, we demonstrate for the first time, a simulated Shadow Hand capable of performing pen spinning tricks, adeptly manipulating a pen in circles at rapid speed.

arxiv情報

著者 Yecheng Jason Ma,William Liang,Guanzhi Wang,De-An Huang,Osbert Bastani,Dinesh Jayaraman,Yuke Zhu,Linxi Fan,Anima Anandkumar
発行日 2024-04-30 21:35:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク