Automated Rewards via LLM-Generated Progress Functions

要約

大規模言語モデル (LLM) には、さまざまなタスクにわたって広範なドメイン知識を活用することで、報酬エンジニアリングを自動化できる可能性があります。
ただし、多くの場合、効果的な報酬関数を生成するには、何度も試行錯誤を繰り返す必要があります。
サンプリングされたすべての報酬関数を評価するには、関数ごとに完全なポリシー最適化プロセスを完了する必要があるため、このプロセスにはコストがかかります。
このペーパーでは、従来の最先端の研究に比べて 20 倍少ない報酬関数サンプルで、困難な Bi-DexHands ベンチマークで最先端のポリシーを生成できる、LLM 主導の報酬生成フレームワークを紹介します。

私たちの重要な洞察は、タスク固有の報酬を生成するという問題を、タスクの進捗状況を大まかに見積もるという問題に落とし込んだということです。
私たちの 2 段階のソリューションは、タスク ドメインの知識と LLM のコード合成能力を活用して、特定の状態からタスクの進行状況を推定する進行関数を作成します。
次に、この進行の概念を使用して状態を離散化し、低次元状態空間を使用してカウントベースの固有報酬を生成します。
LLM で生成された進捗関数とカウントベースの固有報酬の組み合わせがパフォーマンス向上には不可欠である一方で、一般的なハッシュベースのカウントや進捗状況を報酬関数として直接使用するなどの代替案では不十分であることを示します。

要約(オリジナル)

Large Language Models (LLMs) have the potential to automate reward engineering by leveraging their broad domain knowledge across various tasks. However, they often need many iterations of trial-and-error to generate effective reward functions. This process is costly because evaluating every sampled reward function requires completing the full policy optimization process for each function. In this paper, we introduce an LLM-driven reward generation framework that is able to produce state-of-the-art policies on the challenging Bi-DexHands benchmark with 20x fewer reward function samples than the prior state-of-the-art work. Our key insight is that we reduce the problem of generating task-specific rewards to the problem of coarsely estimating task progress. Our two-step solution leverages the task domain knowledge and the code synthesis abilities of LLMs to author progress functions that estimate task progress from a given state. Then, we use this notion of progress to discretize states, and generate count-based intrinsic rewards using the low-dimensional state space. We show that the combination of LLM-generated progress functions and count-based intrinsic rewards is essential for our performance gains, while alternatives such as generic hash-based counts or using progress directly as a reward function fall short.

arxiv情報

著者 Vishnu Sarukkai,Brennan Shacklett,Zander Majercik,Kush Bhatia,Christopher Ré,Kayvon Fatahalian
発行日 2024-10-25 17:37:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク