Guiding Pretraining in Reinforcement Learning with Large Language Models

要約

強化学習アルゴリズムは通常、密で整形式の報酬関数がない場合に苦労します。
本質的に動機付けられた探索方法は、新しい状態または遷移を訪問したエージェントに報酬を与えることにより、この制限に対処しますが、これらの方法は、発見されたほとんどの目新しさが下流のタスクとは無関係である大規模な環境では限られた利点しか提供しません。
テキスト コーパスから形状探索までの背景知識を使用する方法について説明します。
ELLM (Exploring with LLMs) と呼ばれるこの方法は、エージェントの現在の状態の説明で促される言語モデルによって提案された目標を達成するエージェントに報酬を与えます。
ELLM は、大規模な言語モデルの事前トレーニングを活用することで、ループ内に人間を必要とせずに、エージェントを人間にとって意味のある、もっともらしい有用な動作に導きます。
Crafter ゲーム環境と Housekeep ロボット シミュレーターで ELLM を評価し、ELLM でトレーニングされたエージェントは事前トレーニング中に常識的な行動をよりよくカバーし、通常はさまざまなダウンストリーム タスクのパフォーマンスに匹敵するか改善することを示します。

要約(オリジナル)

Reinforcement learning algorithms typically struggle in the absence of a dense, well-shaped reward function. Intrinsically motivated exploration methods address this limitation by rewarding agents for visiting novel states or transitions, but these methods offer limited benefits in large environments where most discovered novelty is irrelevant for downstream tasks. We describe a method that uses background knowledge from text corpora to shape exploration. This method, called ELLM (Exploring with LLMs) rewards an agent for achieving goals suggested by a language model prompted with a description of the agent’s current state. By leveraging large-scale language model pretraining, ELLM guides agents toward human-meaningful and plausibly useful behaviors without requiring a human in the loop. We evaluate ELLM in the Crafter game environment and the Housekeep robotic simulator, showing that ELLM-trained agents have better coverage of common-sense behaviors during pretraining and usually match or improve performance on a range of downstream tasks.

arxiv情報

著者 Yuqing Du,Olivia Watkins,Zihan Wang,Cédric Colas,Trevor Darrell,Pieter Abbeel,Abhishek Gupta,Jacob Andreas
発行日 2023-02-13 21:16:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク