Policy Improvement using Language Feedback Models

要約

私たちは、指示に従って模倣学習を行うために、望ましい行動、つまり指示で指定されたタスクを達成するのに役立つ行動を特定する言語フィードバック モデル (LFM) を導入します。
LFM をトレーニングするために、言語記述に言語化された視覚的な軌跡に関するフィードバックを大規模言語モデル (LLM) から取得します。
まず、LFM を使用して模倣すべき望ましい動作を特定することにより、3 つの異なる言語グラウンディング環境 (Touchdown、ScienceWorld、および ALFWorld) での強力な動作クローニング ベースラインよりもタスク完了率が向上しました。
第 2 に、LLM 出力トークンの数を制御する場合、LFM はアクションを直接予測するエキスパートとして LLM を使用するよりも優れたパフォーマンスを発揮します。
第三に、LFM は目に見えない環境に一般化され、1 回の適応を通じてタスク完了率が 3.5 ~ 12.0% 向上します。
最後に、LFM を変更して、パフォーマンスを損なうことなく人間が解釈できるフィードバックを提供できるため、模倣学習に望ましい動作を人間が検証できるようになります。

要約(オリジナル)

We introduce Language Feedback Models (LFMs) that identify desirable behaviour – actions that help achieve tasks specified in the instruction – for imitation learning in instruction following. To train LFMs, we obtain feedback from Large Language Models (LLMs) on visual trajectories verbalized to language descriptions. First, by using LFMs to identify desirable behaviour to imitate, we improve in task-completion rate over strong behavioural cloning baselines on three distinct language grounding environments (Touchdown, ScienceWorld, and ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict actions, when controlling for the number of LLM output tokens. Third, LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation. Finally, LFM can be modified to provide human-interpretable feedback without performance loss, allowing human verification of desirable behaviour for imitation learning.

arxiv情報

著者 Victor Zhong,Dipendra Misra,Xingdi Yuan,Marc-Alexandre Côté
発行日 2024-02-12 18:41:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク