LARG, Language-based Automatic Reward and Goal Generation

要約

目標条件付きマルチタスク強化学習 (GCRL および MTRL) は、移動、ナビゲーション、操作のシナリオなど、ロボットの学習に関連する多数の問題に対処します。
言語定義のロボット操作タスクに焦点を当てた最近の研究では、軌道に関連付けられたテキスト記述のデータセットを作成するために、大規模な人間による注釈の退屈な作成が行われています。
テキストベースのタスク記述による強化学習を活用するには、スケーラブルな方法で個々のタスクに関連付けられた報酬関数を生成する必要があります。
この論文では、大規模言語モデル (LLM) の最近の機能を活用し、\larg (言語ベースの自動報酬および目標生成) を紹介します。これは、テキストベースのタスクの説明を、対応する報酬および目標生成関数に変換するアプローチです。
ロボット操作に対する当社のアプローチを実証し、手作りの報酬関数を必要とせずに、スケーラブルな方法でポリシーをトレーニングおよび実行できる能力を実証します。

要約(オリジナル)

Goal-conditioned and Multi-Task Reinforcement Learning (GCRL and MTRL) address numerous problems related to robot learning, including locomotion, navigation, and manipulation scenarios. Recent works focusing on language-defined robotic manipulation tasks have led to the tedious production of massive human annotations to create dataset of textual descriptions associated with trajectories. To leverage reinforcement learning with text-based task descriptions, we need to produce reward functions associated with individual tasks in a scalable manner. In this paper, we leverage recent capabilities of Large Language Models (LLMs) and introduce \larg, Language-based Automatic Reward and Goal Generation, an approach that converts a text-based task description into its corresponding reward and goal-generation functions We evaluate our approach for robotic manipulation and demonstrate its ability to train and execute policies in a scalable manner, without the need for handcrafted reward functions.

arxiv情報

著者 Julien Perez,Denys Proux,Claude Roux,Michael Niemaz
発行日 2023-06-19 14:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.RO パーマリンク