Large Language Models as Generalizable Policies for Embodied Tasks

要約

私たちは、大規模言語モデル (LLM) を、具体化された視覚的タスクのための一般化可能なポリシーに適応できることを示します。
大規模言語モデル強化学習ポリシー (LLaRP) と呼ばれる私たちのアプローチは、事前にトレーニングされた凍結 LLM を適応させて、テキスト命令と視覚的自己中心的観察を入力として受け取り、環境内で直接アクションを出力します。
強化学習を使用して、環境相互作用のみを見て行動するように LLaRP をトレーニングします。
私たちは、LLaRP がタスク命令の複雑な言い換えに対して堅牢であり、新しい最適な動作を必要とする新しいタスクに一般化できることを示します。
特に、1,000 個の未確認タスクでは 42% の成功率を達成します。これは、他の一般的な学習ベースラインまたは LLM のゼロショット アプリケーションの成功率の 1.7 倍です。
最後に、コミュニティによる言語条件付きの大規模マルチタスクの具体化された AI 問題の研究を支援するために、言語条件付き並べ替えに関する 150,000 のトレーニング タスクと 1,000 のテスト タスクで構成される新しいベンチマークである言語再配置をリリースします。
目に見えない言語再配置手順における LLaRP のビデオ例は、https://llm-rl.github.io にあります。

要約(オリジナル)

We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.

arxiv情報

著者 Andrew Szot,Max Schwarzer,Harsh Agrawal,Bogdan Mazoure,Walter Talbott,Katherine Metcalf,Natalie Mackraz,Devon Hjelm,Alexander Toshev
発行日 2024-04-16 17:54:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク