Inner Monologue: Embodied Reasoning through Planning with Language Models

要約

最近の研究では、ロボットの計画や相互作用など、自然言語処理を超えたドメインにラージランゲージモデル(LLM)の推論機能をどのように適用できるかが示されています。
これらの具体化された問題は、エージェントが世界の多くの意味論的側面を理解することを必要とします:利用可能なスキルのレパートリー、これらのスキルが世界にどのように影響するか、そして世界への変化がどのように言語に戻るか。
具現化された環境で計画するLLMは、実行するスキルだけでなく、それらを実行する方法とタイミングも考慮する必要があります。これは、エージェント自身の選択に応じて時間とともに変化する回答です。
この作業では、そのような具体化されたコンテキストで使用されるLLMが、追加のトレーニングなしで、自然言語を通じて提供されるフィードバックのソースをどの程度推論できるかを調査します。
LLMは、環境フィードバックを活用することで、ロボット制御シナリオでより豊富に処理および計画できる内部モノローグを形成できることを提案します。
成功の検出、シーンの説明、人間の相互作用など、さまざまなフィードバックのソースを調査します。
閉ループ言語フィードバックにより、3つのドメインでの高レベルの命令完了が大幅に改善されることがわかりました。これには、実世界のキッチン環境でのシミュレートされた実際のテーブルトップ再配置タスクと長期的なモバイル操作タスクが含まれます。

要約(オリジナル)

Recent works have shown how the reasoning capabilities of Large Language Models (LLMs) can be applied to domains beyond natural language processing, such as planning and interaction for robots. These embodied problems require an agent to understand many semantic aspects of the world: the repertoire of skills available, how these skills influence the world, and how changes to the world map back to the language. LLMs planning in embodied environments need to consider not just what skills to do, but also how and when to do them – answers that change over time in response to the agent’s own choices. In this work, we investigate to what extent LLMs used in such embodied contexts can reason over sources of feedback provided through natural language, without any additional training. We propose that by leveraging environment feedback, LLMs are able to form an inner monologue that allows them to more richly process and plan in robotic control scenarios. We investigate a variety of sources of feedback, such as success detection, scene description, and human interaction. We find that closed-loop language feedback significantly improves high-level instruction completion on three domains, including simulated and real table top rearrangement tasks and long-horizon mobile manipulation tasks in a kitchen environment in the real world.

arxiv情報

著者 Wenlong Huang,Fei Xia,Ted Xiao,Harris Chan,Jacky Liang,Pete Florence,Andy Zeng,Jonathan Tompson,Igor Mordatch,Yevgen Chebotar,Pierre Sermanet,Noah Brown,Tomas Jackson,Linda Luu,Sergey Levine,Karol Hausman,Brian Ichter
発行日 2022-07-12 15:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク