Statler: State-Maintaining Language Models for Embodied Reasoning

要約

大規模言語モデル(LLM)は、ロボットが複雑なロボット推論タスクを実行することを可能にする有望なツールを提供する。しかし、現代のLLMの限られたコンテキストウィンドウは、長い時間軸での推論を困難にしている。家庭用ロボットに期待されるような具現化されたタスクは、通常、プランナがかなり前に取得した情報(例えば、ロボットが以前に環境で遭遇した多くのオブジェクトの特性)を考慮する必要がある。LLMの暗黙的な内部表現を用いて世界の状態を捉えようとする試みは、ロボットの行動履歴から得られるタスクや環境に関連する情報が少ないために複雑であり、一方、プロンプトを介してLLMに情報を伝達する能力に依存する方法は、LLMの限られたコンテキストウィンドウの影響を受ける。本論文では、LLMに時間と共に維持される「記憶」としての世界状態の明示的表現を与えるフレームワークであるStatlerを提案する。Statlerに不可欠なのは、一般的なLLMの2つのインスタンス(ワールドモデルリーダーとワールドモデルライター)を使用することである。このワールドステート“メモリ”へのアクセスを提供することで、Statlerは既存のLLMがコンテキストの長さの制約を受けることなく、より長い時間軸で推論する能力を向上させる。我々は、3つのシミュレートされたテーブルトップ操作領域と実際のロボット領域で我々のアプローチの有効性を評価し、LLMベースのロボット推論の最先端を改善することを示す。プロジェクトウェブサイト: https://statler-lm.github.io/

要約(オリジナル)

Large language models (LLMs) provide a promising tool that enable robots to perform complex robot reasoning tasks. However, the limited context window of contemporary LLMs makes reasoning over long time horizons difficult. Embodied tasks such as those that one might expect a household robot to perform typically require that the planner consider information acquired a long time ago (e.g., properties of the many objects that the robot previously encountered in the environment). Attempts to capture the world state using an LLM’s implicit internal representation is complicated by the paucity of task- and environment-relevant information available in a robot’s action history, while methods that rely on the ability to convey information via the prompt to the LLM are subject to its limited context window. In this paper, we propose Statler, a framework that endows LLMs with an explicit representation of the world state as a form of “memory” that is maintained over time. Integral to Statler is its use of two instances of general LLMs — a world-model reader and a world-model writer — that interface with and maintain the world state. By providing access to this world state “memory”, Statler improves the ability of existing LLMs to reason over longer time horizons without the constraint of context length. We evaluate the effectiveness of our approach on three simulated table-top manipulation domains and a real robot domain, and show that it improves the state-of-the-art in LLM-based robot reasoning. Project website: https://statler-lm.github.io/

arxiv情報

著者 Takuma Yoneda,Jiading Fang,Peng Li,Huanyu Zhang,Tianchong Jiang,Shengjie Lin,Ben Picker,David Yunis,Hongyuan Mei,Matthew R. Walter
発行日 2023-07-03 16:32:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.RO パーマリンク