要約
言語モデル (LM) は、日常生活でタスクを実行する上で重要な側面である、物理世界の常識的な知識を保持する能力を実証しています。
しかし、**LM が具体化されたタスクに対して根拠のある実行可能な計画を生成する能力を持っているかどうかは依然として不明です。** LM には視覚や物理的環境からのフィードバックを通じて環境を認識する能力がないため、これは困難な課題です。
この論文では、この重要な研究課題に取り組み、このテーマに関する最初の調査を紹介します。
**G-PlanET** と名付けられた私たちの新しい問題定式化は、特定の環境内のオブジェクトに関する高レベルの目標とデータ テーブルを入力し、ロボット エージェントが従うための段階的な実行可能な計画を出力します。
研究を促進するために、**評価プロトコル**を確立し、計画の品質を評価するための専用の指標を設計します。
私たちの実験は、環境をエンコードするためのテーブルの使用と反復デコード戦略により、地に足の着いた計画における LM の能力を大幅に強化できることを示しています。
私たちの分析では、興味深い、そして重要な発見も明らかになりました。
要約(オリジナル)
Language models (LMs) have demonstrated their capability in possessing commonsense knowledge of the physical world, a crucial aspect of performing tasks in everyday life. However, it remains unclear **whether LMs have the capacity to generate grounded, executable plans for embodied tasks.** This is a challenging task as LMs lack the ability to perceive the environment through vision and feedback from the physical environment. In this paper, we address this important research question and present the first investigation into the topic. Our novel problem formulation, named **G-PlanET**, inputs a high-level goal and a data table about objects in a specific environment, and then outputs a step-by-step actionable plan for a robotic agent to follow. To facilitate the study, we establish an **evaluation protocol** and design a dedicated metric to assess the quality of the plans. Our experiments demonstrate that the use of tables for encoding the environment and an iterative decoding strategy can significantly enhance the LMs’ ability in grounded planning. Our analysis also reveals interesting and non-trivial findings.
arxiv情報
著者 | Bill Yuchen Lin,Chengsong Huang,Qian Liu,Wenda Gu,Sam Sommerer,Xiang Ren |
発行日 | 2023-07-15 10:04:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google