要約
この研究では、オープンワールドの家庭環境における大規模言語モデル (LLM) を使用した長期的なタスク計画の問題に取り組んでいます。
既存の作品は、主要なオブジェクトと属性を明示的に追跡できず、長期的なタスクで誤った決定を引き起こしたり、一般化できない高度に設計された状態の機能やフィードバックに依存したりしています。
私たちは、コンテキストの理解と履歴アクションの推論のための LLM の固有の機能によるオブジェクト属性の継続的な拡張と更新を提供するオープン状態表現を提案します。
私たちが提案する表現は、オブジェクトの属性と変更の包括的な記録を維持し、現在の状態に至る一連のアクションの堅牢な遡及的要約を可能にします。
これにより、ワールド モデルを継続的に更新して、タスク計画における意思決定のためのコンテキストの理解を強化することができます。
私たちは、シミュレートされたタスク計画シナリオと現実世界のタスク計画シナリオにわたる実験を通じてモデルを検証し、長期的な状態の追跡と推論を必要とするさまざまなタスクにおいて、ベースライン手法と比較して大幅な改善を実証します。
(ビデオ\脚注{ビデオデモ: \url{https://youtu.be/QkN-8pxV3Mo}。})
要約(オリジナル)
This work addresses the problem of long-horizon task planning with the Large Language Model (LLM) in an open-world household environment. Existing works fail to explicitly track key objects and attributes, leading to erroneous decisions in long-horizon tasks, or rely on highly engineered state features and feedback, which is not generalizable. We propose an open state representation that provides continuous expansion and updating of object attributes from the LLM’s inherent capabilities for context understanding and historical action reasoning. Our proposed representation maintains a comprehensive record of an object’s attributes and changes, enabling robust retrospective summary of the sequence of actions leading to the current state. This allows continuously updating world model to enhance context understanding for decision-making in task planning. We validate our model through experiments across simulated and real-world task planning scenarios, demonstrating significant improvements over baseline methods in a variety of tasks requiring long-horizon state tracking and reasoning. (Video\footnote{Video demonstration: \url{https://youtu.be/QkN-8pxV3Mo}.})
arxiv情報
著者 | Siwei Chen,Anxing Xiao,David Hsu |
発行日 | 2024-04-22 08:35:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google