Physical Reasoning and Object Planning for Household Embodied Agents

要約

この研究では、代替オブジェクトを選択する複雑なタスクに特に重点を置き、堅牢な家庭用具現化エージェントのためのタスク計画の洗練された領域を調査します。
常識的なシナリオにおける推論機能を分析するために設計された新しいフレームワークである CommonSense Object Affordance Task (COAT) を紹介します。
このアプローチは、これらのエージェントが家事を実行する際に代替オブジェクトをどのように効果的に特定して利用できるかを理解することに重点を置き、それによって現実世界の環境における実際的な意思決定の複雑さについての洞察を提供します。
人間の意思決定に影響を与える要因からインスピレーションを得て、洗練されたルールと人間による注釈を特徴とする、細心の注意を払って作成された 4 つの常識的な質問と回答のデータセットを通じて、大規模な言語モデルがこの課題にどのように取り組むかを探ります。
これらのデータセットに関する最先端の言語モデルの評価により、次の 3 つの重要な考慮事項が明らかになります。1) オブジェクトの固有の有用性と当面のタスクとの調整、2) 文脈上の依存関係 (社会規範、安全性、適切性、効率性) の回避
)、および 3) オブジェクトの現在の物理的状態を考慮します。
アクセシビリティを維持するために、人間の洞察によって調整されたオブジェクトの物理的状態を反映する 5 つの抽象変数を導入し、さまざまな家庭のシナリオをシミュレートします。
私たちの貢献には、3 つの要素すべてに対する洞察力に富んだ人間の好みのマッピングと、ユーティリティの依存関係、文脈上の依存関係、およびオブジェクトの物理的状態の複雑さを調査する 4 つの広範な QA データセット (2,000、15,000、60,000、70,000 の質問) が含まれます。
データセットと調査結果は、https://github.com/Ayush8120/COAT からアクセスできます。
この研究は、言語モデルにおける物理的常識推論の理解を進めるだけでなく、家事エージェントの知能の将来の改善への道を切り開くものでもあります。

要約(オリジナル)

In this study, we explore the sophisticated domain of task planning for robust household embodied agents, with a particular emphasis on the intricate task of selecting substitute objects. We introduce the CommonSense Object Affordance Task (COAT), a novel framework designed to analyze reasoning capabilities in commonsense scenarios. This approach is centered on understanding how these agents can effectively identify and utilize alternative objects when executing household tasks, thereby offering insights into the complexities of practical decision-making in real-world environments. Drawing inspiration from factors affecting human decision-making, we explore how large language models tackle this challenge through four meticulously crafted commonsense question-and-answer datasets featuring refined rules and human annotations. Our evaluation of state-of-the-art language models on these datasets sheds light on three pivotal considerations: 1) aligning an object’s inherent utility with the task at hand, 2) navigating contextual dependencies (societal norms, safety, appropriateness, and efficiency), and 3) accounting for the current physical state of the object. To maintain accessibility, we introduce five abstract variables reflecting an object’s physical condition, modulated by human insights, to simulate diverse household scenarios. Our contributions include insightful human preference mappings for all three factors and four extensive QA datasets (2K, 15k, 60k, 70K questions) probing the intricacies of utility dependencies, contextual dependencies and object physical states. The datasets, along with our findings, are accessible at: https://github.com/Ayush8120/COAT. This research not only advances our understanding of physical commonsense reasoning in language models but also paves the way for future improvements in household agent intelligence.

arxiv情報

著者 Ayush Agrawal,Raghav Prabhakar,Anirudh Goyal,Dianbo Liu
発行日 2024-10-23 17:50:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク