I-PHYRE: Interactive Physical Reasoning

要約

現在の評価プロトコルは主に静止シーンでの物理的推論を評価するため、動的イベントと対話するエージェントの能力の評価にギャップが生じています。
最新の方法では、エージェントが初期シーン構成を変更して結果を観察することはできますが、リアルタイムでイベントと対話する機能はありません。
これに対処するために、エージェントが直感的な物理的推論、複数ステップの計画、現場での介入を同時に発揮できるようにするフレームワークである I-PHYRE を導入します。
ここで、直感的な物理的推論とは、複雑な問題に対処するために物理学をすばやく大まかに理解することを指します。
マルチステップは、それぞれの介入がその後の選択を大きく変える可能性があることを考慮して、I-PHYRE における広範なシーケンス計画の必要性を示します。
また、in-situ は、シーン内でタイムリーにオブジェクトを操作する必要があることを意味しており、わずかなタイミングのずれがタスクの失敗につながる可能性があります。
エージェントの学習とインタラクティブな物理的推論の重要な原則の一般化を精査するために 4 つのゲーム分割を定式化し、代表的なシナリオとのインタラクションを通じて学習を促進します。
私たちの調査には 3 つの計画戦略が含まれており、I-PHYRE における複数の監視エージェントと強化エージェントのゼロショット一般化の習熟度を調査します。
この結果は、既存の学習アルゴリズムと人間のパフォーマンスとの間に顕著なギャップがあることを浮き彫りにし、インタラクティブな物理的推論能力を備えたエージェントを強化するためにさらなる研究が不可欠であることを強調しています。
環境とベースラインは一般に公開されます。

要約(オリジナル)

Current evaluation protocols predominantly assess physical reasoning in stationary scenes, creating a gap in evaluating agents’ abilities to interact with dynamic events. While contemporary methods allow agents to modify initial scene configurations and observe consequences, they lack the capability to interact with events in real time. To address this, we introduce I-PHYRE, a framework that challenges agents to simultaneously exhibit intuitive physical reasoning, multi-step planning, and in-situ intervention. Here, intuitive physical reasoning refers to a quick, approximate understanding of physics to address complex problems; multi-step denotes the need for extensive sequence planning in I-PHYRE, considering each intervention can significantly alter subsequent choices; and in-situ implies the necessity for timely object manipulation within a scene, where minor timing deviations can result in task failure. We formulate four game splits to scrutinize agents’ learning and generalization of essential principles of interactive physical reasoning, fostering learning through interaction with representative scenarios. Our exploration involves three planning strategies and examines several supervised and reinforcement agents’ zero-shot generalization proficiency on I-PHYRE. The outcomes highlight a notable gap between existing learning algorithms and human performance, emphasizing the imperative for more research in enhancing agents with interactive physical reasoning capabilities. The environment and baselines will be made publicly available.

arxiv情報

著者 Shiqian Li,Kewen Wu,Chi Zhang,Yixin Zhu
発行日 2024-03-25 05:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク