NovPhy: A Testbed for Physical Reasoning in Open-world Environments

要約

物理環境と相互作用するAIシステムの出現により、それらのAIシステムに物理的な推論能力を組み込むことに関心が高まっています。しかし、実際の物理環境で動作するためには、物理的な推論能力だけでよいのでしょうか?現実の世界では、私たちは常に今まで遭遇したことのない斬新な状況に直面する。人間であれば、そのような状況にうまく適応していく能力があります。同様に、エージェントがオープンワールドの物理環境で適切に動作するためには、新奇性の影響下で機能する能力が必要である。このようなAIシステムの開発を促進するために、我々は新しいテストベッド「NovPhy」を提案します。このテストベッドでは、エージェントが新奇性のある物理シナリオを推論し、それに従って行動することが求められます。このテストベッドは、エージェントが物理的なシナリオにおける新奇性を検出し、それに適応することを要求するタスクで構成されている。テストベッドのタスクを作成するために、多様なノベルティ空間を表す8つのノベルティを開発し、物理環境でよく遭遇する5つのシナリオに適用しました。テストベッドの設計では、エージェントの2つの能力、すなわち、ある新規性を異なる物理シナリオに適用した場合の性能と、異なる新規性を物理シナリオに適用した場合の性能を評価します。人間のプレーヤー、学習エージェント、ヒューリスティック・エージェントを用いて徹底的な評価を行う。評価の結果、人間の性能はエージェントの性能をはるかに超えていることがわかりました。また、新奇性に適応できるエージェントは、一般的に人間よりも適応速度が遅いことが分かっています。私たちは、オープンワールドの物理環境で活動する際に、人間レベル以上のパフォーマンスを発揮することができる知的エージェントの開発を推進しています。テストベッドサイト: https://github.com/phy-q/novphy

要約(オリジナル)

Due to the emergence of AI systems that interact with the physical environment, there is an increased interest in incorporating physical reasoning capabilities into those AI systems. But is it enough to only have physical reasoning capabilities to operate in a real physical environment? In the real world, we constantly face novel situations we have not encountered before. As humans, we are competent at successfully adapting to those situations. Similarly, an agent needs to have the ability to function under the impact of novelties in order to properly operate in an open-world physical environment. To facilitate the development of such AI systems, we propose a new testbed, NovPhy, that requires an agent to reason about physical scenarios in the presence of novelties and take actions accordingly. The testbed consists of tasks that require agents to detect and adapt to novelties in physical scenarios. To create tasks in the testbed, we develop eight novelties representing a diverse novelty space and apply them to five commonly encountered scenarios in a physical environment. According to our testbed design, we evaluate two capabilities of an agent: the performance on a novelty when it is applied to different physical scenarios and the performance on a physical scenario when different novelties are applied to it. We conduct a thorough evaluation with human players, learning agents, and heuristic agents. Our evaluation shows that humans’ performance is far beyond the agents’ performance. Some agents, even with good normal task performance, perform significantly worse when there is a novelty, and the agents that can adapt to novelties typically adapt slower than humans. We promote the development of intelligent agents capable of performing at the human level or above when operating in open-world physical environments. Testbed website: https://github.com/phy-q/novphy

arxiv情報

著者 Chathura Gamage,Vimukthini Pinto,Cheng Xue,Peng Zhang,Ekaterina Nikonova,Matthew Stephenson,Jochen Renz
発行日 2023-03-03 04:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク