要約
一般的な物理シーンの理解には、単に物体の位置を特定して認識するだけでは不十分です。それには、物体がさまざまな潜在的特性 (質量や弾性など) を持つ可能性があり、それらの特性が物理的イベントの結果に影響を与えるという知識が必要です。
近年、物理予測モデルとビデオ予測モデルは大きく進歩しましたが、そのパフォーマンスをテストするためのベンチマークでは、通常、オブジェクトが個々の物理的特性を持っていることを理解する必要はなく、せいぜい直接観察可能な特性 (サイズやサイズなど) のみをテストする必要があります。
色)。
この研究では、Physion++ と呼ばれる新しいデータセットとベンチマークを提案します。これは、人工システムにおける視覚的な物理的予測を、シーン内のオブジェクトの潜在的な物理的特性の正確な推定に依存する状況下で厳密に評価します。
具体的には、正確な予測が質量、摩擦、弾性、変形可能性などの特性の推定に依存しており、それらの特性の値がオブジェクトがどのように移動し、他のオブジェクトまたは流体とどのように相互作用するかを観察することによってのみ推測できるシナリオをテストします。
私たちは、学習と組み込みの知識のさまざまなレベルにわたる多数の最先端の予測モデルのパフォーマンスを評価し、そのパフォーマンスを人間による一連の予測と比較します。
標準的なレジームとデータセットを使用してトレーニングされたモデルは、潜在的な特性についての推論を自発的に学習しないだけでなく、物体性と物理的状態をエンコードしたモデルがより適切な予測を行う傾向があることもわかりました。
しかし、すべてのモデルと人間のパフォーマンスの間には依然として大きな隔たりがあり、すべてのモデルの予測は人間が行った予測との相関性が低く、人間と同じような物理的予測を行うことを最先端のモデルが学習していないことを示唆しています。
方法。
プロジェクトページ:https://dingmyu.github.io/physion_v2/
要約(オリジナル)
General physical scene understanding requires more than simply localizing and recognizing objects — it requires knowledge that objects can have different latent properties (e.g., mass or elasticity), and that those properties affect the outcome of physical events. While there has been great progress in physical and video prediction models in recent years, benchmarks to test their performance typically do not require an understanding that objects have individual physical properties, or at best test only those properties that are directly observable (e.g., size or color). This work proposes a novel dataset and benchmark, termed Physion++, that rigorously evaluates visual physical prediction in artificial systems under circumstances where those predictions rely on accurate estimates of the latent physical properties of objects in the scene. Specifically, we test scenarios where accurate prediction relies on estimates of properties such as mass, friction, elasticity, and deformability, and where the values of those properties can only be inferred by observing how objects move and interact with other objects or fluids. We evaluate the performance of a number of state-of-the-art prediction models that span a variety of levels of learning vs. built-in knowledge, and compare that performance to a set of human predictions. We find that models that have been trained using standard regimes and datasets do not spontaneously learn to make inferences about latent properties, but also that models that encode objectness and physical states tend to make better predictions. However, there is still a huge gap between all models and human performance, and all models’ predictions correlate poorly with those made by humans, suggesting that no state-of-the-art model is learning to make physical predictions in a human-like way. Project page: https://dingmyu.github.io/physion_v2/
arxiv情報
著者 | Hsiao-Yu Tung,Mingyu Ding,Zhenfang Chen,Daniel Bear,Chuang Gan,Joshua B. Tenenbaum,Daniel LK Yamins,Judith E Fan,Kevin A. Smith |
発行日 | 2023-11-02 03:35:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google