要約
私たちは、自然なビデオの仮面領域を予測するために訓練された一般的な深い神経ネットワークモデルにおける直感的な物理学の理解の出現を調査します。
除外違反のフレームワークを活用して、学習した表現空間の結果を予測するために訓練されたビデオ予測モデルは、オブジェクトの永続性や形状の一貫性などのさまざまな直感的な物理特性の理解を示していることがわかります。
対照的に、ピクセル空間とマルチモーダルの大規模な言語モデルのビデオ予測は、テキストを通じて偶然に近いパフォーマンスを実現します。
これらのアーキテクチャの比較は、予測的なコーディングに似た感覚入力の欠落部分を予測しながら抽象表現空間を共同で学習し、直感的な物理学の理解を得るのに十分であり、ユニークなビデオの1週間で訓練されたモデルでさえ偶然を超えるモデルを達成することでさえ、
パフォーマンス。
これは、世界を理解するのに役立つ生来のシステムのセットであるコア知識が、直感的な物理学を理解するためにハードワイヤードする必要があるという考えに挑戦しています。
要約(オリジナル)
We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the violation-of-expectation framework, we find that video prediction models trained to predict outcomes in a learned representation space demonstrate an understanding of various intuitive physics properties, such as object permanence and shape consistency. In contrast, video prediction in pixel space and multimodal large language models, which reason through text, achieve performance closer to chance. Our comparisons of these architectures reveal that jointly learning an abstract representation space while predicting missing parts of sensory input, akin to predictive coding, is sufficient to acquire an understanding of intuitive physics, and that even models trained on one week of unique video achieve above chance performance. This challenges the idea that core knowledge — a set of innate systems to help understand the world — needs to be hardwired to develop an understanding of intuitive physics.
arxiv情報
著者 | Quentin Garrido,Nicolas Ballas,Mahmoud Assran,Adrien Bardes,Laurent Najman,Michael Rabbat,Emmanuel Dupoux,Yann LeCun |
発行日 | 2025-02-17 14:27:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google