要約
人間と動物は物理世界について豊かかつ柔軟な理解を持っており、それによって物体や出来事の根底にある力学的な軌跡、考えられる将来の状態を推測し、それを利用して行動の結果を計画し予測することができます。
ただし、これらの計算の基礎となる神経メカニズムは不明です。
私たちは、目標主導型のモデリング アプローチと、高密度の神経生理学的データおよびハイスループットの人間の行動の読み取り値を組み合わせて、この疑問に直接取り組みます。
具体的には、ピクセル単位またはオブジェクト中心の目標を備えた自己監視型のエンドツーエンドモデルから、
純粋に静的な画像ベースまたは動的なビデオベースの事前トレーニング済み基礎モデルの潜在空間で将来を予測します。
これらのモデル クラスは、多様な環境内および環境全体にわたる神経データと行動データを予測する能力において、強力な差別化を実現しています。
特に、神経応答は現在、自己教師付きの方法で動的シーンに最適化された事前トレーニング済みの基礎モデルの潜在空間で環境の将来の状態を予測するようにトレーニングされたモデルによって最もよく予測されることがわかりました。
特に、多様な感覚運動タスクをサポートするように最適化されたビデオ基盤モデルの潜在空間で将来を予測するモデルは、テストできたすべての環境シナリオにわたって、人間の行動エラー パターンと神経力学の両方に合理的に一致します。
全体として、これらの発見は、霊長類の精神シミュレーションの神経メカニズムと行動が、より一般的に身体化された AI に役立つ動的で再利用可能な視覚表現での将来予測に最適化されることとこれまでのところ最も一致していることを示唆しています。
要約(オリジナル)
Humans and animals have a rich and flexible understanding of the physical world, which enables them to infer the underlying dynamical trajectories of objects and events, plausible future states, and use that to plan and anticipate the consequences of actions. However, the neural mechanisms underlying these computations are unclear. We combine a goal-driven modeling approach with dense neurophysiological data and high-throughput human behavioral readouts to directly impinge on this question. Specifically, we construct and evaluate several classes of sensory-cognitive networks to predict the future state of rich, ethologically-relevant environments, ranging from self-supervised end-to-end models with pixel-wise or object-centric objectives, to models that future predict in the latent space of purely static image-based or dynamic video-based pretrained foundation models. We find strong differentiation across these model classes in their ability to predict neural and behavioral data both within and across diverse environments. In particular, we find that neural responses are currently best predicted by models trained to predict the future state of their environment in the latent space of pretrained foundation models optimized for dynamic scenes in a self-supervised manner. Notably, models that future predict in the latent space of video foundation models that are optimized to support a diverse range of sensorimotor tasks, reasonably match both human behavioral error patterns and neural dynamics across all environmental scenarios that we were able to test. Overall, these findings suggest that the neural mechanisms and behaviors of primate mental simulation are thus far most consistent with being optimized to future predict on dynamic, reusable visual representations that are useful for Embodied AI more generally.
arxiv情報
著者 | Aran Nayebi,Rishi Rajalingham,Mehrdad Jazayeri,Guangyu Robert Yang |
発行日 | 2023-10-25 15:34:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google