Cognitive Science-Inspired Evaluation of Core Capabilities for Object Understanding in AI

要約

私たちの世界モデルのコアコンポーネントの1つは、「直感的な物理学」です。オブジェクト、空間、因果関係の理解です。
この機能により、イベントを予測し、アクションを計画し、環境をナビゲートすることができます。これらはすべて、オブジェクトの複合感覚に依存しています。
その重要性にもかかわらず、複数の理論的フレームワークが洞察を提供しますが、オブジェクトフッドの単一の統一された説明はありません。
このペーパーの最初の部分では、オブジェクトフッド研究、ゲシュタルト心理学、エネルギー認識、発達心理学における主要な理論的枠組みの包括的な概要を紹介し、各フレームワークがオブジェクト理解に起因するコア能力を特定し、生物学的なエージェントの世界モデルで果たす機能の役割を果たします。
世界モデリングにおけるオブジェクトフッドの基本的な役割を考えると、AIではオブジェクトフッドを理解することも不可欠です。
論文の第2部では、現在のAIパラダイムが認知科学のパラダイムと比較してどのようにアプローチし、オブジェクト性能力をテストするかを評価します。
AIパラダイムは、オブジェクトの概念化方法、オブジェクトフードの研究に使用される方法、利用されたデータ、および評価手法の組み合わせとして定義します。
ベンチマークは、AIシステムモデルの孤立した側面の孤立した側面を検出できるが、ベンチマークがこれらの機能全体にわたって機能的な統合がなく、オブジェクトフッドの課題を完全に解決しないときにベンチマークが検出できないことを発見しました。
最後に、このペーパーで概説されているオブジェクトフッドの統合されたビジョンと一致する新しい評価アプローチを探ります。
これらの方法は、現実世界のコンテキストで本物のオブジェクトを理解して、孤立したオブジェクト機能から汎用AIに向けて前進するための有望な候補です。

要約(オリジナル)

One of the core components of our world models is ‘intuitive physics’ – an understanding of objects, space, and causality. This capability enables us to predict events, plan action and navigate environments, all of which rely on a composite sense of objecthood. Despite its importance, there is no single, unified account of objecthood, though multiple theoretical frameworks provide insights. In the first part of this paper, we present a comprehensive overview of the main theoretical frameworks in objecthood research – Gestalt psychology, enactive cognition, and developmental psychology – and identify the core capabilities each framework attributes to object understanding, as well as what functional roles they play in shaping world models in biological agents. Given the foundational role of objecthood in world modelling, understanding objecthood is also essential in AI. In the second part of the paper, we evaluate how current AI paradigms approach and test objecthood capabilities compared to those in cognitive science. We define an AI paradigm as a combination of how objecthood is conceptualised, the methods used for studying objecthood, the data utilised, and the evaluation techniques. We find that, whilst benchmarks can detect that AI systems model isolated aspects of objecthood, the benchmarks cannot detect when AI systems lack functional integration across these capabilities, not solving the objecthood challenge fully. Finally, we explore novel evaluation approaches that align with the integrated vision of objecthood outlined in this paper. These methods are promising candidates for advancing from isolated object capabilities toward general-purpose AI with genuine object understanding in real-world contexts.

arxiv情報

著者 Danaja Rutar,Alva Markelius,Konstantinos Voudouris,José Hernández-Orallo,Lucy Cheke
発行日 2025-03-27 16:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク