Have we built machines that think like people?

要約

人工知能の主な目標は、人間と同じように考える機械を構築することです。
しかし、ディープ ニューラル ネットワーク アーキテクチャではこれを達成できないと主張されています。
研究者らは、因果推論、直観物理学、直観心理学の領域におけるこれらのモデルの限界を主張しています。
しかし、最近の進歩、つまり大規模な言語モデル、特に視覚処理用に設計されたモデルの台頭により、人間のような認知能力をエミュレートする可能性への関心が再燃しています。
この論文は、直感的な物理学、因果推論、および直感的な心理学の領域における視覚ベースの大規模言語モデルの現状を評価します。
一連の管理された実験を通じて、これらの最新のモデルが複雑な物理的相互作用、因果関係、および他人の好みの直感的な理解をどの程度把握しているかを調査します。
私たちの調査結果では、これらのモデルは視覚データの処理と解釈において顕著な熟練を示しているものの、これらの分野では依然として人間の能力には及ばないことが明らかになりました。
モデルは物理法則と因果関係の初歩的な理解を示していますが、人間の認知の重要な側面であるより深い洞察が欠如しているため、そのパフォーマンスは妨げられています。
さらに、直観的な心の理論を必要とするタスクでは、モデルは完全に失敗します。
私たちの結果は、因果関係、物理的力学、社会的認知を理解するためのより堅牢なメカニズムを現代の視覚ベースの言語モデルに統合する必要性を強調し、認知にインスピレーションを得たベンチマークの重要性を指摘しています。

要約(オリジナル)

A chief goal of artificial intelligence is to build machines that think like people. Yet it has been argued that deep neural network architectures fail to accomplish this. Researchers have asserted these models’ limitations in the domains of causal reasoning, intuitive physics, and intuitive psychology. Yet recent advancements, namely the rise of large language models, particularly those designed for visual processing, have rekindled interest in the potential to emulate human-like cognitive abilities. This paper evaluates the current state of vision-based large language models in the domains of intuitive physics, causal reasoning, and intuitive psychology. Through a series of controlled experiments, we investigate the extent to which these modern models grasp complex physical interactions, causal relationships, and intuitive understanding of others’ preferences. Our findings reveal that, while these models demonstrate a notable proficiency in processing and interpreting visual data, they still fall short of human capabilities in these areas. The models exhibit a rudimentary understanding of physical laws and causal relationships, but their performance is hindered by a lack of deeper insights-a key aspect of human cognition. Furthermore, in tasks requiring an intuitive theory of mind, the models fail altogether. Our results emphasize the need for integrating more robust mechanisms for understanding causality, physical dynamics, and social cognition into modern-day, vision-based language models, and point out the importance of cognitively-inspired benchmarks.

arxiv情報

著者 Luca M. Schulze Buschoff,Elif Akata,Matthias Bethge,Eric Schulz
発行日 2023-11-27 18:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク