Dual Thinking and Logical Processing — Are Multi-modal Large Language Models Closing the Gap with Human Vision ?

要約

二重の思考フレームワークは、高速で直感的で、論理処理が遅くなることを考慮します。
ビジョンにおける二重の思考の認識には、直感的で論理的な処理からの推論が異なり、後者は現在の研究では不足している画像が必要です。
新しい敵対的なデータセットを導入して、人間のビジョンにおける二重思考フレームワークの証拠を提供します。これは、深い学習モデルの定性的行動の研究も促進します。
私たちの精神物理学的研究は、迅速に連続して複数の推論が存在することを示しており、エラーの分析により、視覚処理の早期停止により関連情報が欠落する可能性があることが示されています。
MLLMS(マルチモーダルの大手言語モデル)とVLMS(Vision Language Models)は、人​​間の視力における直感的な処理のエラーの修正に大きな進歩を遂げ、論理処理を必要とする画像のパフォーマンスの向上を示しました。
ただし、論理処理の改善は、直感的な処理の進歩に対応していません。
対照的に、セグメンテーションモデルは、識別されたインスタンスでのサブコンポーネントに関連するエラーで示されるように、直感的なヒト処理で見られるものと同様のエラーを示し、サブ構造の理解の欠如を示します。
AI(人工知能)ベースのシステムが、自律運転などの安全性クリティカルなドメインのアプリケーションの増加を見つけると、論理処理機能の統合が不可欠になります。
これにより、パフォーマンスが向上するだけでなく、スケーリングベースのアプローチの制限にも対処し、実際の環境で堅牢性と信頼性を確保します。

要約(オリジナル)

The dual thinking framework considers fast, intuitive, and slower logical processing. The perception of dual thinking in vision requires images where inferences from intuitive and logical processing differ, and the latter is under-explored in current studies. We introduce a novel adversarial dataset to provide evidence for the dual thinking framework in human vision, which also facilitates the study of the qualitative behavior of deep learning models. Our psychophysical studies show the presence of multiple inferences in rapid succession, and analysis of errors shows that the early stopping of visual processing can result in missing relevant information. MLLMs (Multi-modal Large Language Models) and VLMs (Vision Language Models) have made significant progress in correcting errors in intuitive processing in human vision and showed enhanced performance on images requiring logical processing. However, their improvements in logical processing have not kept pace with their advancements in intuitive processing. In contrast, segmentation models exhibit errors similar to those seen in intuitive human processing and lack understanding of sub-structures, as indicated by errors related to sub-components in identified instances. As AI (Artificial Intelligence)-based systems find increasing applications in safety-critical domains like autonomous driving, the integration of logical processing capabilities becomes essential. This not only enhances performance but also addresses the limitations of scaling-based approaches while ensuring robustness and reliability in real-world environments.

arxiv情報

著者 Kailas Dayanandan,Nikhil Kumar,Anand Sinha,Brejesh Lall
発行日 2025-02-28 17:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク