要約
事前に訓練されたビジョン言語モデルは、まだ人間の視覚認識に及ばない。
視覚的認知を改善し、モデルを人間の行動に合わせるために、視覚的刺激と視覚的認知タスクに関する人間の判断を導入し、一貫した環境で認知ドメイン全体のパフォーマンスを体系的に評価できるようにします。
直感的な物理学と因果的推論のグラウンドトゥルースデータのモデルを微調整し、それがそれぞれの微調整ドメインでモデルのパフォーマンスを改善することを発見します。
さらに、人間の行動とのモデルの整合性を改善することができます。
ただし、微調整は、他の視覚特性を備えたデータや他の認知ドメインのタスクに堅牢な人間のような一般化に寄与しないことがわかります。
要約(オリジナル)
Pre-trained vision language models still fall short of human visual cognition. In an effort to improve visual cognition and align models with human behavior, we introduce visual stimuli and human judgments on visual cognition tasks, allowing us to systematically evaluate performance across cognitive domains under a consistent environment. We fine-tune models on ground truth data for intuitive physics and causal reasoning and find that this improves model performance in the respective fine-tuning domain. Furthermore, it can improve model alignment with human behavior. However, we find that fine-tuning does not contribute to robust human-like generalization to data with other visual characteristics or to tasks in other cognitive domains.
arxiv情報
著者 | Luca M. Schulze Buschoff,Konstantinos Voudouris,Elif Akata,Matthias Bethge,Joshua B. Tenenbaum,Eric Schulz |
発行日 | 2025-02-21 18:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google