Evaluating alignment between humans and neural network representations in image-based learning tasks

要約

人間はシーンやオブジェクトを豊富な特徴空間で表現し、少数の例を使用してカテゴリのメンバーシップや抽象的な機能を一般化できる情報を伝えます。
ニューラル ネットワーク モデルが人間のように一般化できるかどうかは何によって決まるのでしょうか?
私たちは、人間が自然画像の連続的な関係とカテゴリを学習する必要がある 2 つのタスクにわたって、86 ドルの事前学習済みニューラル ネットワーク モデルの表現が人間の学習軌跡にどの程度うまくマッピングされるかをテストしました。
これらのタスクでは、人間の参加者とニューラル ネットワークの両方が、数回の試行内で関連する刺激の特徴を特定することに成功し、効果的な一般化が実証されました。
私たちは、トレーニング データセットのサイズが人間の選択と一致するかどうかの中心的な決定要因である一方で、マルチモーダル データ (テキストと画像) を使用した対照的なトレーニングが、人間の一般化を予測する現在公開されているモデルの共通の特徴であることを発見しました。
表現の固有の次元は、異なるモデル タイプの位置合わせに異なる影響を及ぼしました。
最後に、人間に合わせた 3 セットの表現をテストしましたが、ベースラインと比較して予測精度に一貫した改善は見られませんでした。
結論として、事前学習済みニューラル ネットワークは、タスク間で転送可能な認知のいくつかの基本的な側面をキャプチャしているように見えるため、認知モデルの表現を抽出するのに役立ちます。
私たちのパラダイムとモデリングアプローチはどちらも、ニューラルネットワークと人間の間の整合性を定量化し、認知科学をより自然主義的な領域に拡張する新しい方法を提供します。

要約(オリジナル)

Humans represent scenes and objects in rich feature spaces, carrying information that allows us to generalise about category memberships and abstract functions with few examples. What determines whether a neural network model generalises like a human? We tested how well the representations of $86$ pretrained neural network models mapped to human learning trajectories across two tasks where humans had to learn continuous relationships and categories of natural images. In these tasks, both human participants and neural networks successfully identified the relevant stimulus features within a few trials, demonstrating effective generalisation. We found that while training dataset size was a core determinant of alignment with human choices, contrastive training with multi-modal data (text and imagery) was a common feature of currently publicly available models that predicted human generalisation. Intrinsic dimensionality of representations had different effects on alignment for different model types. Lastly, we tested three sets of human-aligned representations and found no consistent improvements in predictive accuracy compared to the baselines. In conclusion, pretrained neural networks can serve to extract representations for cognitive models, as they appear to capture some fundamental aspects of cognition that are transferable across tasks. Both our paradigms and modelling approach offer a novel way to quantify alignment between neural networks and humans and extend cognitive science into more naturalistic domains.

arxiv情報

著者 Can Demircan,Tankred Saanum,Leonardo Pettini,Marcel Binz,Blazej M Baczkowski,Christian F Doeller,Mona M Garvert,Eric Schulz
発行日 2025-01-16 12:12:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク