L-WISE: Boosting Human Visual Category Learning Through Model-Based Image Selection and Enhancement

要約

パフォーマンスの最適化と堅牢性の方法の組み合わせから派生した視覚的腹部ストリームの現在主要な人工ニューラルネットワークモデルは、視覚分類タスクで人間との顕著な程度の行動整合性を実証しています。
これらのモデルによって生成された画像の摂動により、人間がグラウンドトゥルースクラスを正確に報告する能力が向上できることを示します。
さらに、個々の画像に対する正しい人間の反応の割合を予測するために、同じモデルをすぐに使用できることがわかり、各画像の相対的な難易度の単純で人間に並べられた推定器を提供します。
これらの観察に動機付けられて、私たちは、テスト時に人間の分類の精度を向上させる方法で、人間の視覚学習を強化することを提案します。
学習増強アプローチは、(i)モデル推定認識の難易度に基づいて画像を選択すること、および(ii)初心者学習者の認識を支援する画像の摂動を適用することで構成されています。
これらのモデルベースの戦略を組み合わせることで、これらの介入のない対照被験者と比較して、修正されていないランダムに選択された保有テスト画像で、対照被験者と比較して33〜72%の分類精度の増加につながることがわかります。
精度の向上を超えて、両方のグループが同じ数のトレーニングトライアルを完了したにもかかわらず、拡張学習グループのトレーニング時間も20〜23%短縮されました。
自然なイメージを備えたきめの細かい分類タスクでのアプローチの有効性と、臨床的に関連する画像ドメイン(組織学と皮膚鏡検査)の2つのタスクが視覚学習が悪名高い挑戦的であることを実証します。
私たちの知る限り、私たちの仕事は、カテゴリ固有の画像機能を強化することにより、人間の視覚学習パフォーマンスを向上させるための人工ニューラルネットワークの最初のアプリケーションです。

要約(オリジナル)

The currently leading artificial neural network models of the visual ventral stream – which are derived from a combination of performance optimization and robustification methods – have demonstrated a remarkable degree of behavioral alignment with humans on visual categorization tasks. We show that image perturbations generated by these models can enhance the ability of humans to accurately report the ground truth class. Furthermore, we find that the same models can also be used out-of-the-box to predict the proportion of correct human responses to individual images, providing a simple, human-aligned estimator of the relative difficulty of each image. Motivated by these observations, we propose to augment visual learning in humans in a way that improves human categorization accuracy at test time. Our learning augmentation approach consists of (i) selecting images based on their model-estimated recognition difficulty, and (ii) applying image perturbations that aid recognition for novice learners. We find that combining these model-based strategies leads to categorization accuracy gains of 33-72% relative to control subjects without these interventions, on unmodified, randomly selected held-out test images. Beyond the accuracy gain, the training time for the augmented learning group was also shortened by 20-23%, despite both groups completing the same number of training trials. We demonstrate the efficacy of our approach in a fine-grained categorization task with natural images, as well as two tasks in clinically relevant image domains – histology and dermoscopy – where visual learning is notoriously challenging. To the best of our knowledge, our work is the first application of artificial neural networks to increase visual learning performance in humans by enhancing category-specific image features.

arxiv情報

著者 Morgan B. Talbot,Gabriel Kreiman,James J. DiCarlo,Guy Gaziv
発行日 2025-05-16 16:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク