要約
コンピュータービジョンにおける深い学習の大成功にもかかわらず、モデルはまだ新しい入力分布に一般化する人間に遅れをとっています。
既存のベンチマークでは、多くの制御された条件下でパフォーマンスを分析することにより、モデルの特定の障害点を調査しません。
私たちの研究は、モデルがさまざまなレベルのオブジェクト断片化の下でオブジェクト認識をテストする実験を設計することにより、モデルが輪郭統合(人間の視覚の特徴)と闘う場所と理由を体系的に分析します。
人間(n = 50)は、オブジェクトの輪郭がほとんど存在しない場合でも、高精度で機能します。
これは、オブジェクトの輪郭の増加に対する感度が大幅に低くなるモデルとは対照的であり、テストした1,000を超えるモデルのほとんどは、チャンスをかろうじて実行しています。
非常に大きなスケール($ \ sim5b $トレーニングデータセットサイズ)でのみ、モデルは人間のパフォーマンスにアプローチし始めます。
重要なことに、人間は統合バイアスを示します。これは、方向のない断片を上回る方向のフラグメントで構成されるオブジェクトを認識することへの好みです。
このプロパティを共有するモデルは、私たちのタスクでパフォーマンスを向上させるだけでなく、このバイアスがモデルトレーニングデータセットサイズとともに増加し、輪郭統合を示すトレーニングモデルも高形状バイアスにつながることがわかります。
まとめると、我々の結果は、等高線統合がオブジェクト認識パフォーマンスの根底にあるオブジェクトビジョンの特徴であり、大規模なデータから学習するメカニズムである可能性があることを示唆しています。
要約(オリジナル)
Despite the tremendous success of deep learning in computer vision, models still fall behind humans in generalizing to new input distributions. Existing benchmarks do not investigate the specific failure points of models by analyzing performance under many controlled conditions. Our study systematically dissects where and why models struggle with contour integration — a hallmark of human vision — by designing an experiment that tests object recognition under various levels of object fragmentation. Humans (n=50) perform at high accuracy, even with few object contours present. This is in contrast to models which exhibit substantially lower sensitivity to increasing object contours, with most of the over 1,000 models we tested barely performing above chance. Only at very large scales ($\sim5B$ training dataset size) do models begin to approach human performance. Importantly, humans exhibit an integration bias — a preference towards recognizing objects made up of directional fragments over directionless fragments. We find that not only do models that share this property perform better at our task, but that this bias also increases with model training dataset size, and training models to exhibit contour integration leads to high shape bias. Taken together, our results suggest that contour integration is a hallmark of object vision that underlies object recognition performance, and may be a mechanism learned from data at scale.
arxiv情報
著者 | Ben Lonnqvist,Elsa Scialom,Abdulkadir Gokce,Zehra Merchant,Michael H. Herzog,Martin Schrimpf |
発行日 | 2025-04-07 16:45:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google