Do computer vision foundation models learn the low-level characteristics of the human visual system?

要約

DinoやOpenClipなどのコンピュータービジョンファンデーションモデルは、大規模な画像データセットで自立した方法で訓練されています。
同様に、実質的な証拠は、人間の視覚システム(HVS)が自然界の色とパターンの統計的分布の影響を受けていることを示唆しています。特性は、基礎モデルのトレーニングデータにも存在します。
このホワイトペーパーで取り上げる質問は、自然画像で訓練された基礎モデルが、コントラスト検出、コントラストマスキング、コントラストの恒常性など、人間の視覚システムの低レベルの特性のいくつかを模倣するかどうかです。
具体的には、45の基礎モデルと生成モデルの画像エンコーダーを評価するために、9つのテストタイプを含むプロトコルを設計しました。
我々の結果は、一部の基礎モデル(たとえば、Dino、Dinov2、OpenClip)が人間の視覚の特徴の一部を共有していることを示していますが、他のモデルはほとんど類似性を示していません。
基礎モデルは、周波数全体でコントラストが低く、コントラストに対するかなり不規則な応答に対する感度が小さくなる傾向があります。
基礎モデルは、コントラストマスキングの観点から人間のデータとの最良の一致を示しています。
私たちの調査結果は、現実世界のイメージを解釈することを学ぶとき、人間のビジョンとコンピュータービジョンが類似のパスと異なるパスの両方をとる可能性があることを示唆しています。
全体として、違いが残っていますが、視力タスクで訓練された基礎モデルは、低レベルの人間の視力と一致し始め、Dinov2は最も類似しています。

要約(オリジナル)

Computer vision foundation models, such as DINO or OpenCLIP, are trained in a self-supervised manner on large image datasets. Analogously, substantial evidence suggests that the human visual system (HVS) is influenced by the statistical distribution of colors and patterns in the natural world, characteristics also present in the training data of foundation models. The question we address in this paper is whether foundation models trained on natural images mimic some of the low-level characteristics of the human visual system, such as contrast detection, contrast masking, and contrast constancy. Specifically, we designed a protocol comprising nine test types to evaluate the image encoders of 45 foundation and generative models. Our results indicate that some foundation models (e.g., DINO, DINOv2, and OpenCLIP), share some of the characteristics of human vision, but other models show little resemblance. Foundation models tend to show smaller sensitivity to low contrast and rather irregular responses to contrast across frequencies. The foundation models show the best agreement with human data in terms of contrast masking. Our findings suggest that human vision and computer vision may take both similar and different paths when learning to interpret images of the real world. Overall, while differences remain, foundation models trained on vision tasks start to align with low-level human vision, with DINOv2 showing the closest resemblance.

arxiv情報

著者 Yancheng Cai,Fei Yin,Dounia Hammou,Rafal Mantiuk
発行日 2025-02-27 16:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク