VFA: Vision Frequency Analysis of Foundation Models and Human

要約

機械学習モデルは、現実世界のシナリオでは分布の変化に苦戦することがよくありますが、人間は堅牢な適応を示します。
人間の知覚とよりよく一致するモデルは、より高度な分布外一般化を達成する可能性があります。
この研究では、大規模コンピュータ ビジョン モデルのさまざまな特性が、人間の能力との整合性や堅牢性にどのような影響を与えるかを調査します。
私たちの調査結果は、モデルとデータのサイズを増やし、豊富なセマンティック情報と複数のモダリティを組み込むことで、モデルが人間の知覚と一致し、全体的な堅牢性が強化されることを示しています。
私たちの経験的分析は、分布外の精度と人間の調整との間に強い相関関係があることを実証しています。

要約(オリジナル)

Machine learning models often struggle with distribution shifts in real-world scenarios, whereas humans exhibit robust adaptation. Models that better align with human perception may achieve higher out-of-distribution generalization. In this study, we investigate how various characteristics of large-scale computer vision models influence their alignment with human capabilities and robustness. Our findings indicate that increasing model and data size and incorporating rich semantic information and multiple modalities enhance models’ alignment with human perception and their overall robustness. Our empirical analysis demonstrates a strong correlation between out-of-distribution accuracy and human alignment.

arxiv情報

著者 Mohammad-Javad Darvishi-Bayazi,Md Rifat Arefin,Jocelyn Faubert,Irina Rish
発行日 2024-09-09 17:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク