Zero-shot generalization across architectures for visual classification

要約

未知のデータへの汎化はディープネットワークにとって重要な課題であるが、その分類精度との関係は不明である。我々は、最小限の視覚データセットと汎化性の尺度を用いて、深層畳み込みネットワーク(CNN)からトランスフォーマーに至るまで、一般的なネットワークが、未知のクラスへの外挿能力において、層間でもアーキテクチャ間でも異なることを示す。精度は汎化性の良い予測因子ではなく、汎化性は層の深さによって非単調に変化する。

要約(オリジナル)

Generalization to unseen data is a key desideratum for deep networks, but its relation to classification accuracy is unclear. Using a minimalist vision dataset and a measure of generalizability, we show that popular networks, from deep convolutional networks (CNNs) to transformers, vary in their power to extrapolate to unseen classes both across layers and across architectures. Accuracy is not a good predictor of generalizability, and generalization varies non-monotonically with layer depth.

arxiv情報

著者 Evan Gerritz,Luciano Dyballa,Steven W. Zucker
発行日 2024-05-03 15:25:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.6 パーマリンク