要約
残留ネットワークのアイデンティティショートカットの影響を減らすために重み係数を導入すると、マスクされた自動エンコーダー(MAES)や拡散モデルなどの生成表現学習フレームワークのセマンティック機能学習が大幅に向上することを示します。
私たちの変更により、特徴の品質が向上し、Imagenet-1K K-nearestの精度を27.4%から63.9%に上げ、VIT-B/16バックボーンのMAESの線形プロービング精度を67.8%から72.7%に引き上げ、拡散の生成品質を向上させます。
モデル。
この重大なギャップは、残留接続構造が勾配伝播を促進する上で重要な役割を果たしているが、浅い表現のエコーをより深い層に注入することにより、抽象学習の能力を低減するという有害な副作用があるかもしれないことを示唆しています。
この欠点は、層の深さが増加するにつれてアイデンティティ接続の寄与を単調に減少させるための固定式を介して改善します。
私たちの設計は、ネットワークのトレーニング性に影響を与えることなく、機能の抽象化の段階的な開発を促進します。
変更された残差ネットワークによって学習された表現を分析すると、効果的な機能ランクが低いとダウンストリームタスクのパフォーマンスとの相関があります。
要約(オリジナル)
We show that introducing a weighting factor to reduce the influence of identity shortcuts in residual networks significantly enhances semantic feature learning in generative representation learning frameworks, such as masked autoencoders (MAEs) and diffusion models. Our modification notably improves feature quality, raising ImageNet-1K K-Nearest Neighbor accuracy from 27.4% to 63.9% and linear probing accuracy from 67.8% to 72.7% for MAEs with a ViT-B/16 backbone, while also enhancing generation quality in diffusion models. This significant gap suggests that, while residual connection structure serves an essential role in facilitating gradient propagation, it may have a harmful side effect of reducing capacity for abstract learning by virtue of injecting an echo of shallower representations into deeper layers. We ameliorate this downside via a fixed formula for monotonically decreasing the contribution of identity connections as layer depth increases. Our design promotes the gradual development of feature abstractions, without impacting network trainability. Analyzing the representations learned by our modified residual networks, we find correlation between low effective feature rank and downstream task performance.
arxiv情報
著者 | Xiao Zhang,Ruoxi Jiang,William Gao,Rebecca Willett,Michael Maire |
発行日 | 2025-01-31 17:47:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google