要約
ドロップアウトの機械学習における普及にもかかわらず、データ増強の形態としてのその有効性は引き続き標準化されていません。
2つの重要な質問に対処します。(i)拡張戦略としてドロップアウトが効果的になるのはいつですか?
(ii)これらの条件下でドロップアウトは独自に効果的ですか?
これらの質問を調査するために、ニューラルネットワークのターゲット層にドロップアウトまたはPCA変換を適用するネットワークおよびモダリティとモダリティと存在の方法であるディープ拡張を提案します。
NLP、コンピュータービジョン、グラフ学習の対照的な学習タスクに関する広範な実験により、レイヤー間でドロップアウトを均一に適用しても、パフォーマンスが一貫して改善されないことがわかります。
代わりに、ドロップアウトはより深い層で最も有益であることが証明されており、代替の増強(PCAなど)によって一致する可能性があります。
また、ドロップアウト機能を増強として効果的に確保するためには、ストップ勾配操作が重要であり、コントラストタスクから監視付きタスクに移行するときにパフォーマンスの傾向が反転することを示しています。
私たちの分析は、深い増強が、ラベル付きデータが存在しないために自己監視学習における顕著な問題である層間の共同適応を緩和するのに役立つことを示唆しています。
これらの洞察に基づいて、最適な増強層を選択する手順の概要を説明し、深い増強が従来の入力レベルの増強を上回ることができることを示します。
このシンプルでありながら強力なアプローチは、幅広いアーキテクチャとモダリティにシームレスに統合され、パフォーマンスと一般化の両方で顕著な利益をもたらします。
要約(オリジナル)
Despite dropout’s ubiquity in machine learning, its effectiveness as a form of data augmentation remains under-explored. We address two key questions: (i) When is dropout effective as an augmentation strategy? (ii) Is dropout uniquely effective under these conditions? To explore these questions, we propose Deep Augmentation, a network- and modality-agnostic method that applies dropout or PCA transformations to targeted layers in neural networks. Through extensive experiments on contrastive learning tasks in NLP, computer vision, and graph learning, we find that uniformly applying dropout across layers does not consistently improve performance. Instead, dropout proves most beneficial in deeper layers and can be matched by alternative augmentations (e.g., PCA). We also show that a stop-gradient operation is critical for ensuring dropout functions effectively as an augmentation, and that performance trends invert when moving from contrastive tasks to supervised tasks. Our analysis suggests that Deep Augmentation helps mitigate inter-layer co-adaptation — a notable issue in self-supervised learning due to the absence of labeled data. Drawing on these insights, we outline a procedure for selecting the optimal augmentation layer and demonstrate that Deep Augmentation can outperform traditional input-level augmentations. This simple yet powerful approach can be seamlessly integrated into a wide range of architectures and modalities, yielding notable gains in both performance and generalization.
arxiv情報
著者 | Rickard Brüel-Gabrielsson,Tongzhou Wang,Manel Baradad,Justin Solomon |
発行日 | 2025-05-30 17:01:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google