For Better or For Worse? Learning Minimum Variance Features With Label Augmentation

要約

過去 10 年間、データ拡張は、分類タスクでディープ ラーニング モデルのトレーニングを成功させる上で極めて重要でした。
データ拡張手法の重要なサブクラス (ラベル スムージングとミックスアップの両方を含む) には、モデルのトレーニング中に入力データだけでなく入力ラベルの変更も含まれます。
この研究では、このような手法のラベル拡張の側面が果たす役割を分析します。
まず、ラベル拡張でトレーニングされたバイナリ分類データの線形モデルはデータ内の最小分散特徴のみを学習するのに対し、標準トレーニング (重み減衰を含む) はより高い分散特徴を学習できることを証明します。
次に、私たちの手法を使用して、非線形モデルや一般的なデータ分布であっても、ラベルの平滑化とミックスアップ損失がモデル出力分散の関数によって下限されることを示します。
私たちの結果の重要な結果は否定的です。ラベル スムージングとミックスアップは、データ内の偽の相関に対して堅牢性が低くなる可能性があります。
擬似相関を持たせるように修正された画像分類ベンチマークの実験を通じて、私たちの理論が実践を反映していることを検証します。

要約(オリジナル)

Data augmentation has been pivotal in successfully training deep learning models on classification tasks over the past decade. An important subclass of data augmentation techniques – which includes both label smoothing and Mixup – involves modifying not only the input data but also the input label during model training. In this work, we analyze the role played by the label augmentation aspect of such methods. We first prove that linear models on binary classification data trained with label augmentation learn only the minimum variance features in the data, while standard training (which includes weight decay) can learn higher variance features. We then use our techniques to show that even for nonlinear models and general data distributions, the label smoothing and Mixup losses are lower bounded by a function of the model output variance. An important consequence of our results is negative: label smoothing and Mixup can be less robust to spurious correlations in the data. We verify that our theory reflects practice via experiments on image classification benchmarks modified to have spurious correlations.

arxiv情報

著者 Muthu Chidambaram,Rong Ge
発行日 2024-05-27 16:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク