Generalizing Few Data to Unseen Domains Flexibly Based on Label Smoothing Integrated with Distributionally Robust Optimization

要約

オーバーフィッティングは一般に、小規模なデータセットにディープ ニューラル ネットワーク (DNN) を適用するときに発生します。この場合、DNN は既存のデータから目に見えないデータまでうまく一般化できません。
過剰適合が発生する主な理由は、小規模なデータセットでは現実世界の状況を反映できないことです。
ラベル スムージング (LS) は、過学習を防止する効果的な正則化方法であり、ワンホット ラベルと均一なラベル ベクトルを混合することで過学習を回避します。
ただし、LS はラベルのみに焦点を当て、既存のデータの分布を無視します。
この論文では、LS に分散ロバスト最適化 (DRO) を導入し、DNN のトレーニング時に既存のデータ分散を目に見えない領域に柔軟に移行することを実現します。
具体的には、DRO を統合する場合、LS の正則化を DNN パラメータの正則化項に拡張できることを証明します。
正則化項を利用すると、既存のデータを目に見えない領域に移動し、新しいデータを生成できます。
さらに、結果を達成し、DNN をトレーニングするための近似勾配反復ラベル平滑化アルゴリズム (GI-LS) を提案します。
既存のデータのシフトが GI-LS の収束に影響を与えないことを証明します。
GI-LS には一連のハイパーパラメータが組み込まれているため、これらのハイパーパラメータの比較的最適な組み合わせを見つけるためにベイジアン最適化 (BO) を使用することをさらに検討します。
小規模な異常分類タスクをケースとして取り上げ、GI-LS を評価したところ、その結果は明らかにその優れたパフォーマンスを示しました。

要約(オリジナル)

Overfitting commonly occurs when applying deep neural networks (DNNs) on small-scale datasets, where DNNs do not generalize well from existing data to unseen data. The main reason resulting in overfitting is that small-scale datasets cannot reflect the situations of the real world. Label smoothing (LS) is an effective regularization method to prevent overfitting, avoiding it by mixing one-hot labels with uniform label vectors. However, LS only focuses on labels while ignoring the distribution of existing data. In this paper, we introduce the distributionally robust optimization (DRO) to LS, achieving shift the existing data distribution flexibly to unseen domains when training DNNs. Specifically, we prove that the regularization of LS can be extended to a regularization term for the DNNs parameters when integrating DRO. The regularization term can be utilized to shift existing data to unseen domains and generate new data. Furthermore, we propose an approximate gradient-iteration label smoothing algorithm (GI-LS) to achieve the findings and train DNNs. We prove that the shift for the existing data does not influence the convergence of GI-LS. Since GI-LS incorporates a series of hyperparameters, we further consider using Bayesian optimization (BO) to find the relatively optimal combinations of these hyperparameters. Taking small-scale anomaly classification tasks as a case, we evaluate GI-LS, and the results clearly demonstrate its superior performance.

arxiv情報

著者 Yangdi Wang,Zhi-Hai Zhang,Su Xiu Xu,Wenming Guo
発行日 2024-08-09 14:13:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク