Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization

要約

私たちは、ディープ ニューラル ネットワークのパフォーマンスを向上させるための再重み付け勾配降下法を開発します。
私たちのアルゴリズムには、各最適化ステップ中にデータ ポイントの重要度の重み付けが含まれます。
私たちのアプローチは、一般化保証が向上したモデルが得られることが知られている、$f$-divergences を使用した分布的にロバストな最適化からインスピレーションを得ています。
私たちの再重み付けスキームはシンプルで計算効率が高く、SGD や Adam などの一般的な最適化アルゴリズムと組み合わせることができます。
経験的に、バニラ分類、ラベルの不均衡による分類、ノイズのあるラベル、ドメイン適応、表形式の学習などのさまざまなタスクに対するアプローチの優位性を実証します。
特に、DomainBed ベンチマークと表形式ベンチマークでは、SOTA と比較してそれぞれ +0.7% と +1.44% の改善が得られました。
さらに、当社のアルゴリズムは、GLUE ベンチマーク上の BERT のパフォーマンスを +1.94%、ImageNet-1K 上の ViT のパフォーマンスを +0.9% 向上させます。
これらの結果は、提案されたアプローチの有効性を実証し、さまざまなドメインでパフォーマンスを向上させる可能性を示しています。

要約(オリジナル)

We develop a re-weighted gradient descent technique for boosting the performance of deep neural networks. Our algorithm involves the importance weighting of data points during each optimization step. Our approach is inspired by distributionally robust optimization with $f$-divergences, which has been known to result in models with improved generalization guarantees. Our re-weighting scheme is simple, computationally efficient, and can be combined with any popular optimization algorithms such as SGD and Adam. Empirically, we demonstrate our approach’s superiority on various tasks, including vanilla classification, classification with label imbalance, noisy labels, domain adaptation, and tabular representation learning. Notably, we obtain improvements of +0.7% and +1.44% over SOTA on DomainBed and Tabular benchmarks, respectively. Moreover, our algorithm boosts the performance of BERT on GLUE benchmarks by +1.94%, and ViT on ImageNet-1K by +0.9%. These results demonstrate the effectiveness of the proposed approach, indicating its potential for improving performance in diverse domains.

arxiv情報

著者 Ramnath Kumar,Kushal Majmundar,Dheeraj Nagaraj,Arun Sai Suggala
発行日 2023-06-15 15:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク