Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization

要約

私たちは、ディープ ニューラル ネットワークのパフォーマンスを向上させるための再重み付け勾配降下法を開発しました。これには、各最適化ステップでのデータ ポイントの重要度の重み付けが含まれます。
私たちのアプローチは、f ダイバージェンスを使用した分布的にロバストな最適化からインスピレーションを得ており、一般化保証が向上したモデルが得られることが知られています。
私たちの再重み付けスキームはシンプルで計算効率が高く、SGD や Adam などの多くの一般的な最適化アルゴリズムと組み合わせることができます。
経験的に、教師あり学習、ドメイン適応などのさまざまなタスクに対するアプローチの優位性を実証しています。
特に、DomainBed および表形式の分類ベンチマークでは、SOTA と比較してそれぞれ +0.7% および +1.44% の改善が得られました。
さらに、当社のアルゴリズムは、GLUE ベンチマークでの BERT のパフォーマンスを +1.94%、ImageNet-1K での ViT のパフォーマンスを +1.01% 向上させます。
これらの結果は、提案されたアプローチの有効性を実証し、さまざまなドメインでパフォーマンスを向上させる可能性を示しています。

要約(オリジナル)

We develop a re-weighted gradient descent technique for boosting the performance of deep neural networks, which involves importance weighting of data points during each optimization step. Our approach is inspired by distributionally robust optimization with f-divergences, which has been known to result in models with improved generalization guarantees. Our re-weighting scheme is simple, computationally efficient, and can be combined with many popular optimization algorithms such as SGD and Adam. Empirically, we demonstrate the superiority of our approach on various tasks, including supervised learning, domain adaptation. Notably, we obtain improvements of +0.7% and +1.44% over SOTA on DomainBed and Tabular classification benchmarks, respectively. Moreover, our algorithm boosts the performance of BERT on GLUE benchmarks by +1.94%, and ViT on ImageNet-1K by +1.01%. These results demonstrate the effectiveness of the proposed approach, indicating its potential for improving performance in diverse domains.

arxiv情報

著者 Ramnath Kumar,Kushal Majmundar,Dheeraj Nagaraj,Arun Sai Suggala
発行日 2023-10-04 14:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク