Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization

要約

動的サンプル重要度重み付けを通じてディープ ニューラル ネットワークのパフォーマンスを向上させる新しい最適化手法である再重み付け勾配降下法 (RGD) を紹介します。
私たちの手法は、カルバック・ライブラー発散による分布ロバスト最適化 (DRO) の原理に基づいています。
RGD は実装が簡単で、計算効率が高く、SGD や Adam などの広く使用されているオプティマイザと互換性があります。
+0.7% (DomainBed)、+1.44% (表形式分類)、+1.94% (BERT を使用した GLUE) の改善を含む、さまざまなベンチマークで最先端の結果を達成することにより、RGD の幅広い適用性と影響を実証します。
+1.01% (ViT を使用した ImageNet-1K)。

要約(オリジナル)

We present Re-weighted Gradient Descent (RGD), a novel optimization technique that improves the performance of deep neural networks through dynamic sample importance weighting. Our method is grounded in the principles of distributionally robust optimization (DRO) with Kullback-Leibler divergence. RGD is simple to implement, computationally efficient, and compatible with widely used optimizers such as SGD and Adam. We demonstrate the broad applicability and impact of RGD by achieving state-of-the-art results on diverse benchmarks, including improvements of +0.7% (DomainBed), +1.44% (tabular classification), +1.94% (GLUE with BERT), and +1.01% (ImageNet-1K with ViT).

arxiv情報

著者 Ramnath Kumar,Kushal Majmundar,Dheeraj Nagaraj,Arun Sai Suggala
発行日 2024-02-26 06:22:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク