Adaptive Training Distributions with Scalable Online Bilevel Optimization

要約

ウェブスケールのコーパスで事前学習された大規模なニューラル ネットワークは、現代の機械学習の中心となっています。
このパラダイムでは、大規模で異種の事前トレーニング データの分布がアプリケーション ドメインの分布と一致することはほとんどありません。
この研究では、対象となるテスト条件を反映するデータのサンプルが少ない場合に、事前トレーニング分布を変更することを検討します。
我々は、オンラインのバイレベル最適化問題としてこの設定を最近定式化したことを動機としたアルゴリズムを提案します。
スケーラビリティを念頭に置いて、私たちのアルゴリズムは、ターゲットの分布での損失を最も改善する可能性が高いトレーニング ポイントでの勾配の計算を優先します。
経験的に、このアプローチは、ドメイン適応文献の既存の戦略よりも有益である場合もありますが、他の場合には成功しない可能性があることを示しています。
私たちは、私たちのアプローチがいつうまく機能することが期待できるかを評価し、現在の制限に対処するためのさらなる研究に向けた簡単なテストを提案します。

要約(オリジナル)

Large neural networks pretrained on web-scale corpora are central to modern machine learning. In this paradigm, the distribution of the large, heterogeneous pretraining data rarely matches that of the application domain. This work considers modifying the pretraining distribution in the case where one has a small sample of data reflecting the targeted test conditions. We propose an algorithm motivated by a recent formulation of this setting as an online, bilevel optimization problem. With scalability in mind, our algorithm prioritizes computing gradients at training points which are likely to most improve the loss on the targeted distribution. Empirically, we show that in some cases this approach is beneficial over existing strategies from the domain adaptation literature but may not succeed in other cases. We propose a simple test to evaluate when our approach can be expected to work well and point towards further research to address current limitations.

arxiv情報

著者 David Grangier,Pierre Ablin,Awni Hannun
発行日 2023-11-20 18:01:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク