ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting

要約

バイレベル最適化は、さまざまな機械学習設定にわたってその有用性を示していますが、実際のアルゴリズムのほとんどは 2 次情報を必要とするため、スケールアップすることが困難です。
つい最近、バイレベル最適化問題に効果的に対処できる一次アルゴリズムのパラダイムが登場しました。
それにもかかわらず、このパラダイムの実際的な効率は、特に大規模言語モデル (LLM) のコンテキストにおいては未検証のままです。
このペーパーでは、大規模な LLM データ再重み付けのための 2 レベルの最適化に焦点を当てた、ScaleBiO と呼ばれるこのパラダイムの最初のスケーラブルなインスタンス化を紹介します。
最近提案された LISA と呼ばれるメモリ効率の高いトレーニング手法と組み合わせることで、当社の新しいアルゴリズムにより、このパラダイムを 8 つの A40 GPU 上で 340 億パラメータの LLM に拡張することができ、大規模な LLM の実際的なシナリオにおけるバイレベル最適化の適用に初めて成功しました。

データの再重み付けに関する広範な実験により、GPT-2、LLaMA-3-8B、GPT-NeoX-20B、Yi-34B などのさまざまなスケールのモデルに対する ScaleBiO の有効性が経験的に検証されています。
有益なサンプルを選択します。
理論的には、ScaleBiO は、学習されたデータの重みの最適性を保証するとともに、滑らかで強い凸の目標に対する従来の一次バイレベル最適化パラダイムに一致する収束保証を保証します。

要約(オリジナル)

Bilevel optimization has shown its utility across various machine learning settings, yet most algorithms in practice require second-order information, making it challenging to scale them up. Only recently, a paradigm of first-order algorithms emerged, capable of effectively addressing bilevel optimization problems. Nevertheless, the practical efficiency of this paradigm remains unverified, particularly in the context of large language models (LLMs). This paper introduces the first scalable instantiation of this paradigm called ScaleBiO, focusing on bilevel optimization for large-scale LLM data reweighting. By combining with a recently proposed memory-efficient training technique called LISA, our novel algorithm allows the paradigm to scale to 34-billion-parameter LLMs on eight A40 GPUs, marking the first successful application of bilevel optimization under practical scenarios for large-sized LLMs. Empirically, extensive experiments on data reweighting verify the effectiveness of ScaleBiO for different-scaled models, including GPT-2, LLaMA-3-8B, GPT-NeoX-20B, and Yi-34B, where bilevel optimization succeeds in filtering irrelevant data samples and selecting informative samples. Theoretically, ScaleBiO ensures the optimality of the learned data weights, along with a convergence guarantee matching the conventional first-order bilevel optimization paradigm on smooth and strongly convex objectives.

arxiv情報

著者 Rui Pan,Jipeng Zhang,Xingyuan Pan,Renjie Pi,Xiaoyu Wang,Tong Zhang
発行日 2024-06-28 15:03:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク