Model Fusion through Bayesian Optimization in Language Model Fine-Tuning

要約

下流タスク用に事前トレーニングされたモデルを微調整することは、さまざまなドメインにわたる適応性と信頼性で知られる広く採用されている手法です。
概念的には単純であるにもかかわらず、微調整には、ハイパーパラメーターの選択や最適化軌道からのチェックポイントの決定など、いくつかの面倒なエンジニアリング上の選択が伴います。
最適なモデルを選択するという困難に取り組むための 1 つの効果的な解決策は、パラメーター空間で複数のモデルを結合するモデル融合です。
ただし、事前トレーニングされた言語モデルの微調整中に、損失と計量ランドスケープの間に大きな不一致が観察されます。
この観察に基づいて、多目的ベイジアン最適化を通じて目的のメトリックと損失の両方を最適化する新しいモデル融合手法を導入します。
さらに、ハイパーパラメータを効果的に選択するために、ベイズ最適化プロセスをフレームワークに統合することにより 2 段階の手順を確立します。
さまざまな下流タスクにわたる実験では、ベイジアン最適化ガイド手法を使用してパフォーマンスが大幅に向上することが示されています。

要約(オリジナル)

Fine-tuning pre-trained models for downstream tasks is a widely adopted technique known for its adaptability and reliability across various domains. Despite its conceptual simplicity, fine-tuning entails several troublesome engineering choices, such as selecting hyperparameters and determining checkpoints from an optimization trajectory. To tackle the difficulty of choosing the best model, one effective solution is model fusion, which combines multiple models in a parameter space. However, we observe a large discrepancy between loss and metric landscapes during the fine-tuning of pre-trained language models. Building on this observation, we introduce a novel model fusion technique that optimizes both the desired metric and loss through multi-objective Bayesian optimization. In addition, to effectively select hyperparameters, we establish a two-stage procedure by integrating Bayesian optimization processes into our framework. Experiments across various downstream tasks show considerable performance improvements using our Bayesian optimization-guided method.

arxiv情報

著者 Chaeyun Jang,Hyungi Lee,Jungtaek Kim,Juho Lee
発行日 2024-12-27 04:27:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク