要約
この論文では、ブラックボックス多目的最適化アルゴリズムを介して大規模言語モデルをマージするための新しいアプローチを紹介します。
モデルの結合の目標は、それぞれが異なるタスクに優れている複数のモデルを、個々のソース モデルのいずれよりも優れた単一のモデルに結合することです。
ただし、モデルの結合は 2 つの重大な課題に直面しています。まず、既存の方法は、複数のタスクに取り組むために人間の直感とカスタマイズされた戦略に大きく依存しています。
第 2 に、限られた評価で優れたモデル結合構成を検索するのは困難です。
これらの課題に対処するために、MM-MO と呼ばれる多目的最適化ベースのモデル結合手法を提案します。
提案手法は多目的最適化アルゴリズムを用いて複数のタスクのマージ構成を自動的に探索することができる。
さらに、限られた評価反復回数内で高品質のモデル結合構成を取得するために、モデル結合シナリオに特化した多目的ベイジアン最適化にいくつかの改良を加えました。
まず、買収戦略を改善するために、弱いものから強いものへの手法を導入しました。
次に、フィッシャー情報を使用して構成を選択し、優れたモデルを結合する構成を発見する可能性をさらに高めました。
3 番目に、さまざまなタスクにわたるモデルの汎化パフォーマンスを強化するための追加の最適化目標として、スパース性メトリックを設計しました。
私たちは他の主流のモデル結合手法を使用して包括的な実験を実施し、私たちの手法が一貫してそれらの手法を上回るパフォーマンスを示しました。
さらに、最適化目標として明示的に対象とされていないタスクでもパフォーマンスの向上が観察されており、この方法がモデルの全体的な可能性を高めていることを示しています。
…
要約(オリジナル)
In this paper, we introduce a novel approach for large language model merging via black-box multi-objective optimization algorithms. The goal of model merging is to combine multiple models, each excelling in different tasks, into a single model that outperforms any of the individual source models. However, model merging faces two significant challenges: First, existing methods rely heavily on human intuition and customized strategies to tackle multiple tasks. Second, it’s difficult to search for the great model merging configuration in limited evaluations. To address these challenges, we propose a multi-objective optimization based model merging method named MM-MO. The proposed method can automatically search merging configurations for multiple tasks with multi-objective optimization algorithms. Moreover, to obtain high-quality model merging configurations within a limited number of evaluation iterations, we have made several improvements to multi-objective Bayesian optimization specifically for model merging scenarios. First, we introduced a weak-to-strong method to improve the acquisition strategy. Second, we employed Fisher information to select configurations, further increasing the chances of discovering superior model merging configurations. Third, we designed a sparsity metric as an additional optimization objective to enhance the model’s generalization performance across different tasks. We conducted comprehensive experiments with other mainstream model merging methods, demonstrating that our method consistently outperforms them. Moreover, performance improvements are observed even on the tasks not explicitly targeted as optimization objectives, indicating that our method enhances the overall potential of the model. …
arxiv情報
著者 | Bingdong Li,Zixiang Di,Yanting Yang,Hong Qian,Peng Yang,Hao Hao,Ke Tang,Aimin Zhou |
発行日 | 2024-08-12 14:06:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google