How to Merge Your Multimodal Models Over Time?

要約

モデルの結合では、さまざまなタスクやドメインに関する基本基盤モデルから微調整された複数のエキスパート モデルを、より有能な単一のモデルに結合します。
ただし、既存のモデル結合アプローチのほとんどは、すべてのエキスパートが同時に対応できることを前提としています。
実際には、時間の経過とともに新しいタスクやドメインが徐々に出現し、利用可能になったエキスパート モデルの知識を統合する戦略が必要になります。これを私たちは時間モデル マージと呼んでいます。
時間的次元では、以前の研究では対処できなかった独自の課題が導入され、次のような新たな疑問が生じます。新しいタスクのトレーニングを行う場合、エキスパート モデルはマージされた過去のエキスパートから開始する必要があるのか​​、それとも元のベース モデルから開始する必要があるのか​​?
各タイムステップですべてのモデルをマージする必要がありますか?
時間的マージにはどのマージ手法が最適ですか?
トレーニングの初期化とモデルのデプロイには別の戦略を使用する必要がありますか?
これらの質問に答えるために、私たちは TIME (モデル専門知識の時間的統合) と呼ばれる統一フレームワークを提案します。これは、(1) 初期化フェーズ、(2) デプロイメント フェーズ、および (3) マージ手法の 3 つの軸にわたって時間的モデルをマージすることを定義します。
TIME を使用して、FoMo-in-Flux ベンチマークでのモデル サイズ、計算予算、学習期間にわたる時間モデルのマージを研究します。
TIME にわたる包括的な一連の実験により、時間モデルのマージに関する重要な洞察を明らかにすることができ、現在の課題と効果的な時間モデルのマージのためのベスト プラクティスをより深く理解できるようになります。

要約(オリジナル)

Model merging combines multiple expert models – finetuned from a base foundation model on diverse tasks and domains – into a single, more capable model. However, most existing model merging approaches assume that all experts are available simultaneously. In reality, new tasks and domains emerge progressively over time, requiring strategies to integrate the knowledge of expert models as they become available: a process we call temporal model merging. The temporal dimension introduces unique challenges not addressed in prior work, raising new questions such as: when training for a new task, should the expert model start from the merged past experts or from the original base model? Should we merge all models at each time step? Which merging techniques are best suited for temporal merging? Should different strategies be used to initialize the training and deploy the model? To answer these questions, we propose a unified framework called TIME – Temporal Integration of Model Expertise – which defines temporal model merging across three axes: (1) Initialization Phase, (2) Deployment Phase, and (3) Merging Technique. Using TIME, we study temporal model merging across model sizes, compute budgets, and learning horizons on the FoMo-in-Flux benchmark. Our comprehensive suite of experiments across TIME allows us to uncover key insights for temporal model merging, offering a better understanding of current challenges and best practices for effective temporal model merging.

arxiv情報

著者 Sebastian Dziadzio,Vishaal Udandarao,Karsten Roth,Ameya Prabhu,Zeynep Akata,Samuel Albanie,Matthias Bethge
発行日 2024-12-09 18:01:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク