A Practitioner’s Guide to Continual Multimodal Pretraining

要約

マルチモーダル基盤モデルは、視覚と言語の交差点で数多くのアプリケーションに役立ちます。
それでも、広範なデータに基づいて事前トレーニングされているにもかかわらず、時間の経過とともにそれらは古くなります。
モデルを最新の状態に保つため、継続的な事前トレーニングの研究では主に、(1) 大規模な新しいデータに対する頻度の低い無差別な更新、または (2) サンプルレベルの頻繁な更新のいずれかのシナリオが検討されます。
ただし、実際のモデルの展開は、多くの場合、これら 2 つの限界ケースの間のギャップで動作します。これは、現実世界のアプリケーションでは、特定のサブドメイン、タスク、または概念への適応が必要になることが多く、モデルのさまざまなライフ サイクル全体にまたがるからです。
この作業では、研究テストベッドを通じた継続的な事前トレーニングに関する現在の視点を補完するとともに、そのようなシナリオで効果的に継続的にモデルを更新するための包括的なガイダンスを提供します。
まず、現実的なコンピューティング制約と実際的な展開要件を備えた継続的なマルチモーダル事前トレーニング ベンチマークである FoMo-in-Flux を紹介します。これは、多様なビジュアルおよびセマンティックをカバーする 63 以上のデータセットを構築しました。
FoMo-in-Flux を使用して、実際の継続的事前トレーニングの複雑な状況を複数の観点から調査します: (1) 現実世界の展開状況をエミュレートするデータ混合とストリーム順序付けのデータ中心の調査、(2) メソッド中心の調査
これには、単純な微調整や従来の継続的な学習戦略から、パラメーター効率の高い更新やモデルのマージまで、(3) メタ学習率のスケジュールと機構設計の選択、(4) モデルとコンピューティングのスケーリングの影響が含まれます。
私たちの洞察は、実際の展開に向けた継続的なマルチモーダル事前トレーニングへの実践者向けのガイドを提供します。
私たちのベンチマークとコードはここにあります: https://github.com/ExplainableML/fomo_in_flux。

要約(オリジナル)

Multimodal foundation models serve numerous applications at the intersection of vision and language. Still, despite being pretrained on extensive data, they become outdated over time. To keep models updated, research into continual pretraining mainly explores scenarios with either (1) infrequent, indiscriminate updates on large-scale new data, or (2) frequent, sample-level updates. However, practical model deployment often operates in the gap between these two limit cases, as real-world applications often demand adaptation to specific subdomains, tasks or concepts — spread over the entire, varying life cycle of a model. In this work, we complement current perspectives on continual pretraining through a research test bed as well as provide comprehensive guidance for effective continual model updates in such scenarios. We first introduce FoMo-in-Flux, a continual multimodal pretraining benchmark with realistic compute constraints and practical deployment requirements, constructed over 63 datasets with diverse visual and semantic coverage. Using FoMo-in-Flux, we explore the complex landscape of practical continual pretraining through multiple perspectives: (1) A data-centric investigation of data mixtures and stream orderings that emulate real-world deployment situations, (2) a method-centric investigation ranging from simple fine-tuning and traditional continual learning strategies to parameter-efficient updates and model merging, (3) meta learning rate schedules and mechanistic design choices, and (4) the influence of model and compute scaling. Together, our insights provide a practitioner’s guide to continual multimodal pretraining for real-world deployment. Our benchmark and code is here: https://github.com/ExplainableML/fomo_in_flux.

arxiv情報

著者 Karsten Roth,Vishaal Udandarao,Sebastian Dziadzio,Ameya Prabhu,Mehdi Cherti,Oriol Vinyals,Olivier Hénaff,Samuel Albanie,Matthias Bethge,Zeynep Akata
発行日 2024-08-26 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク