A Survey on Model MoErging: Recycling and Routing Among Specialized Experts for Collaborative Learning

要約

パフォーマンスの高い事前トレーニング済みモデルが利用できるようになったことで、特定のドメインやタスクに特化した、細かく調整されたエキスパート モデルが急増しました。
モデル MoErging 手法は、エキスパート モデルをリサイクルして、パフォーマンスまたは一般化が向上した集合システムを作成することを目的としています。
MoErging メソッドの重要なコンポーネントは、特定の入力またはアプリケーションにどのエキスパート モデルを使用するかを決定するルーターの作成です。
MoErging の有望性、有効性、広い設計スペースにより、過去数年間に多くの新しい手法の開発が促進されました。
この急速な開発ペースにより、さまざまな MoErging 手法を比較することが困難になっていますが、これらの手法は互いに比較されることはほとんどなく、さまざまな実験設定で検証されることがよくあります。
このようなギャップを修正するために、主要な設計選択肢をカタログ化し、各手法に適したアプリケーションを明確にするための新しい分類法を含む、MoErging 手法の包括的な調査を紹介します。
MoErging 研究の調査とは別に、MoErging を利用するソフトウェア ツールとアプリケーションの一覧表を作成します。
さらに、モデルの結合、マルチタスク学習、専門家混合モデルなどの関連する研究分野についても説明します。
全体として、私たちの調査は既存の MoErging 手法の統一的な概要を提供し、この急成長する分野での将来の研究のための強固な基盤を構築します。

要約(オリジナル)

The availability of performant pre-trained models has led to a proliferation of fine-tuned expert models that are specialized to a particular domain or task. Model MoErging methods aim to recycle expert models to create an aggregate system with improved performance or generalization. A key component of MoErging methods is the creation of a router that decides which expert model(s) to use for a particular input or application. The promise, effectiveness, and large design space of MoErging has spurred the development of many new methods over the past few years. This rapid pace of development has made it challenging to compare different MoErging methods, which are rarely compared to one another and are often validated in different experimental setups. To remedy such gaps, we present a comprehensive survey of MoErging methods that includes a novel taxonomy for cataloging key design choices and clarifying suitable applications for each method. Apart from surveying MoErging research, we inventory software tools and applications that make use of MoErging. We additionally discuss related fields of study such as model merging, multitask learning, and mixture-of-experts models. Taken as a whole, our survey provides a unified overview of existing MoErging methods and creates a solid foundation for future work in this burgeoning field.

arxiv情報

著者 Prateek Yadav,Colin Raffel,Mohammed Muqeeth,Lucas Caccia,Haokun Liu,Tianlong Chen,Mohit Bansal,Leshem Choshen,Alessandro Sordoni
発行日 2024-08-13 17:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク