Fusing Models with Complementary Expertise

要約

タスクやドメイン全体で一般化する AI モデルのトレーニングは、長い間、AI 研究を推進する未解決の問題の 1 つでした。
基礎モデルの出現により、特定のタスクのエキスパート モデルを入手することが容易になりましたが、テスト時に遭遇する可能性のあるデータの異種性により、単一のエキスパートでは不十分であることがよくあります。
私たちは、エキスパート モデルの出力とデータ分布の補完的な知識を融合する Fusion of Experts (FoE) 問題を考慮し、それを教師あり学習のインスタンスとして定式化します。
私たちの方法は、識別タスクと生成タスクの両方に適用でき、画像とテキストの分類、テキストの要約、多肢選択式 QA、生成されたテキストの自動評価のパフォーマンスの大幅な向上につながります。
また、テスト時のエキスパート モデル評価の数を減らすことが望ましい「倹約」設定にもこの方法を拡張します。
私たちの実装は https://github.com/hwang595/FoE-ICLR2024 で公開されています。

要約(オリジナル)

Training AI models that generalize across tasks and domains has long been among the open problems driving AI research. The emergence of Foundation Models made it easier to obtain expert models for a given task, but the heterogeneity of data that may be encountered at test time often means that any single expert is insufficient. We consider the Fusion of Experts (FoE) problem of fusing outputs of expert models with complementary knowledge of the data distribution and formulate it as an instance of supervised learning. Our method is applicable to both discriminative and generative tasks and leads to significant performance improvements in image and text classification, text summarization, multiple-choice QA, and automatic evaluation of generated text. We also extend our method to the ‘frugal’ setting where it is desired to reduce the number of expert model evaluations at test time. Our implementation is publicly available at https://github.com/hwang595/FoE-ICLR2024.

arxiv情報

著者 Hongyi Wang,Felipe Maia Polo,Yuekai Sun,Souvik Kundu,Eric Xing,Mikhail Yurochkin
発行日 2024-05-09 16:04:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク