SpectR: Dynamically Composing LM Experts with Spectral Routing

要約

大規模で汎用的な言語モデルの学習には大きな課題がある。特定のタスクやドメイン用に事前に訓練されたモデルから微調整された専門家モデルの利用可能性が高まっており、有望な代替手段を提供している。このような既存のエキスパートモデルの可能性を実世界のアプリケーションで活用するためには、与えられたタスクに最適なモデルを選択したりマージしたりする効果的な手法が必要である。本稿では、推論中の時間ステップ毎にエキスパートモデルを動的に合成するアプローチであるSPECTRを紹介する。本手法は追加の学習を必要とせず、トークン単位やレイヤ単位での柔軟なモデルの組み合わせが可能であることが特徴である。実験の結果、SPECTRは学習不要な代替手法よりもルーティング精度を向上させ、エキスパート領域におけるタスク性能を向上させることが実証された。

要約(オリジナル)

Training large, general-purpose language models poses significant challenges. The growing availability of specialized expert models, fine-tuned from pretrained models for specific tasks or domains, offers a promising alternative. Leveraging the potential of these existing expert models in real-world applications requires effective methods to select or merge the models best suited for a given task. This paper introduces SPECTR, an approach for dynamically composing expert models at each time step during inference. Notably, our method requires no additional training and enables flexible, token- and layer-wise model combinations. Our experimental results demonstrate that SPECTR improves routing accuracy over alternative training-free methods, increasing task performance across expert domains.

arxiv情報

著者 William Fleshman,Benjamin Van Durme
発行日 2025-04-04 13:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク