Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning

要約

既存の事前に訓練された専門家LLMSを組み合わせることは、大規模で多様なタスクに拡大できるように取り組むための有望な手段です。
ただし、異種のタスクが各インスタンスで異なる専門知識を必要とする場合があるため、タスクレベルで専門家を選択することは粗すぎることがよくあります。
事前に訓練されたLLM専門家の適応的なインスタンスレベルの混合を可能にするために、シンボリック、テキストベース、グラデーションフリーのエクスパーの混合フレームワークであるSymbolic-Moeを提案します。
Symbolic-Moeは、たとえば、数学の代数や生物医学的推論における分子生物学の代数を強調することにより、選択に対してきめ細かいアプローチを取ります。
私たちは、その強みに基づいて多様な推論タスクに最も関連性の高い専門家LLMを動的に選択するスキルベースの採用戦略を提案します。
その後、選択された各エキスパートは独自の推論を生成し、Kの専門家からのK出力をもたらし、その後、多様な推論出力を統合する能力に基づいて選択されたアグリゲーターによって最終的な高品質の応答に合成されます。
Symbolic-Moeのインスタンスレベルのエキスパート選択により、パフォーマンスが大幅に向上するが、単純に実装されると、モデルの積み込みとオフロードが必要なため、高い計算オーバーヘッドを導入できることを示しています。
これに対処するために、割り当てられた専門家に基づいてインスタンスをグループ化するバッチ推論戦略を実装し、各モデルに1回のみロードします。
これにより、1つのGPUの16のエキスパートモデルを、4つのGPUを使用して以前のマルチエージェントベースラインに匹敵する時間以上の時間コストを統合できます。
多様なベンチマーク(MMLU-PRO、GPQA、AIME、およびMEDMCQA)に関する広範な評価を通じて、象徴的なMoEがGPT4O-MINIのような強力なLLMを上回ることを実証し、マルチエージェントアプローチでは、ベストマルチエージェントベースラインよりも8.15%の絶対平均改善があります。
さらに、Symbolic-Moeは、高価なマルチラウンドディスカッションの必要性を削除し、計算を少なくしてディスカッションベースラインを上回ります。

要約(オリジナル)

Combining existing pre-trained expert LLMs is a promising avenue for scalably tackling large-scale and diverse tasks. However, selecting experts at the task level is often too coarse-grained, as heterogeneous tasks may require different expertise for each instance. To enable adaptive instance-level mixing of pre-trained LLM experts, we propose Symbolic-MoE, a symbolic, text-based, and gradient-free Mixture-of-Experts framework. Symbolic-MoE takes a fine-grained approach to selection by emphasizing skills, e.g., algebra in math or molecular biology in biomedical reasoning. We propose a skill-based recruiting strategy that dynamically selects the most relevant set of expert LLMs for diverse reasoning tasks based on their strengths. Each selected expert then generates its own reasoning, resulting in k outputs from k experts, which are then synthesized into a final high-quality response by an aggregator chosen based on its ability to integrate diverse reasoning outputs. We show that Symbolic-MoE’s instance-level expert selection improves performance by a large margin but — when implemented naively — can introduce a high computational overhead due to the need for constant model loading and offloading. To address this, we implement a batch inference strategy that groups instances based on their assigned experts, loading each model only once. This allows us to integrate 16 expert models on 1 GPU with a time cost comparable to or better than prior multi-agent baselines using 4 GPUs. Through extensive evaluations on diverse benchmarks (MMLU-Pro, GPQA, AIME, and MedMCQA), we demonstrate that Symbolic-MoE outperforms strong LLMs like GPT4o-mini, as well as multi-agent approaches, with an absolute average improvement of 8.15% over the best multi-agent baseline. Moreover, Symbolic-MoE removes the need for expensive multi-round discussions, outperforming discussion baselines with less computation.

arxiv情報

著者 Justin Chih-Yao Chen,Sukwon Yun,Elias Stengel-Eskin,Tianlong Chen,Mohit Bansal
発行日 2025-03-07 18:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク