要約
混合混合物(MOE)大手言語モデル(LLMS)は厳しい最適な専門家の経路に苦しんでいます。私たちの研究は、事前トレーニングから学んだ素朴な専門家の選択が改善のために驚くべき10-20%の精度ギャップを残していることを明らかにしています。
この観察に動機付けられて、各テストサンプルの異なる層の専門家を再重視または「再混合」するためのテスト時間最適化方法の新しいクラスを開発します。
テストサンプルのグラウンドトゥルースは不明であるため、サンプルのサンプルの参照セットからサンプルの「成功した隣人」によって定義された代理目標を最適化することを提案します。
モード検索、カーネル回帰、および同様の参照サンプル/タスクの平均損失に基づいて、3つのサロゲートとアルゴリズムを導入します。
経路全体を最適化するコストを削減するために、アルゴリズムを単にコア専門家の混合重量を臨界層の混合に適用します。
これは、「クリティカルレイヤー、コアエンパート、共同経路最適化(C3PO)」につながります。
C3POを最近2つのMOE LLMSに適用し、6つの広く使用されているベンチマークで調べます。
基本モデルは一貫して精度が7〜15%改善され、広く使用されているテスト時間学習ベースライン、たとえばコンテキスト内学習やプロンプト/プレフィックスチューニングを大きなマージンで上回ります。
さらに、C3POは、1-3Bのアクティブパラメーターを備えたMOE LLMSが7-9BパラメーターのLLMSを上回ることができるため、効率に対するMOEの利点を改善します。
私たちの徹底的なアブレーション研究は、MOEでのテスト時間の改善を達成することに関する新しい洞察をさらに断ります。
要約(オリジナル)
Mixture-of-Experts (MoE) Large Language Models (LLMs) suffer from severely sub-optimal expert pathways-our study reveals that naive expert selection learned from pretraining leaves a surprising 10-20% accuracy gap for improvement. Motivated by this observation, we develop a novel class of test-time optimization methods to re-weight or ‘re-mixing’ the experts in different layers jointly for each test sample. Since the test sample’s ground truth is unknown, we propose to optimize a surrogate objective defined by the sample’s ‘successful neighbors’ from a reference set of samples. We introduce three surrogates and algorithms based on mode-finding, kernel regression, and the average loss of similar reference samples/tasks. To reduce the cost of optimizing whole pathways, we apply our algorithms merely to the core experts’ mixing weights in critical layers, which enjoy similar performance but save significant computation. This leads to ‘Critical-Layer, Core-Expert, Collaborative Pathway Optimization (C3PO)’. We apply C3PO to two recent MoE LLMs and examine it on six widely-used benchmarks. It consistently improves the base model by 7-15% in accuracy and outperforms widely used test-time learning baselines, e.g., in-context learning and prompt/prefix tuning, by a large margin. Moreover, C3PO enables MoE LLMs with 1-3B active parameters to outperform LLMs of 7-9B parameters, hence improving MoE’s advantages on efficiency. Our thorough ablation study further sheds novel insights on achieving test-time improvement on MoE.
arxiv情報
著者 | Zhongyang Li,Ziyue Li,Tianyi Zhou |
発行日 | 2025-04-10 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google