SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models

要約

大規模な言語モデル(LLM)は、さまざまなアプリケーションでの顕著なパフォーマンスのために広く採用されており、多数の多様なモデルの加速開発を促進しています。
ただし、これらの個々のLLMは、固有のトレーニングバイアス、モデルサイズの制約、およびトレーニング前のデータセットの品質または多様性による複雑なタスクの一般化とパフォーマンスの制限を示しています。
有望な方向性は、LLMの多様な能力を効率的に活用して、これらの個々の制限を克服することです。
これらの制限に対処するために、SelectLLMと呼ばれる新しいLLM選択アルゴリズムを導入します。これは、大規模なプールからLLMSの最も適切なサブセットに入力クエリを効率的に向け、選択したモデルがまとめて正確な応答を提供するようにします。
SelectLLMは、LLMSの最適、クエリ対応、および軽量サブセットを選択する際の分類器の予測と信頼性スコアに基づいて、マルチラベル分類器とポリシーを採用しています。
私たちの調査結果は、提案されたモデルが既存のアンサンブルベースのベースラインよりも優れており、効率を維持しながら、同様にサイズのトップパフォーマンスのLLMで競争力のあるパフォーマンスを達成することを示しています。
具体的には、最高のパフォーマンスのベースラインと比較して、GSM8Kで13%、MMLUで70%である2つの挑戦的な推論ベンチマークで推論レイテンシの大幅な減少を達成します。
また、LLMSを備えたOracleによって理論上の上限を確立し、OracleとSelectLLMのパフォーマンスギャップを理解するために、詳細な言語分析を実行します。

要約(オリジナル)

Large language models (LLMs) have been widely adopted due to their remarkable performance across various applications, driving the accelerated development of a large number of diverse models. However, these individual LLMs show limitations in generalization and performance on complex tasks due to inherent training biases, model size constraints, and the quality or diversity of pre-training datasets. A promising direction is to efficiently harness the diverse capabilities of LLMs to overcome these individual limitations. To address these limitations, we introduce a novel LLM selection algorithm called SelectLLM, which efficiently directs input queries to the most suitable subset of LLMs from a large pool, ensuring that the selected models collectively provide accurate responses. SelectLLM employs a multi-label classifier and policy based on the classifier’s predictions and confidence scores in selecting an optimal, query-aware, and lightweight subset of LLMs. Our findings indicate that the proposed model outperforms existing ensemble-based baselines and achieves competitive performance with similarly sized top-performing LLMs while maintaining efficiency. Specifically, it achieves a huge reduction in inference latency on two challenging reasoning benchmarks: 13% on GSM8K and 70% on MMLU, compared to the top-performing baseline. Also, we establish a theoretical upper bound by an Oracle with LLMs and perform an in-depth linguistic analysis to understand the performance gap between the Oracle and SelectLLM.

arxiv情報

著者 Kaushal Kumar Maurya,KV Aditya Srivatsa,Ekaterina Kochmar
発行日 2025-02-28 13:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク