要約
基礎となる大規模言語モデル(LLM)の開発は、ますますコストがかかり非効率的になりつつある。また、クローズドソースや大規模なオープンソースのモデルは、一般的に、より良い応答品質を提供しますが、より小さなモデルよりも高い推論コストを伴います。本論文では、性能、コスト、効率に基づいて、特定のプロンプトに対するLLMの選択を最適化するように設計されたアーキテクチャであるRoutooを紹介する。Routooは、性能予測器とコストを考慮したデコーディングの2つの主要コンポーネントから構成される。性能予測器は軽量なLLMであり、様々なLLMを実行・評価することなく、その性能を推定する。コスト考慮デコーディングは、これらの予測やコストやレイテンシなどの制約に基づいて、最適なモデルを選択します。オープンソースモデルを採用した57のドメインにおいて、MMLUベンチマークを用いてRoutooを評価しました。その結果、Routooは推論コストを3分の1に削減しながら、Mixtral 8x7bモデルの性能に匹敵することがわかりました。さらに、コストの増加を許容することで、Routooは同等のコストでMixtralの精度を5%以上上回り、75.9%の精度を達成しました。GPT4をモデルプールに統合した場合、Routooは半分のコストでGPT4の性能にほぼ匹敵し、25%のコスト削減でGPT4を上回りました。これらの結果は、Routooが複数のLLMの集合的な知識を活用することで、費用対効果の高い方法で新しいSOTAを作成できる可能性を強調しています。
要約(オリジナル)
Developing foundational large language models (LLMs) is becoming increasingly costly and inefficient. Also, closed-source and larger open-source models generally offer better response quality but come with higher inference costs than smaller models. In this paper, we introduce Routoo, an architecture designed to optimize the selection of LLMs for specific prompts based on performance, cost, and efficiency. Routoo consists of two key components: a performance predictor and a cost-aware decoding. The performance predictor is a lightweight LLM that estimates the performance of various underlying LLMs without needing to execute and evaluate them. The cost-aware decoding then selects the most suitable model based on these predictions and other constraints like cost and latency. We evaluated Routoo using the MMLU benchmark across 57 domains employing open-source models. Our results show that Routoo matches the performance of the Mixtral 8x7b model while reducing inference costs by one-third. Additionally, by allowing increased costs, Routoo surpasses Mixtral’s accuracy by over 5% at equivalent costs, achieving an accuracy of 75.9%. When integrating GPT4 into our model pool, Routoo nearly matches GPT4’s performance at half the cost and exceeds it with a 25% cost reduction. These outcomes highlight Routoo’s potential to create new SOTA in a cost-effective manner by leveraging the collective knowledge of multiple LLMs.
arxiv情報
著者 | Alireza Mohammadshahi,Arshad Rafiq Shaikh,Majid Yazdani |
発行日 | 2024-08-02 14:50:05+00:00 |
arxivサイト | arxiv_id(pdf) |