RouterBench: A Benchmark for Multi-LLM Routing System

要約

大規模言語モデル (LLM) のアプリケーションの範囲が拡大し続けるにつれて、効果的なサービス提供ソリューションの需要がますます重要になっています。
LLM の多用途性にもかかわらず、特にパフォーマンスとコストのバランスをとる場合、単一のモデルですべてのタスクとアプリケーションに最適に対処できることはありません。
この制限は、さまざまなモデルの長所を組み合わせて個々の LLM の制約を克服する LLM ルーティング システムの開発につながりました。
しかし、LLM ルーターのパフォーマンスを評価するための標準化されたベンチマークが存在しないため、この分野の進歩は妨げられています。
このギャップを埋めるために、LLM ルーティング システムの有効性を体系的に評価するように設計された新しい評価フレームワークである RouterBench と、ルーティング戦略の開発をサポートする代表的な LLM からの 405,000 を超える推論結果で構成される包括的なデータセットを紹介します。
さらに、LLM ルーティングの理論的フレームワークを提案し、RouterBench を介してさまざまなルーティング アプローチの比較分析を提供し、評価フレームワーク内での可能性と限界を強調します。
この取り組みは、LLM ルーティング システムの開発を形式化して推進するだけでなく、その評価の標準を設定し、よりアクセスしやすく経済的に実行可能な LLM 展開への道を開きます。
コードとデータは https://github.com/withmartian/routerbench で入手できます。

要約(オリジナル)

As the range of applications for Large Language Models (LLMs) continues to grow, the demand for effective serving solutions becomes increasingly critical. Despite the versatility of LLMs, no single model can optimally address all tasks and applications, particularly when balancing performance with cost. This limitation has led to the development of LLM routing systems, which combine the strengths of various models to overcome the constraints of individual LLMs. Yet, the absence of a standardized benchmark for evaluating the performance of LLM routers hinders progress in this area. To bridge this gap, we present RouterBench, a novel evaluation framework designed to systematically assess the efficacy of LLM routing systems, along with a comprehensive dataset comprising over 405k inference outcomes from representative LLMs to support the development of routing strategies. We further propose a theoretical framework for LLM routing, and deliver a comparative analysis of various routing approaches through RouterBench, highlighting their potentials and limitations within our evaluation framework. This work not only formalizes and advances the development of LLM routing systems but also sets a standard for their assessment, paving the way for more accessible and economically viable LLM deployments. The code and data are available at https://github.com/withmartian/routerbench.

arxiv情報

著者 Qitian Jason Hu,Jacob Bieker,Xiuyu Li,Nan Jiang,Benjamin Keigwin,Gaurav Ranganath,Kurt Keutzer,Shriyash Kaustubh Upadhyay
発行日 2024-03-28 17:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク