MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs

要約

機械学習 (ML) の急速な進歩により、さまざまなタスクや分野で優れた多くの大規模言語モデル (LLM) が生み出されました。
これらの LLM には、計算や価格設定の点でさまざまな機能とコストが伴います。
クエリごとの需要は、クエリ対象のドメインやその複雑さなどにより変化する可能性があるため、アプリケーション内で 1 つの LLM をデフォルトにすることは、それが最大のもの、最も高価なもの、または最も平均的なものであっても、通常は最良の選択ではありません。
テストのパフォーマンス。
したがって、アプリケーションにとって正確かつコスト効率の高い適切な LLM を選択することは依然として課題です。
このペーパーでは、分類タスクに各クエリを (複数の利用可能な LLM の中から) 最適な LLM に動的かつインテリジェントにルーティングし、精度とコスト効率の大幅な向上を実現するフレームワークである MetaLLM を紹介します。
MetaLLM は、選択問題をマルチアーム バンディットとして構成することで、不確実性の下での予測精度とコスト効率のバランスをとります。
OpenAI の GPT モデル、Amazon の Titan、Anthropic の Claude、Meta の LLaMa などの人気のある LLM プラットフォームで行われた私たちの実験は、現実世界のシナリオにおける MetaLLM の有効性を示し、分類タスクを超えた将来の拡張のための基礎を築きました。

要約(オリジナル)

The rapid progress in machine learning (ML) has brought forth many large language models (LLMs) that excel in various tasks and areas. These LLMs come with different abilities and costs in terms of computation or pricing. Since the demand for each query can vary, e.g., because of the queried domain or its complexity, defaulting to one LLM in an application is not usually the best choice, whether it is the biggest, priciest, or even the one with the best average test performance. Consequently, picking the right LLM that is both accurate and cost-effective for an application remains a challenge. In this paper, we introduce MetaLLM, a framework that dynamically and intelligently routes each query to the optimal LLM (among several available LLMs) for classification tasks, achieving significantly improved accuracy and cost-effectiveness. By framing the selection problem as a multi-armed bandit, MetaLLM balances prediction accuracy and cost efficiency under uncertainty. Our experiments, conducted on popular LLM platforms such as OpenAI’s GPT models, Amazon’s Titan, Anthropic’s Claude, and Meta’s LLaMa, showcase MetaLLM’s efficacy in real-world scenarios, laying the groundwork for future extensions beyond classification tasks.

arxiv情報

著者 Quang H. Nguyen,Duy C. Hoang,Juliette Decugis,Saurav Manchanda,Nitesh V. Chawla,Khoa D. Doan
発行日 2024-07-15 15:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク