要約
さまざまなエージェントシステムに組み込まれた幅広い大型言語モデル(LLM)の可用性は、コストパフォーマンスのトレードオフを改善するためのモデル選択戦略の可能性を大幅に増加させました。
既存の戦略には、クエリごとに単一のモデルが選択されているルーティングまたはカスケードが含まれます。これは、満足のいく回答が見つかるまでますます大きなモデルを順番に実行します。
ただし、現在のアプローチは3つの重要な制限に直面しています。(1)最適性の正式な証拠がない、(2)これらの戦略がコストパフォーマンスのトレードオフを改善するために最も効果的である条件を特定できず、(3)組み合わせることができない
さらなる改善のための両方のパラダイム。
これらの問題に対処するために、最初にカスケードのための新しい最適戦略を導き出し、既存のルーティング戦略の最適性を証明します。
さらに、ルーティングとカスケードを理論的に最適な戦略に統合する統合されたフレームワークであるカスケードルーティングを提案します。
分析を通じて、良質の推定器をモデル選択パラダイムの成功の重要な要因として特定します。
最後に、私たちの実験では、カスケードルーティングが個々のアプローチを大きなマージンで一貫して上回ることを示し、品質推定器を分析して、ルーティングおよび/またはカスケードがモデル選択に役立つパラダイムであることを判断します。
要約(オリジナル)
The availability of a wide range of large language models (LLMs) embedded in various agentic systems has significantly increased the potential of model selection strategies to improve the cost-performance tradeoff. Existing strategies involve either routing, where a single model is chosen per query, or cascading, which sequentially runs increasingly larger models until a satisfactory answer is found. However, current approaches face three key limitations: they (1) lack formal proofs of optimality, (2) fail to identify the conditions under which these strategies are most effective to improve the cost-performance tradeoff, and (3) are unable to combine both paradigms for further improvements. To address these issues, we first derive a novel optimal strategy for cascading and prove the optimality of an existing routing strategy. Further, we propose cascade routing, a unified framework that integrates routing and cascading into a theoretically optimal strategy. Through our analysis, we identify good quality estimators as the critical factor for the success of model selection paradigms. Finally, in our experiments, we show that cascade routing consistently outperforms the individual approaches by a large margin and we analyze quality estimators to determine when routing and/or cascading are useful paradigms for model selection.
arxiv情報
著者 | Jasper Dekoninck,Maximilian Baader,Martin Vechev |
発行日 | 2025-02-14 13:13:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google