Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection

要約

限られた予算の中で活動している研究者や実務家は、コストと性能のトレードオフのジレンマに直面している。多くの場合、性能の良い大型のLLMを使うか、コストを抑えた小型のLLMを使うかという難しい決断が中心となる。このことが、LLMコールの最適化に関する最近の研究の動機となっている。より小さなLLMまたはその両方が順次呼び出されるカスケード戦略が使用されるか、1つのモデルだけが呼び出されるルーティング戦略が使用される。どちらのシナリオも、一般的に余分なニューラルモデルによって実装される決定基準に依存する。本研究では、より単純な解決策を提案する。小さなLLMの世代の不確実性だけを判断基準として使用する。事前に訓練された大小のLLMの3つのペアを用いて、カスケード戦略とルーティング戦略の両方のアプローチを、9つの異なるタスクで、また追加のニューラルモデルを必要とするアプローチと比較する。我々の実験により、この単純なソリューションがコストと性能のバランスを最適化し、27の実験セットアップのうち25で既存の手法を上回ることが明らかになった。

要約(オリジナル)

Researchers and practitioners operating on a limited budget face the cost-performance trade-off dilemma. The challenging decision often centers on whether to use a large LLM with better performance or a smaller one with reduced costs. This has motivated recent research in the optimisation of LLM calls. Either a cascading strategy is used, where a smaller LLM or both are called sequentially, or a routing strategy is used, where only one model is ever called. Both scenarios are dependent on a decision criterion which is typically implemented by an extra neural model. In this work, we propose a simpler solution; we use only the uncertainty of the generations of the small LLM as the decision criterion. We compare our approach with both cascading and routing strategies using three different pairs of pre-trained small and large LLMs, on nine different tasks and against approaches that require an additional neural model. Our experiments reveal this simple solution optimally balances cost and performance, outperforming existing methods on 25 out of 27 experimental setups.

arxiv情報

著者 Guillem Ramírez,Alexandra Birch,Ivan Titov
発行日 2024-05-03 14:38:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク