要約
大規模言語モデル (LLM) は、幅広いタスクにわたって優れた機能を発揮しますが、どのモデルを使用するかの選択には、多くの場合、パフォーマンスとコストのトレードオフが関係します。
より強力なモデルは効果的ではありますが、費用が高くなりますが、機能が低いモデルの方がコスト効率が高くなります。
このジレンマに対処するために、コストと応答品質のバランスを最適化することを目的として、推論中に強力な LLM と弱い LLM を動的に選択する効率的なルーター モデルをいくつか提案します。
私たちは、パフォーマンスを向上させるために人間の好みのデータとデータ拡張技術を活用して、これらのルーターのトレーニング フレームワークを開発します。
広く認知されているベンチマークに対する当社の評価では、当社のアプローチが応答の品質を損なうことなく、コストを大幅に (場合によっては 2 倍以上) 削減できることがわかりました。
興味深いことに、当社のルーター モデルは重要な転移学習機能も実証しており、テスト時に強いモデルと弱いモデルが変更された場合でもパフォーマンスを維持します。
これは、LLM を展開するためのコスト効率が高く、かつ高性能のソリューションを提供するこれらのルーターの可能性を強調しています。
要約(オリジナル)
Large language models (LLMs) exhibit impressive capabilities across a wide range of tasks, yet the choice of which model to use often involves a trade-off between performance and cost. More powerful models, though effective, come with higher expenses, while less capable models are more cost-effective. To address this dilemma, we propose several efficient router models that dynamically select between a stronger and a weaker LLM during inference, aiming to optimize the balance between cost and response quality. We develop a training framework for these routers leveraging human preference data and data augmentation techniques to enhance performance. Our evaluation on widely-recognized benchmarks shows that our approach significantly reduces costs-by over 2 times in certain cases-without compromising the quality of responses. Interestingly, our router models also demonstrate significant transfer learning capabilities, maintaining their performance even when the strong and weak models are changed at test time. This highlights the potential of these routers to provide a cost-effective yet high-performance solution for deploying LLMs.
arxiv情報
著者 | Isaac Ong,Amjad Almahairi,Vincent Wu,Wei-Lin Chiang,Tianhao Wu,Joseph E. Gonzalez,M Waleed Kadous,Ion Stoica |
発行日 | 2024-07-01 05:38:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google