要約
オープンソースの大規模言語モデル (LLM) と、それらを比較するためのベンチマーク データセットの数が急速に増加しています。
一部のモデルはこれらのベンチマークを支配していますが、通常、すべてのタスクとユースケースで最高の精度を達成する単一のモデルはありません。
この作業では、新しいタスク用のモデルのコレクションから最適な LLM を選択するという課題に取り組みます。
我々は、この問題に対する新しい定式化を提案します。この定式化では、ベンチマーク データセットを再利用して、この LLM 選択の「ルーター」モデルを学習します。そして、この問題がバイナリ分類タスクのコレクションに還元できることを示します。
私たちは、さまざまなベンチマーク データセットからモデル ルーターを学習することの有用性と限界を実証し、すべてのタスクに対して単一のモデルを使用すると一貫してパフォーマンスが向上します。
要約(オリジナル)
There is a rapidly growing number of open-source Large Language Models (LLMs) and benchmark datasets to compare them. While some models dominate these benchmarks, no single model typically achieves the best accuracy in all tasks and use cases. In this work, we address the challenge of selecting the best LLM out of a collection of models for new tasks. We propose a new formulation for the problem, in which benchmark datasets are repurposed to learn a ‘router’ model for this LLM selection, and we show that this problem can be reduced to a collection of binary classification tasks. We demonstrate the utility and limitations of learning model routers from various benchmark datasets, where we consistently improve performance upon using any single model for all tasks.
arxiv情報
著者 | Tal Shnitzer,Anthony Ou,Mírian Silva,Kate Soule,Yuekai Sun,Justin Solomon,Neil Thompson,Mikhail Yurochkin |
発行日 | 2023-09-27 17:08:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google