要約
大規模言語モデル (LLM) は、さまざまなサイズと構成でクラウド API プロバイダーから入手できるようになりました。
この多様性により幅広い選択肢が提供されますが、オプションを効果的に活用して計算コストとパフォーマンスを最適化することは依然として困難です。
この研究では、小規模な LM からの出力のおおよその正確さに基づいて、クエリをより大きな LM に戦略的にルーティングするアプローチである Automix を紹介します。
Automix の中心となるのは 2 つの重要な技術的貢献です。
まず、数ショットの自己検証メカニズムがあり、大規模なトレーニングを必要とせずに自身の出力の信頼性を推定します。
第 2 に、自己検証にはノイズが多い可能性があることを考慮して、応答の信頼性に基づいて適切なサイズのモデルを効果的に選択できる POMDP ベースのルーターが採用されています。
5 つの言語モデルと 5 つの困難なデータセットにわたる実験では、Automix が一貫して強力なベースラインを上回り、同等のパフォーマンスで計算コストを 50% 以上削減していることが示されています。
要約(オリジナル)
Large language models (LLMs) are now available from cloud API providers in various sizes and configurations. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present Automix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to Automix are two key technical contributions. First, it has a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring extensive training. Second, given that self-verification can be noisy, it employs a POMDP based router that can effectively select an appropriately sized model, based on answer confidence. Experiments across five language models and five challenging datasets show that Automix consistently surpasses strong baselines, reducing computational cost by over 50% for comparable performance.
arxiv情報
著者 | Pranjal Aggarwal,Aman Madaan,Ankit Anand,Srividya Pranavi Potharaju,Swaroop Mishra,Pei Zhou,Aditya Gupta,Dheeraj Rajagopal,Karthik Kappaganthu,Yiming Yang,Shyam Upadhyay,Manaal Faruqui,Mausam |
発行日 | 2024-06-28 17:57:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google