Online Cascade Learning for Efficient Inference over Streams

要約

大規模言語モデル (LLM) には、データ ストリームに関する複雑なクエリに答えるという当然の役割がありますが、LLM 推論の計算コストが高いため、そのようなタスクの多くでは LLM 推論を実行できません。
私たちは、この課題に対処する最初のアプローチであるオンライン カスケード学習を提案します。
ここでの目的は、低容量のモデル (ロジスティック回帰など) から始まり、強力な LLM で終わるモデルの「カスケード」と、特定の入力で使用するモデルを決定する遅延ポリシーを学習することです。
オンラインでカスケードを学習するタスクを模倣学習問題として定式化します。この問題では、収集された LLM のデモンストレーションを模倣して小さなモデルが時間の経過とともに更新され、この問題に対して後悔のないアルゴリズムが与えられます。
4 つのベンチマークにわたる実験結果は、私たちの手法が精度において LLM に匹敵する一方、入力分布のシフトに対する強力なロバスト性により推論コストを 90% も削減することを示しており、ストリーム処理におけるその有効性と適応性が強調されています。

要約(オリジナル)

Large Language Models (LLMs) have a natural role in answering complex queries about data streams, but the high computational cost of LLM inference makes them infeasible in many such tasks. We propose online cascade learning, the first approach to address this challenge. The objective here is to learn a ‘cascade’ of models, starting with lower-capacity models (such as logistic regression) and ending with a powerful LLM, along with a deferral policy that determines the model to be used on a given input. We formulate the task of learning cascades online as an imitation-learning problem, where smaller models are updated over time imitating the collected LLM demonstrations, and give a no-regret algorithm for the problem. Experimental results across four benchmarks show that our method parallels LLMs in accuracy while cutting down inference costs by as much as 90% with strong robustness against input distribution shifts, underscoring its efficacy and adaptability in stream processing.

arxiv情報

著者 Lunyiu Nie,Zhimin Ding,Erdong Hu,Christopher Jermaine,Swarat Chaudhuri
発行日 2024-05-31 15:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク