Cache & Distil: Optimising API Calls to Large Language Models

要約

生成 AI ツールの大規模な展開は、多くの場合、ユーザーのクエリを満たすために大規模言語モデル (LLM) へのコストのかかる API 呼び出しに依存します。
このような呼び出しの頻度を抑えるために、LLM の応答に基づいて継続的にトレーニングされる、より小さな言語モデル (学生) を採用できます。
この学生は、増加するユーザー リクエストを個別に処理する能力 (ニューラル キャッシュと呼ばれるプロセス) に徐々に慣れていきます。
ニューラル キャッシュの重要な要素は、どのリクエストを学生のみが処理する必要があり、どのリクエストを LLM にリダイレクトして、その後学生の学習を支援するかを決定するポリシーです。
この研究では、分類タスクに焦点を当て、ポリシーとして古典的なアクティブ ラーニングに基づく一連の選択基準を検討します。
私たちの実験では、委員会によるマージンサンプリングとクエリが、タスクと予算全体にわたって一貫したメリットをもたらすことを示唆しています。

要約(オリジナル)

Large-scale deployment of generative AI tools often depends on costly API calls to a Large Language Model (LLM) to fulfil user queries. To curtail the frequency of these calls, one can employ a smaller language model — a student — which is continuously trained on the responses of the LLM. This student gradually gains proficiency in independently handling an increasing number of user requests, a process we term neural caching. The crucial element in neural caching is a policy that decides which requests should be processed by the student alone and which should be redirected to the LLM, subsequently aiding the student’s learning. In this study, we focus on classification tasks, and we consider a range of classic active learning-based selection criteria as the policy. Our experiments suggest that Margin Sampling and Query by Committee bring consistent benefits across tasks and budgets.

arxiv情報

著者 Guillem Ramírez,Matthias Lindemann,Alexandra Birch,Ivan Titov
発行日 2023-10-20 15:01:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク