All Language Models Large and Small

要約

多くの主要な言語モデル (LM) は、トレーニング中と実行中の両方で大量の計算リソースを使用します。
これにより、導入のためのリソース コストの削減や、意思決定タスクの迅速な実行などの課題が生じます。
Language Optimizing Network Distribution (LONDI) フレームワークという新しいプラグ アンド プレイ LM フレームワークを紹介します。
LONDI は、複雑な意思決定と推論が必要な場合にのみ大規模な LM を選択的に使用し、それ以外の場合は低リソースの LM (つまり、LM は GPU の使用量が少なくて済みますが、単独では問題を解決できない可能性があります) を使用することを学習します。
LONDI は、2 つの (オフ) ポリシー ネットワーク、LM、大規模 LM (LLM)、およびスイッチング制御を使用して LLM を呼び出すシステム状態を迅速に学習する強化学習モジュールのシステムで構成されます。
次に、LLM 呼び出しの予算制約とそのリソース使用量を維持する LONDI のバリアントを紹介します。
理論的には、LONDI がシステム状態のサブセットを学習して、タスクを解決するために必要な LLM をアクティブにすることが証明されます。
次に、LONDI が LLM 呼び出しの予算制約を維持しながら最適な解に収束し、ほぼ確実に計算コストを大幅に削減しながらさまざまなタスクを解決できることを証明します。
私たちは、ScienceWorld と BabyAI-Text のさまざまなタスクで LONDI のパフォーマンスをテストし、GPU 使用率を最大 30% 削減しながら、リソース集約型の LLM でのみ解決可能なタスクを LONDI が解決できることを実証しました。

要約(オリジナル)

Many leading language models (LMs) use high-intensity computational resources both during training and execution. This poses the challenge of lowering resource costs for deployment and faster execution of decision-making tasks among others. We introduce a novel plug-and-play LM framework named Language Optimising Network Distribution (LONDI) framework. LONDI learns to selectively employ large LMs only where complex decision-making and reasoning are required while using low-resource LMs (i.e. LMs require less GPU usage, but may not be able to solve the problem alone) everywhere else. LONDI consists of a system of two (off-)policy networks, an LM, a large LM (LLM), and a reinforcement learning module that uses switching controls to quickly learn which system states to call the LLM. We then introduce a variant of LONDI that maintains budget constraints on LLM calls and hence its resource usage. Theoretically, we prove LONDI learns the subset of system states to activate the LLM required to solve the task. We then prove that LONDI converges to optimal solutions while also preserving budgetary constraints on LLM calls almost surely enabling it to solve various tasks while significantly lowering computational costs. We test LONDI’s performance in a range of tasks in ScienceWorld and BabyAI-Text and demonstrate that LONDI can solve tasks only solvable by resource-intensive LLMs while reducing GPU usage by up to 30%.

arxiv情報

著者 Zhixun Chen,Yali Du,David Mguni
発行日 2024-06-05 15:08:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク