要約
Mixture-of-Agents (MoA) は、大規模言語モデル (LLM) のパフォーマンスを向上させる方法として最近提案されており、複数の個別の LLM が協調推論のために連携できるようになります。
この協調的なアプローチにより、単一の LLM に依存する場合と比較して、ユーザー プロンプトに対する応答が向上します。
このペーパーでは、分散設定におけるこのような MoA アーキテクチャについて考察します。LLM は、それぞれがユーザーに固有に関連付けられ、独自の分散コンピューティング能力を備えた個別のエッジ デバイス上で動作します。
これらのデバイスは、分散ゴシップ アルゴリズムを使用して情報を交換し、集中サーバーの監視なしでさまざまなデバイス ノードが通信できるようにします。
検討したセットアップでは、さまざまなユーザーがユーザー プロンプトに対処するための独自の LLM モデルを持っています。
さらに、デバイスは独自のユーザー固有のプロンプトまたは拡張プロンプトをゴシップして、特定のクエリに対するより洗練された回答を生成します。
ユーザー プロンプトは、対応する LLM がビジー状態の場合、デバイス キューに一時的に保存されます。
エッジ デバイスのメモリ制限を考慮すると、システム内の平均キュー サイズが制限されたままであることを確認することが重要です。
このペーパーでは、合理的な仮定に基づいてデバイス キューのキュー安定性条件を理論的に計算し、実験的にも検証することでこの問題に対処します。
さらに、分散 MoA の実装にオープンソース LLM を活用した実験を通じて、AlpacaEval 2.0 ベンチマークで評価したように、特定の MoA 構成が他の構成と比較して高品質の応答を生成することを実証しました。
実装は https://github.com/purbeshmitra/distributed_moa から入手できます。
要約(オリジナル)
Mixture-of-Agents (MoA) has recently been proposed as a method to enhance performance of large language models (LLMs), enabling multiple individual LLMs to work together for collaborative inference. This collaborative approach results in improved responses to user prompts compared to relying on a single LLM. In this paper, we consider such an MoA architecture in a distributed setting, where LLMs operate on individual edge devices, each uniquely associated with a user and equipped with its own distributed computing power. These devices exchange information using decentralized gossip algorithms, allowing different device nodes to talk without the supervision of a centralized server. In the considered setup, different users have their own LLM models to address user prompts. Additionally, the devices gossip either their own user-specific prompts or augmented prompts to generate more refined answers to certain queries. User prompts are temporarily stored in the device queues when their corresponding LLMs are busy. Given the memory limitations of edge devices, it is crucial to ensure that the average queue sizes in the system remain bounded. In this paper, we address this by theoretically calculating the queuing stability conditions for the device queues under reasonable assumptions, which we validate experimentally as well. Further, we demonstrate through experiments, leveraging open-source LLMs for the implementation of distributed MoA, that certain MoA configurations produce higher-quality responses compared to others, as evaluated on AlpacaEval 2.0 benchmark. The implementation is available at: https://github.com/purbeshmitra/distributed_moa.
arxiv情報
著者 | Purbesh Mitra,Priyanka Kaswan,Sennur Ulukus |
発行日 | 2024-12-30 18:59:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google