Distributed Inference and Fine-tuning of Large Language Models Over The Internet

要約

大規模言語モデル (LLM) は、多くの NLP タスクで役立ち、サイズが大きくなるほど能力が向上し、最高のオープンソース モデルには 500 億を超えるパラメーターがあります。
ただし、これらの 500 億以上のモデルを使用するにはハイエンドのハードウェアが必要なため、ほとんどの研究者はアクセスできません。
この研究では、ローカル戦略と分散戦略を比較しながら、コスト効率の高い推論と LLM の微調整の方法を調査します。
十分な規模のモデル (50B+) は、消費者向けネットワーク内の地理分散デバイス上でも効率的に実行できることがわかりました。
これにより、複数の研究グループやボランティアのアイドル状態のコンピューティング リソースをプールして、LLM を効率的に実行できるようになります。
私たちは 2 つの未解決の問題に対処します。(1) デバイスが突然切断される可能性がある場合に推論と微調整を確実に実行する方法、および (2) 均等でないハードウェアを備えたデバイス間で LLM を分割し、自由に参加および離脱する方法です。
これを実現するために、システム全体のスループットを最大化するためにデバイスを自動的に割り当てる特別な耐障害性推論アルゴリズムと負荷分散プロトコルを開発しました。
これらのアルゴリズムを Petals で紹介します。Petals は、インタラクティブな生成のためのオフロードよりも最大 10 倍高速にインターネット経由で Llama 2 (70B) と BLOOM (176B) を実行する分散システムです。
私たちは、シミュレートされた条件と 2 つの大陸にまたがる現実世界の設定でシステムのパフォーマンスを評価します。

要約(オリジナル)

Large language models (LLMs) are useful in many NLP tasks and become more capable with size, with the best open-source models having over 50 billion parameters. However, using these 50B+ models requires high-end hardware, making them inaccessible to most researchers. In this work, we investigate methods for cost-efficient inference and fine-tuning of LLMs, comparing local and distributed strategies. We observe that a large enough model (50B+) can run efficiently even on geodistributed devices in a consumer-grade network. This could allow running LLM efficiently by pooling together idle compute resources of multiple research groups and volunteers. We address two open problems: (1) how to perform inference and fine-tuning reliably if any device can disconnect abruptly and (2) how to partition LLMs between devices with uneven hardware, joining and leaving at will. In order to do that, we develop special fault-tolerant inference algorithms and load-balancing protocols that automatically assign devices to maximize the total system throughput. We showcase these algorithms in Petals – a decentralized system that runs Llama 2 (70B) and BLOOM (176B) over the Internet up to 10x faster than offloading for interactive generation. We evaluate the performance of our system in simulated conditions and a real-world setup spanning two continents.

arxiv情報

著者 Alexander Borzunov,Max Ryabinin,Artem Chumachenko,Dmitry Baranchuk,Tim Dettmers,Younes Belkada,Pavel Samygin,Colin Raffel
発行日 2023-12-13 18:52:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク