Model Agnostic Hybrid Sharding For Heterogeneous Distributed Inference

要約

大規模な AI モデル、特に大規模な言語モデルの急速な成長は、データ プライバシー、計算リソース、アクセシビリティに重大な課題をもたらしています。
従来の集中型アーキテクチャでは、必要なデータ セキュリティとスケーラビリティのニーズを満たすのに苦労することが多く、AI システムの民主化を妨げています。
Nesa は、分散型 AI 推論用に設計されたモデルに依存しないシャーディング フレームワークを導入します。
私たちのフレームワークは、ブロックチェーンベースのシーケンシャルディープニューラルネットワークシャーディングを使用して、パーソナライズされたヒューリスティックおよびルーティングメカニズムに基づいて、ノードの多様なネットワーク全体に計算タスクを分散します。
これにより、消費者グレードのハードウェア上でも、最近の大規模モデルの効率的な分散トレーニングと推論が可能になります。
動的ブロック単位の量子化や混合行列分解などの圧縮技術を使用して、データ転送とメモリの必要性を削減します。
また、データの整合性と機密性を確保するためのハードウェアベースの信頼できる実行環境など、堅牢なセキュリティ対策を統合しています。
さまざまな自然言語処理および視覚タスクにわたってシステムを評価すると、これらの圧縮戦略がモデルの精度を犠牲にしないことがわかります。
私たちの結果は、分散型ネットワーク上で安全かつ効率的な推論を可能にすることで、最先端の AI テクノロジーへのアクセスを民主化する可能性を浮き彫りにしています。

要約(オリジナル)

The rapid growth of large-scale AI models, particularly large language models has brought significant challenges in data privacy, computational resources, and accessibility. Traditional centralized architectures often struggle to meet required data security and scalability needs which hinders the democratization of AI systems. Nesa introduces a model-agnostic sharding framework designed for decentralized AI inference. Our framework uses blockchain-based sequential deep neural network sharding to distribute computational tasks across a diverse network of nodes based on a personalised heuristic and routing mechanism. This enables efficient distributed training and inference for recent large-scale models even on consumer-grade hardware. We use compression techniques like dynamic blockwise quantization and mixed matrix decomposition to reduce data transfer and memory needs. We also integrate robust security measures, including hardware-based trusted execution environments to ensure data integrity and confidentiality. Evaluating our system across various natural language processing and vision tasks shows that these compression strategies do not compromise model accuracy. Our results highlight the potential to democratize access to cutting-edge AI technologies by enabling secure and efficient inference on a decentralized network.

arxiv情報

著者 Claudio Angione,Yue Zhao,Harry Yang,Ahmad Farhan,Fielding Johnston,James Buban,Patrick Colangelo
発行日 2024-07-29 08:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.DC パーマリンク