TensAIR: Real-Time Training of Neural Networks from Data-streams

要約

データ ストリームからのオンライン学習 (OL) は、ストリーム処理、機械学習、ネットワーキングからの多くの課題を含む新興研究分野です。
Apache Kafka や Flink などのストリーム処理プラットフォームには、ストリーム処理パイプラインで人工ニューラル ネットワーク (ANN) をトレーニングするための基本的な拡張機能があります。
ただし、これらの拡張機能は ANN をリアルタイムでトレーニングするように設計されていないため、その際にパフォーマンスとスケーラビリティの問題が発生します。
この文書では、リアルタイムで ANN をトレーニングするための初の OL システムである TensAIR について説明します。
TensAIR は、分散型非同期アーキテクチャを使用して、DASGD (分散型非同期確率的勾配降下法) 経由で ANN モデル (新たに初期化または事前トレーニングされたもの) をトレーニングすることで、優れたパフォーマンスとスケーラビリティを実現します。
TensAIR が、(1) ネットワークにデプロイされたワーカー ノードの数、および (2) データ バッチがデータフロー オペレーターに到着するスループットの観点から、ほぼ線形のスケールアウト パフォーマンスを達成することを経験的に示しています。
私たちは、スパース (単語埋め込み) とデンス (画像分類) の両方のユースケースを調査することによって、TensAIR の多用途性を描写します。このユースケースでは、TensAIR は、ANN をトレーニングするための最先端のシステムよりも 6 ~ 116 倍高い持続可能なスループット レートを達成しました。
ストリーム処理パイプライン。

要約(オリジナル)

Online learning (OL) from data streams is an emerging area of research that encompasses numerous challenges from stream processing, machine learning, and networking. Stream-processing platforms, such as Apache Kafka and Flink, have basic extensions for the training of Artificial Neural Networks (ANNs) in a stream-processing pipeline. However, these extensions were not designed to train ANNs in real-time, and they suffer from performance and scalability issues when doing so. This paper presents TensAIR, the first OL system for training ANNs in real time. TensAIR achieves remarkable performance and scalability by using a decentralized and asynchronous architecture to train ANN models (either freshly initialized or pre-trained) via DASGD (decentralized and asynchronous stochastic gradient descent). We empirically demonstrate that TensAIR achieves a nearly linear scale-out performance in terms of (1) the number of worker nodes deployed in the network, and (2) the throughput at which the data batches arrive at the dataflow operators. We depict the versatility of TensAIR by investigating both sparse (word embedding) and dense (image classification) use cases, for which TensAIR achieved from 6 to 116 times higher sustainable throughput rates than state-of-the-art systems for training ANN in a stream-processing pipeline.

arxiv情報

著者 Mauro D. L. Tosi,Vinu E. Venugopal,Martin Theobald
発行日 2024-04-18 15:07:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.DC, cs.LG パーマリンク