要約
トランスフォーマー モデルは、言語、視覚、マルチモーダル ドメインにおける現在の最先端モデルのバックボーンとなっています。
これらのモデルの中核は、マルチヘッドセルフアテンションを利用してコンテキストを選択的に集約し、動的なコンテキストの埋め込みを生成し、明確なコンテキストの理解を得るために長距離の依存関係をモデル化します。
リキシら。
\cite{zhou2022serving} は、大規模な深層学習モデルを展開するためにリレーショナル データベースを使用する方法を提案し、そのための NetsDB と呼ばれるオープンソース実装を作成しました。
私たちは、NetsDB でモデルを提供するためのトランスフォーマーのエンコーダー部分のエンドツーエンド実装を作成することにより、これらの著者の以前の成果に基づいて構築しています。
具体的には、マルチヘッド アテンションとそれに付随するセルフ アテンション メカニズム、レイヤー ノルム、ドロップアウト、フィードフォワード レイヤー、および必要な残差接続を含む 2 ブロック エンコーダーを構築します。
分散処理、展開、効率的な推論のためにモデルから重みをロードします。
実装の有効性を証明するために、推論時間やモデル サイズなどの主要な指標にわたって PyTorch、Tensorflow、Flax、MxNet の既存の実装と比較することで、包括的なパフォーマンス分析を実施します。
要約(オリジナル)
Transformers models have become the backbone of the current state-of-the-art models in language, vision, and multimodal domains. These models, at their core, utilize multi-head self-attention to selectively aggregate context, generating dynamic contextual embeddings and modeling long-range dependencies for a clear contextual understanding. Lixi et al. \cite{zhou2022serving} proposed a method to use relational databases for deploying large-scale deep learning models and created an open-source implementation called NetsDB for the same. We build upon the previous work of these authors by creating an end-to-end implementation of the Encoder part of the transformer for model serving in NetsDB. Specifically, we construct a two-block encoder that includes Multi-Head Attention and its accompanying self-attention mechanism, Layer-Norm, Dropout, FeedForward Layers, and the necessary residual connections. We load out weights from our model for distributed processing, deployment, and efficient inferencing. To prove the efficacy of our implementation, we conduct a comprehensive performance analysis by comparing it with existing implementations in PyTorch, Tensorflow, Flax, and MxNet across key metrics such as inference time and model size.
arxiv情報
著者 | Subodh Kamble,Kunal Sunil Kasodekar |
発行日 | 2024-05-09 12:02:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google