要約
Word2Vec は、依然として自然言語処理 (NLP) の分野で非常に影響力のあるイノベーションの 1 つであり、人間のテキストに潜在する文法的および構文的な情報を低次元の密なベクトルで表現します。
Word2Vec は、アルゴリズム固有の逐次性、集中的なメモリ アクセス、および表現される語彙が多いため、計算コストが高くなります。
これまでの研究では、並列処理を調査し、メモリ システムのパフォーマンスを向上させるテクノロジが調査されてきましたが、強力な GPU でスループットを効果的に得るのに苦労しています。
私たちは、メモリ データ アクセスと遅延が、GPU でのこれまでの作業における主なボトルネックであり、高度に最適化されたカーネルがアーキテクチャのピーク パフォーマンスを達成することを妨げていることを特定しました。
我々は、W2V アルゴリズムにおけるデータ再利用の機会を最大限に活用し、GPU アーキテクチャとリソースを活用して低メモリ レベルへのアクセスを減らし、時間的局所性を向上させる新しいアルゴリズム FULL-W2V を紹介します。
FULL-W2V は、GPU グローバル メモリへのアクセスを大幅に (たとえば、以前の最先端の GPU 実装と比較して 89\% 以上) 削減することができ、その結果、ハードウェアの世代を超えて拡張できる大幅なパフォーマンスの向上が得られます。
当社のプロトタイプ実装は、Nvidia Pascal P100 から Volta V100 カードに移植すると 2.97 倍の高速化を達成し、同じ埋め込み品質の V100 カードでは最先端の実装を 5.72 倍上回ります。
詳細な分析により、レジスタおよび共有メモリのキャッシュと高スループットの共有メモリ削減によるメモリ アクセスの削減により、演算強度が大幅に向上することがわかりました。
FULL-W2V は、NLP やその他のドメインの多くのアプリケーションに利益をもたらす可能性があります。
要約(オリジナル)
Word2Vec remains one of the highly-impactful innovations in the field of Natural Language Processing (NLP) that represents latent grammatical and syntactical information in human text with dense vectors in a low dimension. Word2Vec has high computational cost due to the algorithm’s inherent sequentiality, intensive memory accesses, and the large vocabularies it represents. While prior studies have investigated technologies to explore parallelism and improve memory system performance, they struggle to effectively gain throughput on powerful GPUs. We identify memory data access and latency as the primary bottleneck in prior works on GPUs, which prevents highly optimized kernels from attaining the architecture’s peak performance. We present a novel algorithm, FULL-W2V, which maximally exploits the opportunities for data reuse in the W2V algorithm and leverages GPU architecture and resources to reduce access to low memory levels and improve temporal locality. FULL-W2V is capable of reducing accesses to GPU global memory significantly, e.g., by more than 89\%, compared to prior state-of-the-art GPU implementations, resulting in significant performance improvement that scales across successive hardware generations. Our prototype implementation achieves 2.97X speedup when ported from Nvidia Pascal P100 to Volta V100 cards, and outperforms the state-of-the-art by 5.72X on V100 cards with the same embedding quality. In-depth analysis indicates that the reduction of memory accesses through register and shared memory caching and high-throughput shared memory reduction leads to a significantly improved arithmetic intensity. FULL-W2V can potentially benefit many applications in NLP and other domains.
arxiv情報
著者 | Thomas Randall,Tyler Allen,Rong Ge |
発行日 | 2023-12-12 21:22:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google