要約
2012 年の AlexNet の画期的なパフォーマンス以来、畳み込みニューラル ネットワーク (convnet) は非常に強力なビジョン モデルに成長しました。
深層学習の研究者は convnet を使用して、10 年前には達成できなかった精度でビジョン タスクを実行してきました。
convnet が使用する膨大な計算に直面して、深層学習の研究者は効率にも関心を持つようになりました。
しかし、効率的な convnet を展開したエンジニアは、使用する操作が減ったにもかかわらず、convnet が前世代よりも遅いことにすぐに気づきました。
多くは、より高速に動作する古いモデルに戻りました。
そこで研究者らは、探索の目的を算術演算の複雑さから待ち時間に切り替え、よりパフォーマンスの高いモデルの新たな波を生み出しました。
逆説的ですが、これらのモデルではより多くの演算が使用されています。
算術演算の複雑さの関連性について、研究者と技術者の間で同様に懐疑的な見方が強まりました。
レイテンシーと演算の複雑さは両立できないという一般的な見解とは対照的に、単純な式で計算効率を通じて両者を関連付けることができます。
この洞察により、レイテンシを決定する個別の要素を連携して最適化することができました。
最高の精度と複雑さのトレードオフを生み出す縮退 conv2d 層も、大量のメモリ リソースを使用し、計算効率が低いことがわかりました。
私たちは、残差ブロックのすべての層を単一のカーネルに実装するブロック融合アルゴリズムを考案しました。これにより、時間的局所性が作成され、通信が回避され、ワークスペースのサイズが削減されます。
ブロック融合カーネルを使用した ConvFirst モデルは、ベースライン モデルやカーネルよりも演算の複雑さが少なく、計算効率が高く、ConvNeXt の約 4 倍の速度で実行されました。
また、効率ギャップ プロットやウォーターライン分析などの新しいツールも作成しました。
convnet の効率性に対する当社の統一アプローチは、より低コストでより高い精度を達成するモデルとカーネルの新時代を構想しています。
要約(オリジナル)
Since the breakthrough performance of AlexNet in 2012, convolutional neural networks (convnets) have grown into extremely powerful vision models. Deep learning researchers have used convnets to perform vision tasks with accuracy that was unachievable a decade ago. Confronted with the immense computation that convnets use, deep learning researchers also became interested in efficiency. However, the engineers who deployed efficient convnets soon realized that they were slower than the previous generation, despite using fewer operations. Many reverted to older models that ran faster. Hence researchers switched the objective of their search from arithmetic complexity to latency and produced a new wave of models that performed better. Paradoxically, these models also used more operations. Skepticism grew among researchers and engineers alike about the relevance of arithmetic complexity. Contrary to the prevailing view that latency and arithmetic complexity are irreconcilable, a simple formula relates both through computational efficiency. This insight enabled us to co-optimize the separate factors that determine latency. We observed that the degenerate conv2d layers that produce the best accuracy–complexity trade-off also use significant memory resources and have low computational efficiency. We devised block fusion algorithms to implement all the layers of a residual block in a single kernel, thereby creating temporal locality, avoiding communication, and reducing workspace size. Our ConvFirst model with block-fusion kernels has less arithmetic complexity and greater computational efficiency than baseline models and kernels, and ran approximately four times as fast as ConvNeXt. We also created novel tools, including efficiency gap plots and waterline analysis. Our unified approach to convnet efficiency envisions a new era of models and kernels that achieve greater accuracy at lower cost.
arxiv情報
著者 | Andrew Lavin |
発行日 | 2024-05-21 17:56:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google