Don’t Think It Twice: Exploit Shift Invariance for Efficient Online Streaming Inference of CNNs

要約

深層学習の時系列処理は、ウィンドウが重複する畳み込みニューラル ネットワークに依存することがよくあります。
このオーバーラップにより、ネットワークはウィンドウの長さよりも速く出力を生成できるようになります。
ただし、追加の計算が必要になります。
この研究では、畳み込みのシフト不変特性を利用して、連続する重なり合うウィンドウ間の層の活性化の計算をスキップすることにより、推論中の計算効率を最適化する可能性を探ります。
畳み込みはシフト不変ですが、このようなネットワークで広く使用されているゼロ パディングおよびプーリング操作は効率的ではなく、効率的なストリーミング推論を複雑にします。
オンライン ストリーミング推論のために畳み込みニューラル ネットワークを展開する戦略である StreamiNNC を紹介します。
ストリーミング推論の精度に対するゼロ パディングとプーリングの悪影響を調査し、ストリーミング中のプーリングの理論的な誤差の上限を導き出します。
私たちは信号のパディングとプーリングの調整を提案することでこれらの制限に対処し、StreamiNNC のモデルを設計および展開するためのガイドラインを提供します。
私たちは、シミュレートされたデータと 3 つの実際の生体信号処理アプリケーションでこの方法を検証します。
StreamiNNC は、3 つのネットワークすべてでストリーミング出力と通常の推論の間の低い偏差 (2.03 ~ 3.55% NRMSE) を実現します。
この研究は、重複ウィンドウによって通常発生する追加の計算を無効にして、重複ウィンドウを処理するストリーミング CNN の推論を線形的に高速化できることを示しています。

要約(オリジナル)

Deep learning time-series processing often relies on convolutional neural networks with overlapping windows. This overlap allows the network to produce an output faster than the window length. However, it introduces additional computations. This work explores the potential to optimize computational efficiency during inference by exploiting convolution’s shift-invariance properties to skip the calculation of layer activations between successive overlapping windows. Although convolutions are shift-invariant, zero-padding and pooling operations, widely used in such networks, are not efficient and complicate efficient streaming inference. We introduce StreamiNNC, a strategy to deploy Convolutional Neural Networks for online streaming inference. We explore the adverse effects of zero padding and pooling on the accuracy of streaming inference, deriving theoretical error upper bounds for pooling during streaming. We address these limitations by proposing signal padding and pooling alignment and provide guidelines for designing and deploying models for StreamiNNC. We validate our method in simulated data and on three real-world biomedical signal processing applications. StreamiNNC achieves a low deviation between streaming output and normal inference for all three networks (2.03 – 3.55% NRMSE). This work demonstrates that it is possible to linearly speed up the inference of streaming CNNs processing overlapping windows, negating the additional computation typically incurred by overlapping windows.

arxiv情報

著者 Christodoulos Kechris,Jonathan Dan,Jose Miranda,David Atienza
発行日 2024-08-06 14:36:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク