要約
ビデオデータはしばしば繰り返されます。
たとえば、隣接するフレームの内容は通常、強く相関しています。
このような冗長性は、低レベルのピクセル値からテクスチャや高レベルのセマンティクスまで、複雑さの複数のレベルで発生します。
この冗長性を活用してビデオ推論中に大幅な計算の節約を実現するイベントニューラルネットワーク(EvNet)を提案します。
EvNetsの明確な特徴は、各ニューロンに長期記憶を提供する状態変数があることです。これにより、カメラの動きが大きい場合でも、低コストで高精度の推論が可能になります。
再トレーニングなしで、広範囲のニューラルネットワークをEvNetに変換できることを示します。
ポーズ認識、オブジェクト検出、オプティカルフロー、画像強調など、高レベルと低レベルの両方の視覚処理のための最先端のアーキテクチャに関する手法を示します。
モデルの精度の低下を最小限に抑えながら、従来のネットワークと比較して、計算コストがほぼ1桁減少することがわかります。
要約(オリジナル)
Video data is often repetitive; for example, the contents of adjacent frames are usually strongly correlated. Such redundancy occurs at multiple levels of complexity, from low-level pixel values to textures and high-level semantics. We propose Event Neural Networks (EvNets), which leverage this redundancy to achieve considerable computation savings during video inference. A defining characteristic of EvNets is that each neuron has state variables that provide it with long-term memory, which allows low-cost, high-accuracy inference even in the presence of significant camera motion. We show that it is possible to transform a wide range of neural networks into EvNets without re-training. We demonstrate our method on state-of-the-art architectures for both high- and low-level visual processing, including pose recognition, object detection, optical flow, and image enhancement. We observe roughly an order-of-magnitude reduction in computational costs compared to conventional networks, with minimal reductions in model accuracy.
arxiv情報
著者 | Matthew Dutson,Yin Li,Mohit Gupta |
発行日 | 2022-07-25 17:20:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google