要約
ビデオ入力に対する畳み込みニューラルネットワークの推論は、計算量が多く、メモリ帯域幅の要件も高い。最近、研究者は、大きく変化したピクセルだけを処理することで、今後のフレームの処理コストを削減することに成功しました。スパース畳み込みを使用することで、フレームの違いのスパース性は、現在の推論装置でのスピードアップに変換することができます。しかし、これまでの研究は、静止したカメラに依存していました。しかし、これまでの研究では、静止カメラに依存していた。動くカメラでは、メモリのオーバーヘッドを増加させることなく、また、将来のフレームのカメラ外形を知ることなく、更新レートを最小化するために、新たに公開された画像領域と既に処理された領域とをいかに効率的に融合するかという新しい課題が追加された。この研究では、動くカメラと可変解像度入力をサポートするCNNフレームワークであるMotionDeltaCNNを提案する。このフレームワークでは、球状のバッファを用いることで、メモリフットプリントを増加させることなく、新たに生成された領域と既に処理された領域をシームレスに融合させることが可能である。我々の評価では、動くカメラ入力を明示的にサポートすることで、先行研究を最大90%上回る性能を示した。
要約(オリジナル)
Convolutional neural network inference on video input is computationally expensive and has high memory bandwidth requirements. Recently, researchers managed to reduce the cost of processing upcoming frames by only processing pixels that changed significantly. Using sparse convolutions, the sparsity of frame differences can be translated to speedups on current inference devices. However, previous work was relying on static cameras. Moving cameras add new challenges in how to fuse newly unveiled image regions with already processed regions efficiently to minimize the update rate – without increasing memory overhead and without knowing the camera extrinsics of future frames. In this work, we propose MotionDeltaCNN, a CNN framework that supports moving cameras and variable resolution input. We propose a spherical buffer which enables seamless fusion of newly unveiled regions and previously processed regions – without increasing the memory footprint. Our evaluations show that we outperform previous work by up to 90% by explicitly adding support for moving camera input.
arxiv情報
著者 | Mathias Parger,Chengcheng Tang,Thomas Neff,Christopher D. Twigg,Cem Keskin,Robert Wang,Markus Steinberger |
発行日 | 2022-11-03 12:26:13+00:00 |
arxivサイト | arxiv_id(pdf) |