Borrowing from yourself: Faster future video segmentation with partial channel update

要約

セマンティックセグメンテーションは、コンピュータビジョンの文献でよく取り上げられているトピックですが、高速で正確なビデオ処理ネットワークの設計は依然として困難です。
さらに、組み込みハードウェアで実行するには、コンピュータビジョンモデルが必要な速度で実行するために精度を妥協する必要があることが多いため、通常、遅延と精度のトレードオフがこれらのリアルタイムシステムの設計の中心になります。
ビデオの特定のケースでは、モデルには、リアルタイムでありながら精度の低下を軽減するために、前のフレームに対して行われた計算を利用する追加の可能性があります。
この作業では、時間依存のチャネルマスキングを使用した畳み込み層を使用して、将来のビデオセグメンテーション予測を高速化するタスクに取り組むことを提案します。
この手法は、各タイムステップで機能マップの選択されたサブセットのみを更新し、同時に計算と遅延を減らし、ネットワークが以前に計算された機能を活用できるようにします。
この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対するその利点を実験的に確認します。

要約(オリジナル)

Semantic segmentation is a well-addressed topic in the computer vision literature, but the design of fast and accurate video processing networks remains challenging. In addition, to run on embedded hardware, computer vision models often have to make compromises on accuracy to run at the required speed, so that a latency/accuracy trade-off is usually at the heart of these real-time systems’ design. For the specific case of videos, models have the additional possibility to make use of computations made for previous frames to mitigate the accuracy loss while being real-time. In this work, we propose to tackle the task of fast future video segmentation prediction through the use of convolutional layers with time-dependent channel masking. This technique only updates a chosen subset of the feature maps at each time-step, bringing simultaneously less computation and latency, and allowing the network to leverage previously computed features. We apply this technique to several fast architectures and experimentally confirm its benefits for the future prediction subtask.

arxiv情報

著者 Evann Courdier,François Fleuret
発行日 2022-06-17 09:45:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク