Tamed Warping Network for High-Resolution Semantic Video Segmentation

要約

高速セマンティック ビデオ セグメンテーションに対する最近のアプローチでは、隣接するフレーム間で特徴マップをワープすることで冗長性が削減され、推論フェーズが大幅に高速化されています。
ただし、反りによる誤差により精度は著しく低下します。
この論文では、新しいフレームワークを提案し、歪み後のシンプルかつ効果的な修正段階を設計します。
具体的には、ワープされたコンテキスト特徴と現在の空間詳細を融合する非キーフレーム CNN を構築します。
特徴融合に基づいて、Context Feature Rectification~(CFR) モジュールはフレームごとのモデルからモデルの違いを学習し、歪んだ特徴を修正します。
さらに、当社の Residual-Guided tention~(RGA) モジュールは、圧縮ドメイン内の残差マップを利用して、CRF がエラーが発生しやすい領域に集中できるようにします。
Cityscapes の結果では、$1024\times 2048$ の解像度で精度が $67.3\%$ から $71.6\%$ に大幅に向上し、速度が $65.5$ FPS から $61.8$ FPS に徐々に低下していることがわかります。
「人間」や「物体」などの非厳密なカテゴリの場合、改善率は 18 パーセント ポイントをさらに上回っています。

要約(オリジナル)

Recent approaches for fast semantic video segmentation have reduced redundancy by warping feature maps across adjacent frames, greatly speeding up the inference phase. However, the accuracy drops seriously owing to the errors incurred by warping. In this paper, we propose a novel framework and design a simple and effective correction stage after warping. Specifically, we build a non-key-frame CNN, fusing warped context features with current spatial details. Based on the feature fusion, our Context Feature Rectification~(CFR) module learns the model’s difference from a per-frame model to correct the warped features. Furthermore, our Residual-Guided Attention~(RGA) module utilizes the residual maps in the compressed domain to help CRF focus on error-prone regions. Results on Cityscapes show that the accuracy significantly increases from $67.3\%$ to $71.6\%$, and the speed edges down from $65.5$ FPS to $61.8$ FPS at a resolution of $1024\times 2048$. For non-rigid categories, e.g., “human” and “object”, the improvements are even higher than 18 percentage points.

arxiv情報

著者 Songyuan Li,Junyi Feng,Xi Li
発行日 2023-07-11 08:54:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク