How to Train Your Dragon: Tamed Warping Network for Semantic Video Segmentation

要約

高解像度動画像に対するリアルタイムセマンティックセグメンテーションは、速度に対する厳しい要求のため、挑戦的である。近年の手法では、フレーム間の連続性を利用して、隣接するフレーム間で特徴マップをワープさせることで冗長な計算を減らし、推論段階を大幅に高速化することが可能である。しかし,動き推定の精度が低く,誤差が蓄積されるため,精度が著しく低下する.本論文では,ワーピングベースのモデルの精度と頑健性を向上させるために,ワーピングステージの直後に簡単で効果的な補正ステージを導入し,Tamed Warping Network (TWNet) というフレームワークを構築することを提案する.Cityscapesデータセットを用いた実験の結果、補正により、精度(mIoU)が67.3%から71.6%に大幅に向上し、速度も65.5FPSから61.8FPSに低下することが確認されました。また、「人」や「物体」といった非剛体のカテゴリでは、IoUの向上が18ポイント以上とさらに高い数値を示しています。

要約(オリジナル)

Real-time semantic segmentation on high-resolution videos is challenging due to the strict requirements of speed. Recent approaches have utilized the inter-frame continuity to reduce redundant computation by warping the feature maps across adjacent frames, greatly speeding up the inference phase. However, their accuracy drops significantly owing to the imprecise motion estimation and error accumulation. In this paper, we propose to introduce a simple and effective correction stage right after the warping stage to form a framework named Tamed Warping Network (TWNet), aiming to improve the accuracy and robustness of warping-based models. The experimental results on the Cityscapes dataset show that with the correction, the accuracy (mIoU) significantly increases from 67.3% to 71.6%, and the speed edges down from 65.5 FPS to 61.8 FPS. For non-rigid categories such as ‘human’ and ‘object’, the improvements of IoU are even higher than 18 percentage points.

arxiv情報

著者 Junyi Feng,Songyuan Li,Yifeng Chen,Fuxian Huang,Jiabao Cui,Xi Li
発行日 2022-06-06 08:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク