要約
ビデオ セマンティック セグメンテーションは、ビデオ フレームごとに正確なセマンティック マップを生成することを目的としています。
この目的のために、多くの作品は、連続したフレームからの多様な情報を統合して、予測のための機能を強化することに専念しています。通常、推定されたオプティカル フローによる機能アライメント手順が必要です。
ただし、オプティカル フローは必然的に不正確になり、フィーチャ フュージョンでノイズが発生し、さらにセグメンテーションの結果が不十分になります。
この論文では、ミスアライメントの問題に取り組むために、マルチフレーム機能間の密なペアワイズ関係をモデル化する時空間融合 (STF) モジュールを提案します。
以前の方法とは異なり、STF はさまざまな空間的および時間的位置で特徴を均一かつ適応的に融合し、エラーが発生しやすいオプティカル フロー推定を回避します。
さらに、単一フレーム内の機能の改良をさらに活用し、セマンティック境界間の困難な予測に取り組むための新しいメモリ拡張改良 (MAR) モジュールを提案します。
具体的には、MAR は、トレーニング サンプルから抽出された境界機能とプロトタイプを保存し、これらが一緒になってタスク固有のメモリを形成し、それらを使用して推論中に機能を改良することができます。
基本的に、MAR はハード フィーチャを最も可能性の高いカテゴリに近づけて、より識別力を高めることができます。
Cityscapes と CamVid で広範な実験を行った結果、提案した方法が以前の方法よりも大幅に優れており、最先端のパフォーマンスを達成することが示されました。
コードと事前トレーニング済みのモデルは、https://github.com/jfzhuang/ST_Memory で入手できます。
要約(オリジナル)
Video semantic segmentation aims to generate accurate semantic maps for each video frame. To this end, many works dedicate to integrate diverse information from consecutive frames to enhance the features for prediction, where a feature alignment procedure via estimated optical flow is usually required. However, the optical flow would inevitably suffer from inaccuracy, and then introduce noises in feature fusion and further result in unsatisfactory segmentation results. In this paper, to tackle the misalignment issue, we propose a spatial-temporal fusion (STF) module to model dense pairwise relationships among multi-frame features. Different from previous methods, STF uniformly and adaptively fuses features at different spatial and temporal positions, and avoids error-prone optical flow estimation. Besides, we further exploit feature refinement within a single frame and propose a novel memory-augmented refinement (MAR) module to tackle difficult predictions among semantic boundaries. Specifically, MAR can store the boundary features and prototypes extracted from the training samples, which together form the task-specific memory, and then use them to refine the features during inference. Essentially, MAR can move the hard features closer to the most likely category and thus make them more discriminative. We conduct extensive experiments on Cityscapes and CamVid, and the results show that our proposed methods significantly outperform previous methods and achieves the state-of-the-art performance. Code and pretrained models are available at https://github.com/jfzhuang/ST_Memory.
arxiv情報
著者 | Jiafan Zhuang,Zilei Wang,Junjie Li |
発行日 | 2023-01-10 07:57:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google