Learning Local and Global Temporal Contexts for Video Semantic Segmentation

要約

コンテキスト情報は、ビデオ セマンティック セグメンテーション (VSS) にとって中心的な役割を果たします。
このペーパーでは、VSS のコンテキストを 2 つにまとめています。隣接するフレームからのコンテキストを定義するローカル時間コンテキスト (LTC) と、ビデオ全体からのコンテキストを表すグローバル時間コンテキスト (GTC) です。
LTC に関しては、隣接するフレーム内の静的コンテンツと動的なコンテンツにそれぞれ対応する静的コンテキストと動的なコンテキストが含まれます。
これまでに、静的コンテキストと動きのコンテキストの両方が研究されてきました。
ただし、静的コンテキストと動きのコンテキストを同時に学習する (高度に補完的) ことに関する研究はありません。
したがって、LTC の統一されたプレゼンテーションを学習するための Coarse-to-Fine Feature Mining (CFFM) 手法を提案します。
CFFM には、Coarse-to-Fine Feature Assembling (CFFA) と Cross-frame Feature Mining (CFM) の 2 つの部分が含まれています。
CFFA は静的コンテキストと動きのコンテキストを抽象化し、CFM は近くのフレームから有用な情報をマイニングしてターゲットの特徴を強化します。
より時間的なコンテキストをさらに活用するために、ビデオ全体から GTC を追加学習することで CFFM++ を提案します。
具体的には、ビデオから特定のフレームを均一にサンプリングし、K 平均法によってグローバルなコンテキスト プロトタイプを抽出します。
これらのプロトタイプ内の情報は CFM によってマイニングされ、ターゲットの機能が改良されます。
一般的なベンチマークの実験結果は、CFFM と CFFM++ が最先端の手法に対して有利に動作することを示しています。
私たちのコードは https://github.com/GuoleiSun/VSS-CFFM で入手できます。

要約(オリジナル)

Contextual information plays a core role for video semantic segmentation (VSS). This paper summarizes contexts for VSS in two-fold: local temporal contexts (LTC) which define the contexts from neighboring frames, and global temporal contexts (GTC) which represent the contexts from the whole video. As for LTC, it includes static and motional contexts, corresponding to static and moving content in neighboring frames, respectively. Previously, both static and motional contexts have been studied. However, there is no research about simultaneously learning static and motional contexts (highly complementary). Hence, we propose a Coarse-to-Fine Feature Mining (CFFM) technique to learn a unified presentation of LTC. CFFM contains two parts: Coarse-to-Fine Feature Assembling (CFFA) and Cross-frame Feature Mining (CFM). CFFA abstracts static and motional contexts, and CFM mines useful information from nearby frames to enhance target features. To further exploit more temporal contexts, we propose CFFM++ by additionally learning GTC from the whole video. Specifically, we uniformly sample certain frames from the video and extract global contextual prototypes by k-means. The information within those prototypes is mined by CFM to refine target features. Experimental results on popular benchmarks demonstrate that CFFM and CFFM++ perform favorably against state-of-the-art methods. Our code is available at https://github.com/GuoleiSun/VSS-CFFM

arxiv情報

著者 Guolei Sun,Yun Liu,Henghui Ding,Min Wu,Luc Van Gool
発行日 2024-04-09 15:44:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク