Making a Case for 3D Convolutions for Object Segmentation in Videos

要約

映像中のオブジェクトのセグメンテーションタスクは、通常、標準的な2次元畳み込みネットワークを用いて、外観と動きの情報を別々に処理し、その後、2つの情報源の学習された融合を行うことで達成される。一方、3次元畳み込みネットワークは、動画の分類タスクにうまく適用されているが、2次元畳み込みネットワークと比較して、動画のピクセル単位の密な解釈を含む問題にはそれほど効果的に活用されておらず、性能の点で前述のネットワークに遅れをとっている。本研究では、3次元CNNを、顕著なオブジェクトのセグメンテーションのような、高密度の動画予測タスクに効果的に適用できることを示す。我々は、標準的なクロスエントロピー損失を用いてエンドツーエンドで学習可能な、3D畳み込みのみで構成されるシンプルで効果的なエンコーダデコーダネットワークアーキテクチャを提案する。この目的のために、効率的な3Dエンコーダを活用し、新しい3Dグローバル畳み込み層と3D洗練モジュールからなる3Dデコーダアーキテクチャを提案する。我々のアプローチは、DAVIS’16 Unsupervised、FBMS、ViSalデータセットのベンチマークにおいて、既存の最先端技術を大きく上回る性能を示し、さらに高速であることから、我々のアーキテクチャが表現力豊かな時空間特徴を効率的に学習し、高品質なビデオセグメンテーションマスクを生成できることを示している。我々のコードと学習済みモデルは、https://github.com/sabarim/3DC-Seg で公開されている。

要約(オリジナル)

The task of object segmentation in videos is usually accomplished by processing appearance and motion information separately using standard 2D convolutional networks, followed by a learned fusion of the two sources of information. On the other hand, 3D convolutional networks have been successfully applied for video classification tasks, but have not been leveraged as effectively to problems involving dense per-pixel interpretation of videos compared to their 2D convolutional counterparts and lag behind the aforementioned networks in terms of performance. In this work, we show that 3D CNNs can be effectively applied to dense video prediction tasks such as salient object segmentation. We propose a simple yet effective encoder-decoder network architecture consisting entirely of 3D convolutions that can be trained end-to-end using a standard cross-entropy loss. To this end, we leverage an efficient 3D encoder, and propose a 3D decoder architecture, that comprises novel 3D Global Convolution layers and 3D Refinement modules. Our approach outperforms existing state-of-the-arts by a large margin on the DAVIS’16 Unsupervised, FBMS and ViSal dataset benchmarks in addition to being faster, thus showing that our architecture can efficiently learn expressive spatio-temporal features and produce high quality video segmentation masks. We have made our code and trained models publicly available at https://github.com/sabarim/3DC-Seg.

arxiv情報

著者 Sabarinath Mahadevan,Ali Athar,Aljoša Ošep,Sebastian Hennen,Laura Leal-Taixé,Bastian Leibe
発行日 2023-09-01 14:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク