BATMAN: Bilateral Attention Transformer in Motion-Appearance Neighboring Space for Video Object Segmentation

要約

ビデオオブジェクトセグメンテーション(VOS)はビデオ理解の基本である。トランスフォーマーに基づく手法は、半教師付きVOSにおいて大幅な性能向上を示している。しかし、既存の研究は、互いに近接した視覚的に類似したオブジェクトのセグメンテーションに課題を抱えている。本論文では、半教師付きVOSのための新しいBilateral Attention Transformer in Motion-Appearance Neighboring Space (BATMAN)を提案する。BATMANは、オブジェクト内のオプティカルフローの滑らかさを向上させ、オブジェクト境界でのノイズを低減するために、セグメンテーションマスクとオプティカルフロー推定を融合した新しいオプティカルフローキャリブレーションモジュールによってビデオ内のオブジェクトモーションをキャプチャする。この校正されたオプティカルフローは、次に、動きと外観の両方を考慮して近傍の二国間空間におけるクエリと参照フレーム間の対応を計算する、我々の新しい二国間注意に採用される。広範な実験により、Youtube-VOS 2019(85.0%)、Youtube-VOS 2018(85.3%)、DAVIS 2017Val/Testdev(86.2%/82.2%) およびDAVIS 2016(92.5%)という人気のある4つのVOSベンチマークすべてで既存の最先端技術を上回り、BATMANアーキテクチャの効果を検証しています。

要約(オリジナル)

Video Object Segmentation (VOS) is fundamental to video understanding. Transformer-based methods show significant performance improvement on semi-supervised VOS. However, existing work faces challenges segmenting visually similar objects in close proximity of each other. In this paper, we propose a novel Bilateral Attention Transformer in Motion-Appearance Neighboring space (BATMAN) for semi-supervised VOS. It captures object motion in the video via a novel optical flow calibration module that fuses the segmentation mask with optical flow estimation to improve within-object optical flow smoothness and reduce noise at object boundaries. This calibrated optical flow is then employed in our novel bilateral attention, which computes the correspondence between the query and reference frames in the neighboring bilateral space considering both motion and appearance. Extensive experiments validate the effectiveness of BATMAN architecture by outperforming all existing state-of-the-art on all four popular VOS benchmarks: Youtube-VOS 2019 (85.0%), Youtube-VOS 2018 (85.3%), DAVIS 2017Val/Testdev (86.2%/82.2%), and DAVIS 2016 (92.5%).

arxiv情報

著者 Ye Yu,Jialin Yuan,Gaurav Mittal,Li Fuxin,Mei Chen
発行日 2022-08-03 17:22:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク