要約
ビデオインスタンスセグメンテーション(VIS)は、ビデオシーケンス内のオブジェクトインスタンスを分類、セグメント化、および追跡することを目的としています。
最近のトランスベースのニューラルネットワークは、VISタスクの時空間相関をモデル化する強力な機能を実証しています。
ビデオレベルまたはクリップレベルの入力に依存しているため、待ち時間が長く、計算コストが高くなります。
オンラインでVISに取り組むための堅牢なコンテキスト融合ネットワークを提案します。これは、先行するいくつかのフレームでフレームごとにインスタンスのセグメンテーションを予測します。
各フレームの正確で時間的に一貫した予測を効率的に取得するための重要なアイデアは、参照フレームからターゲットフレームに効果的でコンパクトなコンテキストを融合することです。
ターゲット予測に対する参照フレームとターゲットフレームのさまざまな影響を考慮して、最初に重要度を意識した圧縮を通じてコンテキスト機能を要約します。
圧縮されたコンテキストを融合するために、トランスフォーマーエンコーダーが採用されています。
次に、順序を保持するインスタンスの埋め込みを利用して、ID認識情報を伝達し、IDを予測されたインスタンスマスクに対応させます。
当社の堅牢なフュージョンネットワークは、既存のオンラインVISメソッドの中で最高のパフォーマンスを実現し、Youtube-VIS2019および2021ベンチマークで以前に公開されたクリップレベルのメソッドよりも優れていることを示しています。
さらに、視覚オブジェクトには、オーディオを含むビデオ録画で自然に同期される音響シグネチャが含まれていることがよくあります。
マルチモーダルデータに対するコンテキストフュージョンネットワークの柔軟性を活用することで、既存の作品ではこれまで議論されたことのない、ビデオ密度の高い予測タスクに対するオーディオの影響をさらに調査します。
オーディオビジュアルインスタンスセグメンテーションデータセットを構築し、野生のシナリオでの音響信号がVISタスクに役立つ可能性があることを示します。
要約(オリジナル)
Video instance segmentation (VIS) aims at classifying, segmenting and tracking object instances in video sequences. Recent transformer-based neural networks have demonstrated their powerful capability of modeling spatio-temporal correlations for the VIS task. Relying on video- or clip-level input, they suffer from high latency and computational cost. We propose a robust context fusion network to tackle VIS in an online fashion, which predicts instance segmentation frame-by-frame with a few preceding frames. To acquire the precise and temporal-consistent prediction for each frame efficiently, the key idea is to fuse effective and compact context from reference frames into the target frame. Considering the different effects of reference and target frames on the target prediction, we first summarize contextual features through importance-aware compression. A transformer encoder is adopted to fuse the compressed context. Then, we leverage an order-preserving instance embedding to convey the identity-aware information and correspond the identities to predicted instance masks. We demonstrate that our robust fusion network achieves the best performance among existing online VIS methods and is even better than previously published clip-level methods on the Youtube-VIS 2019 and 2021 benchmarks. In addition, visual objects often have acoustic signatures that are naturally synchronized with them in audio-bearing video recordings. By leveraging the flexibility of our context fusion network on multi-modal data, we further investigate the influence of audios on the video-dense prediction task, which has never been discussed in existing works. We build up an Audio-Visual Instance Segmentation dataset, and demonstrate that acoustic signals in the wild scenarios could benefit the VIS task.
arxiv情報
著者 | Xiang Li,Jinglu Wang,Xiaohao Xu,Bhiksha Raj,Yan Lu |
発行日 | 2022-07-12 15:04:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google