Putting the Object Back into Video Object Segmentation

要約

我々は、オブジェクトレベルのメモリ読み取りを備えたビデオ オブジェクト セグメンテーション (VOS) ネットワークである Cutie を紹介します。これは、オブジェクト表現をメモリからビデオ オブジェクト セグメンテーションの結果に戻します。
VOS に関する最近の研究では、ボトムアップのピクセル レベルのメモリ読み取りが採用されていますが、これは、ノイズの一致により、特に注意をそらすものがある場合に困難が生じ、より困難なデータではパフォーマンスが低下します。
対照的に、Cutie は、クエリベースのオブジェクト トランスフォーマー (qt、したがって Cutie) を使用してボトムアップのピクセル機能を再構築し、対話的に操作するために、小さなオブジェクト クエリのセットを適応させることによって、トップダウンのオブジェクト レベルのメモリ読み取りを実行します。
オブジェクト クエリはターゲット オブジェクトの高レベルの概要として機能し、正確なセグメンテーションのために高解像度の特徴マップが保持されます。
前景と背景のマスクされた注意とともに、Cutie は前景オブジェクトのセマンティクスを背景から明確に分離します。
困難な MOSE データセットでは、Cutie は同様の実行時間で XMem と比較して 8.7 J&F 改善し、3 倍の速度で実行しながら DeAOT と比較して 4.2 J&F 改善しました。
コードは https://hkchengrex.github.io/Cutie で入手できます。

要約(オリジナル)

We present Cutie, a video object segmentation (VOS) network with object-level memory reading, which puts the object representation from memory back into the video object segmentation result. Recent works on VOS employ bottom-up pixel-level memory reading which struggles due to matching noise, especially in the presence of distractors, resulting in lower performance in more challenging data. In contrast, Cutie performs top-down object-level memory reading by adapting a small set of object queries for restructuring and interacting with the bottom-up pixel features iteratively with a query-based object transformer (qt, hence Cutie). The object queries act as a high-level summary of the target object, while high-resolution feature maps are retained for accurate segmentation. Together with foreground-background masked attention, Cutie cleanly separates the semantics of the foreground object from the background. On the challenging MOSE dataset, Cutie improves by 8.7 J&F over XMem with a similar running time and improves by 4.2 J&F over DeAOT while running three times as fast. Code is available at: https://hkchengrex.github.io/Cutie

arxiv情報

著者 Ho Kei Cheng,Seoung Wug Oh,Brian Price,Joon-Young Lee,Alexander Schwing
発行日 2023-10-19 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク