Breaking the ‘Object’ in Video Object Segmentation

要約

オブジェクトが変形するとき、オブジェクトの外観はつかの間である場合があります。
卵が割れたり、紙が破れたりすると、その色、形、質感が劇的に変化し、アイデンティティ自体を除いて元のものは実質的に何も保持されません.
しかし、この重要な現象は、既存のビデオ オブジェクト セグメンテーション (VOS) ベンチマークにはほとんど含まれていません。
この作業では、変換 (VOST) の下でビデオ オブジェクト セグメンテーション用の新しいデータセットを収集することでギャップを埋めます。
これは、さまざまな環境でキャプチャされた 700 以上の高解像度ビデオで構成されており、平均の長さは 21 秒で、インスタンス マスクで密にラベル付けされています。
これらのビデオが複雑なオブジェクトの変換に焦点を当て、それらの完全な時間的範囲をキャプチャするように、慎重な多段階アプローチが採用されています。
次に、最先端の VOS メソッドを広範囲に評価し、多くの重要な発見を行います。
特に、この新しいタスクに適用すると既存の方法が苦労し、その主な制限が静的な外観の手がかりへの過度の依存にあることを示します。
これにより、時空間情報をより適切にモデル化することでその機能を改善する、最高のパフォーマンスを発揮するベースラインにいくつかの変更を提案することができます。
しかし、より広くは、より堅牢なビデオ オブジェクト表現の学習に関する議論を活性化することが期待されています。

要約(オリジナル)

The appearance of an object can be fleeting when it transforms. As eggs are broken or paper is torn, their color, shape and texture can change dramatically, preserving virtually nothing of the original except for the identity itself. Yet, this important phenomenon is largely absent from existing video object segmentation (VOS) benchmarks. In this work, we close the gap by collecting a new dataset for Video Object Segmentation under Transformations (VOST). It consists of more than 700 high-resolution videos, captured in diverse environments, which are 21 seconds long on average and densely labeled with instance masks. A careful, multi-step approach is adopted to ensure that these videos focus on complex object transformations, capturing their full temporal extent. We then extensively evaluate state-of-the-art VOS methods and make a number of important discoveries. In particular, we show that existing methods struggle when applied to this novel task and that their main limitation lies in over-reliance on static appearance cues. This motivates us to propose a few modifications for the top-performing baseline that improve its capabilities by better modeling spatio-temporal information. But more broadly, the hope is to stimulate discussion on learning more robust video object representations.

arxiv情報

著者 Pavel Tokmakov,Jie Li,Adrien Gaidon
発行日 2023-03-28 16:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク