OpenVIS: Open-vocabulary Video Instance Segmentation

要約

私たちは、オープンボキャブラリービデオインスタンスセグメンテーション(OpenVIS)と呼ばれる新しいコンピュータービジョンタスクを提案および研究します。このタスクは、対応するテキストの説明に従ってビデオ内の任意のオブジェクトを同時にセグメント化し、検出し、追跡することを目的としています。
元のビデオ インスタンスのセグメンテーションと比較して、OpenVIS を使用すると、ユーザーは、それらのカテゴリがトレーニング データセットに含まれているかどうかに関係なく、目的のカテゴリのオブジェクトを識別できます。
この目標を達成するために、高品質のクラスに依存しないオブジェクト マスクを提案し、事前トレーニングされた VLM を介して対応するカテゴリを予測するための 2 段階のパイプラインを提案します。
具体的には、最初にクエリベースのマスク提案ネットワークを使用して、すべての潜在的なオブジェクトのマスクを生成します。このネットワークでは、元のクラス ヘッドを、バイナリ オブジェクト損失でトレーニングされたインスタンス ヘッドに置き換えます。これにより、クラスに依存しないマスク提案機能が強化されます。
次に、提案の後処理アプローチを導入して、提案を事前トレーニングされた VLM にさらに適合させ、歪みや不自然な提案入力を回避します。
一方、この新しいタスクの研究を促進するために、既製のデータセットを利用してそのパフォーマンスを包括的に評価する評価ベンチマークも提案します。
実験的には、提案された OpenVIS は、すべてのカテゴリでトレーニングされた BURST の完全教師ありベースラインと比較して、148\% という顕著な改善を示しました。

要約(オリジナル)

We propose and study a new computer vision task named open-vocabulary video instance segmentation (OpenVIS), which aims to simultaneously segment, detect, and track arbitrary objects in a video according to corresponding text descriptions. Compared to the original video instance segmentation, OpenVIS enables users to identify objects of desired categories, regardless of whether those categories were included in the training dataset. To achieve this goal, we propose a two-stage pipeline for proposing high-quality class-agnostic object masks and predicting their corresponding categories via pre-trained VLM. Specifically, we first employ a query-based mask proposal network to generate masks of all potential objects, where we replace the original class head with an instance head trained with a binary object loss, thereby enhancing the class-agnostic mask proposal ability. Then, we introduce a proposal post-processing approach to adapt the proposals better to the pre-trained VLMs, avoiding distortion and unnatural proposal inputs. Meanwhile, to facilitate research on this new task, we also propose an evaluation benchmark that utilizes off-the-shelf datasets to comprehensively assess its performance. Experimentally, the proposed OpenVIS exhibits a remarkable 148\% improvement compared to the full-supervised baselines on BURST, which have been trained on all categories.

arxiv情報

著者 Pinxue Guo,Tony Huang,Peiyang He,Xuefeng Liu,Tianjun Xiao,Zhaoyu Chen,Wenqiang Zhang
発行日 2023-05-26 11:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク