OW-VISCap: Open-World Video Instance Segmentation and Captioning


オープンワールド映像のインスタンス分割は重要な映像理解タスクである。しかし、ほとんどの手法は、閉じた世界で動作するか、ユーザーによる追加入力を必要とするか、あるいは、見たことのないオブジェクトを識別するために、古典的な領域ベースの提案を使用するかのいずれかである。さらに、これらの手法は検出されたオブジェクトに1単語のラベルを割り当てるだけで、リッチなオブジェクト中心の説明を生成しない。また、これらの手法は、しばしば予測の重複に悩まされる。このような問題に対処するために、我々はOW-VISCap(Open-World Video Instance Segmentation and Captioning)を提案する。OW-VISCapでは、オープンワールドオブジェクトクエリを導入することで、ユーザによる追加入力なしに、見たことのないオブジェクトを発見する。検出された各オブジェクトに対して、マスクされたアテンション増強LLM入力により、リッチで説明的なオブジェクト中心のキャプションを生成する。オブジェクトクエリが互いに異なることを保証するために、クエリ間対照損失を導入する。我々の一般化されたアプローチは、BURSTデータセットにおけるオープンワールドビデオインスタンス分割、VidSTGデータセットにおける高密度ビデオオブジェクトキャプション、OVISデータセットにおけるクローズドワールドビデオインスタンス分割の3つのタスクにおいて、最先端技術に匹敵するか、それを上回る。


Open-world video instance segmentation is an important video understanding task. Yet most methods either operate in a closed-world setting, require an additional user-input, or use classic region-based proposals to identify never before seen objects. Further, these methods only assign a one-word label to detected objects, and don’t generate rich object-centric descriptions. They also often suffer from highly overlapping predictions. To address these issues, we propose Open-World Video Instance Segmentation and Captioning (OW-VISCap), an approach to jointly segment, track, and caption previously seen or unseen objects in a video. For this, we introduce open-world object queries to discover never before seen objects without additional user-input. We generate rich and descriptive object-centric captions for each detected object via a masked attention augmented LLM input. We introduce an inter-query contrastive loss to ensure that the object queries differ from one another. Our generalized approach matches or surpasses state-of-the-art on three tasks: open-world video instance segmentation on the BURST dataset, dense video object captioning on the VidSTG dataset, and closed-world video instance segmentation on the OVIS dataset.


著者 Anwesa Choudhuri,Girish Chowdhary,Alexander G. Schwing
発行日 2024-04-04 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク