要約
自然言語を通じて説明できるビデオ内の幅広い概念をセグメント化するためのフレームワークである REM を紹介します。
私たちの手法は、インターネット規模のデータセット上のビデオ拡散モデルによって学習された視覚言語表現を利用しています。
私たちのアプローチの重要な洞察は、生成モデルの元の表現をできる限り保存しながら、狭いドメインの参照オブジェクト セグメンテーション データセットで微調整することです。
その結果、私たちのフレームワークは、限られたカテゴリのオブジェクト マスクでトレーニングされているにもかかわらず、まれで目に見えないオブジェクトを正確にセグメント化して追跡できます。
さらに、新しく導入されたリファーラル ビデオ プロセス セグメンテーション (Ref-VPS) のベンチマークで実証されているように、海に打ち寄せる波などの非オブジェクトの動的概念にも一般化できます。
私たちの実験では、REM が Ref-DAVIS などのドメイン内データセットに対する最先端のアプローチと同等のパフォーマンスを発揮する一方で、ドメイン外データに対する領域類似性の点ではそれらを最大 12 ポイント上回るパフォーマンスを示しています。
インターネット規模の事前トレーニングの力。
要約(オリジナル)
We present REM, a framework for segmenting a wide range of concepts in video that can be described through natural language. Our method capitalizes on visual-language representations learned by video diffusion models on Internet-scale datasets. A key insight of our approach is preserving as much of the generative model’s original representation as possible, while fine-tuning it on narrow-domain Referral Object Segmentation datasets. As a result, our framework can accurately segment and track rare and unseen objects, despite being trained on object masks from a limited set of categories. Additionally, it can generalize to non-object dynamic concepts, such as waves crashing in the ocean, as demonstrated in our newly introduced benchmark for Referral Video Process Segmentation (Ref-VPS). Our experiments show that REM performs on par with state-of-the-art approaches on in-domain datasets, like Ref-DAVIS, while outperforming them by up to twelve points in terms of region similarity on out-of-domain data, leveraging the power of Internet-scale pre-training.
arxiv情報
著者 | Anurag Bagchi,Zhipeng Bao,Yu-Xiong Wang,Pavel Tokmakov,Martial Hebert |
発行日 | 2024-10-30 17:59:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google