Object-Centric Learning for Real-World Videos by Predicting Temporal Feature Similarities


教師なしビデオベースのオブジェクト中心学習は、ラベルのない大規模なビデオ コレクションから構造化表現を学習するための有望な手段ですが、これまでのアプローチでは、制限されたドメイン内の現実世界のデータセットにしか拡張できませんでした。
この損失により、困難な合成 MOVi データセットで最先端のパフォーマンスが得られることを実証します。
特徴再構築損失と組み合わせて使用​​すると、私たちのモデルは、YouTube-VIS などの制約のないビデオ データセットにスケールする初のオブジェクト中心のビデオ モデルになります。


Unsupervised video-based object-centric learning is a promising avenue to learn structured representations from large, unlabeled video collections, but previous approaches have only managed to scale to real-world datasets in restricted domains. Recently, it was shown that the reconstruction of pre-trained self-supervised features leads to object-centric representations on unconstrained real-world image datasets. Building on this approach, we propose a novel way to use such pre-trained features in the form of a temporal feature similarity loss. This loss encodes semantic and temporal correlations between image patches and is a natural way to introduce a motion bias for object discovery. We demonstrate that this loss leads to state-of-the-art performance on the challenging synthetic MOVi datasets. When used in combination with the feature reconstruction loss, our model is the first object-centric video model that scales to unconstrained video datasets such as YouTube-VIS.


著者 Andrii Zadaianchuk,Maximilian Seitzer,Georg Martius
発行日 2023-12-08 13:40:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク