SAVi++: Towards End-to-End Object-Centric Learning from Real-World Videos

要約

ビジュアルの世界は、まばらな相互作用を持つ個別のエンティティの観点から、控えめに特徴付けることができます。
動的なビジュアル シーンでこの合成構造を発見することは、明示的なインスタンス レベルの監視が提供されない限り、エンド ツー エンドのコンピューター ビジョン アプローチにとって困難であることが証明されています。
モーション キューを利用するスロットベースのモデルは、直接の監督なしでオブジェクトを表現、セグメント化、および追跡することを学習する上で、大きな期待を最近示していますが、複雑な実世界のマルチオブジェクト ビデオへのスケーリングには依然として失敗しています。
このギャップを埋めるために、私たちは人間の発達からインスピレーションを得て、深度信号の形でのシーン ジオメトリに関する情報がオブジェクト中心の学習を促進できるという仮説を立てました。
スロットベースのビデオ表現から深度信号を予測するようにトレーニングされた、オブジェクト中心のビデオ モデルである SAVi++ を紹介します。
モデル スケーリングのベスト プラクティスをさらに活用することで、セグメンテーションの監視を必要とせずに、移動するカメラで記録された複雑な動的シーンをセグメント化するように SAVi++ をトレーニングできます。
最後に、LiDAR から得られたまばらな深度信号を使用することで、SAVi++ が実際の Waymo Open データセットのビデオから緊急のオブジェクト セグメンテーションと追跡を学習できることを示します。

要約(オリジナル)

The visual world can be parsimoniously characterized in terms of distinct entities with sparse interactions. Discovering this compositional structure in dynamic visual scenes has proven challenging for end-to-end computer vision approaches unless explicit instance-level supervision is provided. Slot-based models leveraging motion cues have recently shown great promise in learning to represent, segment, and track objects without direct supervision, but they still fail to scale to complex real-world multi-object videos. In an effort to bridge this gap, we take inspiration from human development and hypothesize that information about scene geometry in the form of depth signals can facilitate object-centric learning. We introduce SAVi++, an object-centric video model which is trained to predict depth signals from a slot-based video representation. By further leveraging best practices for model scaling, we are able to train SAVi++ to segment complex dynamic scenes recorded with moving cameras, containing both static and moving objects of diverse appearance on naturalistic backgrounds, without the need for segmentation supervision. Finally, we demonstrate that by using sparse depth signals obtained from LiDAR, SAVi++ is able to learn emergent object segmentation and tracking from videos in the real-world Waymo Open dataset.

arxiv情報

著者 Gamaleldin F. Elsayed,Aravindh Mahendran,Sjoerd van Steenkiste,Klaus Greff,Michael C. Mozer,Thomas Kipf
発行日 2022-12-23 10:17:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク