Unsupervised Object Learning via Common Fate

要約

ラベルのないビデオから生成オブジェクト モデルを学習することは長年の問題であり、因果シーンのモデリングには必要です。
この問題を 3 つのより簡単なサブタスクに分解し、それぞれの解決策の候補を提供します。
ゲシュタルト心理学の共通運命原理に触発され、まず教師なしのモーション セグメンテーションを通じて移動オブジェクトの (ノイズのある) マスクを抽出します。
次に、生成モデルはそれぞれ背景と移動オブジェクトのマスクでトレーニングされます。
3 番目に、背景モデルと前景モデルを条件付きの「枯葉」シーン モデルに組み合わせて、オクルージョンと深度レイヤーが自然に発生する新しいシーン構成をサンプリングします。
個々のステージを評価するために、複雑な現実世界のシーンと単純化されたオブジェクトの一般的なオブジェクト中心のベンチマークの間に位置する Fishbowl データセットを導入します。
私たちのアプローチにより、入力ビデオに存在するオクルージョンを超えて一般化する生成モデルの学習が可能になり、たとえば、ビデオで観察されないオブジェクトの数や密度を許可することで、トレーニング分布の外側でもっともらしいシーンをサンプリングできるモジュール形式でシーンを表現できることを示します。
トレーニングセット。

要約(オリジナル)

Learning generative object models from unlabelled videos is a long standing problem and required for causal scene modeling. We decompose this problem into three easier subtasks, and provide candidate solutions for each of them. Inspired by the Common Fate Principle of Gestalt Psychology, we first extract (noisy) masks of moving objects via unsupervised motion segmentation. Second, generative models are trained on the masks of the background and the moving objects, respectively. Third, background and foreground models are combined in a conditional ‘dead leaves’ scene model to sample novel scene configurations where occlusions and depth layering arise naturally. To evaluate the individual stages, we introduce the Fishbowl dataset positioned between complex real-world scenes and common object-centric benchmarks of simplistic objects. We show that our approach allows learning generative models that generalize beyond the occlusions present in the input videos, and represent scenes in a modular fashion that allows sampling plausible scenes outside the training distribution by permitting, for instance, object numbers or densities not observed in the training set.

arxiv情報

著者 Matthias Tangemann,Steffen Schneider,Julius von Kügelgen,Francesco Locatello,Peter Gehler,Thomas Brox,Matthias Kümmerer,Matthias Bethge,Bernhard Schölkopf
発行日 2023-05-15 12:22:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク