Boosting Object Representation Learning via Motion and Object Continuity

要約

最近の教師なし複数オブジェクト検出モデルは、新しいアーキテクチャの誘導バイアスに主に起因して、目覚ましいパフォーマンスの向上を示しています。
残念ながら、ダウンストリーム タスクに対して最適ではないオブジェクト エンコーディングが生成される可能性があります。
これを克服するために、オブジェクトの動きと連続性を利用することを提案します。つまり、オブジェクトが存在したり消えたりしないということです。
これは、(i) オプティカル フローの統合によるオブジェクトの位置に関する事前分布の提供、および (ii) 連続する画像フレームにわたるコントラストのあるオブジェクトの連続性の損失という 2 つのメカニズムによって実現されます。
明示的なディープ アーキテクチャを開発するのではなく、結果として得られるモーションおよびオブジェクト連続性 (MOC) スキームは、任意のベースライン オブジェクト検出モデルを使用してインスタンス化できます。
私たちの結果は、特に Atari ゲームのプレイにおいて、オブジェクト検出、収束速度、全体的な潜在オブジェクト表現の点で SOTA モデルのパフォーマンスが大幅に向上していることを示しています。
全体として、再構成のみに基づいたオブジェクト表現の学習を超えて、下流タスクでモーションとオブジェクトの連続性を統合することの明確な利点を示しています。

要約(オリジナル)

Recent unsupervised multi-object detection models have shown impressive performance improvements, largely attributed to novel architectural inductive biases. Unfortunately, they may produce suboptimal object encodings for downstream tasks. To overcome this, we propose to exploit object motion and continuity, i.e., objects do not pop in and out of existence. This is accomplished through two mechanisms: (i) providing priors on the location of objects through integration of optical flow, and (ii) a contrastive object continuity loss across consecutive image frames. Rather than developing an explicit deep architecture, the resulting Motion and Object Continuity (MOC) scheme can be instantiated using any baseline object detection model. Our results show large improvements in the performances of a SOTA model in terms of object discovery, convergence speed and overall latent object representations, particularly for playing Atari games. Overall, we show clear benefits of integrating motion and object continuity for downstream tasks, moving beyond object representation learning based only on reconstruction.

arxiv情報

著者 Quentin Delfosse,Wolfgang Stammer,Thomas Rothenbacher,Dwarak Vittal,Kristian Kersting
発行日 2024-02-21 14:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク