Slot Order Matters for Compositional Scene Understanding

要約

エージェントに環境の構成的理解を与えることは、長期的な計画の問題を解決するための有望な次のステップです。
一方では、非構造化シーンの観察からオブジェクト中心の潜在表現(「スロット」)のセットを取得するための変分推論アルゴリズムの進歩が見られました。
一方、スロットからのシーンの生成は、標準的なオブジェクトの順序がないために複雑になっていることもあり、あまり注目されていません。
正規のオブジェクト順序は、ラスタースキャン順序がピクセルレベルの自己回帰画像生成のためのピクセル相関の学習を容易にする方法と同様に、物理的にもっともらしいシーンを生成するために必要なオブジェクト相関を学習するのに役立ちます。
この作業では、単一レベルの自己回帰スロットとグローバルシーンの前にある階層型変分オートエンコーダーの固定オブジェクト順序を学習することで、この不足に対処します。
自己回帰スロット推論をシーケンスへのセットモデリング問題としてキャストします。
固定順序でオブジェクトを生成する前にスロットをトレーニングするための補助損失を導入します。
推論中に、推論されたスロットのセットを、スロットの前のロールアウトから取得されたオブジェクトの順序に合わせます。
ロールアウトされたオブジェクトが特定のシーンにとって意味のあるものになるように、入力の推測されたグローバルサマリーに基づいて事前条件を設定します。
組成環境とアブレーションに関する実験は、グローバルな事前評価、整列されたスロット順序による推論、および補助損失を備えたモデルが最先端のサンプル品質を達成することを示しています。

要約(オリジナル)

Empowering agents with a compositional understanding of their environment is a promising next step toward solving long-horizon planning problems. On the one hand, we have seen encouraging progress on variational inference algorithms for obtaining sets of object-centric latent representations (‘slots’) from unstructured scene observations. On the other hand, generating scenes from slots has received less attention, in part because it is complicated by the lack of a canonical object order. A canonical object order is useful for learning the object correlations necessary to generate physically plausible scenes similar to how raster scan order facilitates learning pixel correlations for pixel-level autoregressive image generation. In this work, we address this lack by learning a fixed object order for a hierarchical variational autoencoder with a single level of autoregressive slots and a global scene prior. We cast autoregressive slot inference as a set-to-sequence modeling problem. We introduce an auxiliary loss to train the slot prior to generate objects in a fixed order. During inference, we align a set of inferred slots to the object order obtained from a slot prior rollout. To ensure the rolled out objects are meaningful for the given scene, we condition the prior on an inferred global summary of the input. Experiments on compositional environments and ablations demonstrate that our model with global prior, inference with aligned slot order, and auxiliary loss achieves state-of-the-art sample quality.

arxiv情報

著者 Patrick Emami,Pan He,Sanjay Ranka,Anand Rangarajan
発行日 2022-06-03 02:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク