Inductive Biases for Object-Centric Representations in the Presence of Complex Textures

要約

自然のシーンのオブジェクト中心の表現の教師なし学習に役立つ誘導バイアスを理解することは困難です。
このホワイト ペーパーでは、データセットに対する 2 つのモデルのパフォーマンスを体系的に調査します。このモデルでは、ニューラル スタイル転送を使用して、グラウンド トゥルース アノテーションを保持しながら複雑なテクスチャを持つオブジェクトを取得しました。
単一のモジュールを使用して各オブジェクトの形状と視覚的外観の両方を再構築することにより、モデルはより有用な表現を学習し、より優れたオブジェクト分離を実現することがわかりました。
さらに、セグメンテーションのパフォーマンスを向上させるには、潜在空間のサイズを調整するだけでは不十分であることがわかります。
最後に、表現の下流の有用性は、再構成の精度よりもセグメンテーションの品質と強く相関しています。

要約(オリジナル)

Understanding which inductive biases could be helpful for the unsupervised learning of object-centric representations of natural scenes is challenging. In this paper, we systematically investigate the performance of two models on datasets where neural style transfer was used to obtain objects with complex textures while still retaining ground-truth annotations. We find that by using a single module to reconstruct both the shape and visual appearance of each object, the model learns more useful representations and achieves better object separation. In addition, we observe that adjusting the latent space size is insufficient to improve segmentation performance. Finally, the downstream usefulness of the representations is significantly more strongly correlated with segmentation quality than with reconstruction accuracy.

arxiv情報

著者 Samuele Papa,Ole Winther,Andrea Dittadi
発行日 2022-08-15 09:14:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク