要約
物体中心表現学習の背後にある考え方は、分散表現とは対照的に、自然の情景は物体とその関係の構成としてよりよくモデル化できるというものである。この帰納的バイアスをニューラルネットワークに注入することで、複数のオブジェクトが存在するシーンにおける下流タスクの系統的な汎化および性能を向上させることができる可能性がある。本論文では、5つの一般的なマルチオブジェクトデータセットを用いて、最新の教師無しモデルを学習し、セグメンテーションメトリクスとダウンストリームオブジェクト特性予測を評価する。さらに、1つのオブジェクトが分布から外れている場合(例:見たことのない色、テクスチャ、形状を持つ)、またはシーンのグローバルな特性が変化している場合(例:オクルージョン、トリミング、オブジェクト数の増加など)を調査し、一般化と頑健性を研究する。我々の実験から、物体中心表現は下流のタスクに有用であり、物体に影響を与えるほとんどの分布シフトに対して一般に頑健であることがわかった。しかし、分布シフトがあまり構造化されていない入力に影響を与える場合、セグメンテーションと下流タスクのパフォーマンスに関する頑健性は、モデルや分布シフトによって大きく異なる可能性がある。
要約(オリジナル)
The idea behind object-centric representation learning is that natural scenes can better be modeled as compositions of objects and their relations as opposed to distributed representations. This inductive bias can be injected into neural networks to potentially improve systematic generalization and performance of downstream tasks in scenes with multiple objects. In this paper, we train state-of-the-art unsupervised models on five common multi-object datasets and evaluate segmentation metrics and downstream object property prediction. In addition, we study generalization and robustness by investigating the settings where either a single object is out of distribution — e.g., having an unseen color, texture, or shape — or global properties of the scene are altered — e.g., by occlusions, cropping, or increasing the number of objects. From our experimental study, we find object-centric representations to be useful for downstream tasks and generally robust to most distribution shifts affecting objects. However, when the distribution shift affects the input in a less structured manner, robustness in terms of segmentation and downstream task performance may vary significantly across models and distribution shifts.
arxiv情報
著者 | Andrea Dittadi,Samuele Papa,Michele De Vita,Bernhard Schölkopf,Ole Winther,Francesco Locatello |
発行日 | 2022-06-09 16:34:33+00:00 |
arxivサイト | arxiv_id(pdf) |