要約
オブジェクト中心の学習(OCL)は、シーン内の他のオブジェクトまたは背景キューから分離されたオブジェクトのみをコードする表現を学習しようとしています。
このアプローチは、分散分布(OOD)一般化、サンプル効率の高い組成、構造化環境のモデリングなど、さまざまな目的を支えています。
ほとんどの研究は、監視されていないオブジェクトの発見を使用して評価された表現空間の個別のスロットにオブジェクトを分離する監視されていないメカニズムの開発に焦点を当てています。
ただし、最近のサンプル効率の高いセグメンテーションモデルを使用すると、ピクセル空間内のオブジェクトを分離して独立してエンコードできます。
これにより、OODオブジェクトのディスカバリーベンチマークで驚くべきゼロショットパフォーマンスが実現され、ファンデーションモデルにスケーラブルであり、すぐに使用できるスロットを扱うことができます。
したがって、オブジェクト中心の表現を取得するためのOCLメソッドの目標は、主に達成されています。
この進歩にもかかわらず、重要な疑問が残ります。シーン内でオブジェクトを分離する能力は、OOD一般化などのより広範なOCLの目標にどのように貢献しますか?
これに対処し、OCLのレンズを介したスプリアスな背景キューによって引き起こされるOOD一般化課題を調査します。
$ \ textbf {applied masks(occam)} $を使用した$ \ textbf {オブジェクト中心の分類と呼ばれる新しいトレーニングのないプローブを提案し、個々のオブジェクトのセグメンテーションベースのエンコーディングがスロットベースのOCLメソッドを大幅に上回ることを示しています。
ただし、実際のアプリケーションの課題は残っています。
OCLコミュニティがスケーラブルなオブジェクト中心の表現を使用するためのツールボックスを提供し、実用的なアプリケーションと、人間の認知におけるオブジェクトの知覚を理解するなどの基本的な質問に焦点を当てます。
私たちのコードは$ \ href {https://github.com/alexanderrubinstein/occam} {here} $を利用できます。
要約(オリジナル)
Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called $\textbf{Object-Centric Classification with Applied Masks (OCCAM)}$, demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available $\href{https://github.com/AlexanderRubinstein/OCCAM}{here}$.
arxiv情報
著者 | Alexander Rubinstein,Ameya Prabhu,Matthias Bethge,Seong Joon Oh |
発行日 | 2025-04-09 17:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google