Learning Global Object-Centric Representations via Disentangled Slot Attention

要約

人間は、さまざまな環境にわたってシーンに依存しないオブジェクトの特徴を識別できるため、照明、視点、サイズ、位置などの変化する要因の中でもオブジェクトを迅速に識別し、さまざまな環境で同じオブジェクトの完全なイメージを想像することができます。
既存のオブジェクト中心の学習方法は、シーンに依存するオブジェクト中心の表現を抽出するだけであり、人間と同じようにシーン全体で同じオブジェクトを識別する機能が欠けています。
さらに、既存の方法の中には、複雑なシーンを処理するために個々のオブジェクト生成機能を破棄するものもあります。
この論文では、一連のグローバルなオブジェクト中心の表現を学習することで、シーン全体でオブジェクトを識別し、特定のオブジェクトを含む多様なシーンを生成する人間のような機能を AI システムに提供する、新しいオブジェクト中心の学習方法を紹介します。
オブジェクトのグローバルに不変な属性 (つまり、完全な外観と形状) をカプセル化するグローバル オブジェクト中心の表現を学習するために、この論文では、シーンの特徴をシーン依存の属性 (スケール、位置、形状など) に変換する Disentangled Slot Attendant モジュールを設計します。
方向)とシーンに依存しない表現(つまり、外観と形状)。
実験結果は、提案された方法の有効性を実証し、グローバルオブジェクト中心の表現学習、オブジェクト識別、特定のオブジェクトを含むシーン生成、およびシーン分解において顕著な熟練度を示しています。

要約(オリジナル)

Humans can discern scene-independent features of objects across various environments, allowing them to swiftly identify objects amidst changing factors such as lighting, perspective, size, and position and imagine the complete images of the same object in diverse settings. Existing object-centric learning methods only extract scene-dependent object-centric representations, lacking the ability to identify the same object across scenes as humans. Moreover, some existing methods discard the individual object generation capabilities to handle complex scenes. This paper introduces a novel object-centric learning method to empower AI systems with human-like capabilities to identify objects across scenes and generate diverse scenes containing specific objects by learning a set of global object-centric representations. To learn the global object-centric representations that encapsulate globally invariant attributes of objects (i.e., the complete appearance and shape), this paper designs a Disentangled Slot Attention module to convert the scene features into scene-dependent attributes (such as scale, position and orientation) and scene-independent representations (i.e., appearance and shape). Experimental results substantiate the efficacy of the proposed method, demonstrating remarkable proficiency in global object-centric representation learning, object identification, scene generation with specific objects and scene decomposition.

arxiv情報

著者 Tonglin Chen,Yinxuan Huang,Zhimeng Shen,Jinghao Huang,Bin Li,Xiangyang Xue
発行日 2024-10-24 14:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク