要約
高レベルの認知の鍵は、知識の断片を体系的に操作して構成する能力であると考えられています。
トークンのような構造化された知識表現はテキストで自然に提供されますが、シーン画像などの非構造化モダリティに対してそれらを取得する方法はわかりにくいです。
この論文では、Block-Slot Representation と呼ばれる新しい構造化表現を構築するための Neural Systematic Binder または SysBinder と呼ばれるニューラル メカニズムを提案します。
ブロックスロット表現では、系統的な一般化を容易にするために、ブロックと呼ばれる一連の独立した因子表現を構成することによって、スロットとして知られるオブジェクト中心の表現が構築されます。
SysBinder は、2 つの異なるバインディング原則を交互に適用することにより、教師なしの方法でこの構造を取得します。シーン全体にわたる空間モジュール性のための空間バインディングと、オブジェクト内の要素モジュール性のための要素バインディングです。
SysBinder は、任意のニューラル ネットワークおよび任意のモダリティにドロップイン モジュールとして適用できる、シンプルで決定論的な汎用レイヤーです。
実験では、SysBinder がスロット内で従来のオブジェクト中心の方法よりも大幅に優れた要素のもつれを解くことがわかりました。これには、CLEVR-Tex などの視覚的に複雑なシーン画像が初めて含まれます。
さらに、目に見えない要因の組み合わせをデコードすることにより、制御されたシーン生成における要因レベルの体系性を示します。
要約(オリジナル)
The key to high-level cognition is believed to be the ability to systematically manipulate and compose knowledge pieces. While token-like structured knowledge representations are naturally provided in text, it is elusive how to obtain them for unstructured modalities such as scene images. In this paper, we propose a neural mechanism called Neural Systematic Binder or SysBinder for constructing a novel structured representation called Block-Slot Representation. In Block-Slot Representation, object-centric representations known as slots are constructed by composing a set of independent factor representations called blocks, to facilitate systematic generalization. SysBinder obtains this structure in an unsupervised way by alternatingly applying two different binding principles: spatial binding for spatial modularity across the full scene and factor binding for factor modularity within an object. SysBinder is a simple, deterministic, and general-purpose layer that can be applied as a drop-in module in any arbitrary neural network and on any modality. In experiments, we find that SysBinder provides significantly better factor disentanglement within the slots than the conventional object-centric methods, including, for the first time, in visually complex scene images such as CLEVR-Tex. Furthermore, we demonstrate factor-level systematicity in controlled scene generation by decoding unseen factor combinations.
arxiv情報
著者 | Gautam Singh,Yeongbin Kim,Sungjin Ahn |
発行日 | 2023-01-12 16:36:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google