Neurosymbolic Grounding for Compositional World Models

要約

Cosmos は、合成一般化 (CompGen)、つまり、既知の視覚的な「アトム」の合成を通じて得られる目に見えない入力シーンでの高いパフォーマンスを実現するために設計された、オブジェクト中心の世界モデリングのフレームワークです。
Cosmos の背後にある中心的な洞察は、新しい形式の神経象徴的グラウンディングの使用です。
具体的には、このフレームワークでは 2 つの新しいツールが導入されています。(i) ニューラル エンコーダを使用して計算された実ベクトルと、エンティティの属性を記述する構成可能なシンボルのベクトルを使用して、シーン内の各エンティティを表すニューロシンボリック シーン エンコーディング。(ii)
)これらの実体を学習した相互作用ルールに結び付ける神経象徴的な注意メカニズム。
Cosmos はエンドツーエンドで微分可能です。
また、表現を手動でシンボルにマッピングする必要がある従来の神経象徴的手法とは異なり、視覚言語基盤モデルを使用してエンティティの象徴的属性を計算します。
確立されたブロックプッシュ ドメイン上で 2 つの異なる形式の CompGen を考慮した評価を通じて、このフレームワークがワールド モデリングにおける CompGen の新しい最先端技術を確立することを示します。
アーティファクトは https://trishullab.github.io/cosmos-web/ から入手できます。

要約(オリジナル)

We introduce Cosmos, a framework for object-centric world modeling that is designed for compositional generalization (CompGen), i.e., high performance on unseen input scenes obtained through the composition of known visual ‘atoms.’ The central insight behind Cosmos is the use of a novel form of neurosymbolic grounding. Specifically, the framework introduces two new tools: (i) neurosymbolic scene encodings, which represent each entity in a scene using a real vector computed using a neural encoder, as well as a vector of composable symbols describing attributes of the entity, and (ii) a neurosymbolic attention mechanism that binds these entities to learned rules of interaction. Cosmos is end-to-end differentiable; also, unlike traditional neurosymbolic methods that require representations to be manually mapped to symbols, it computes an entity’s symbolic attributes using vision-language foundation models. Through an evaluation that considers two different forms of CompGen on an established blocks-pushing domain, we show that the framework establishes a new state-of-the-art for CompGen in world modeling. Artifacts are available at: https://trishullab.github.io/cosmos-web/

arxiv情報

著者 Atharva Sehgal,Arya Grayeli,Jennifer J. Sun,Swarat Chaudhuri
発行日 2024-05-10 09:54:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク