SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal Scene Understanding

要約

人工知能の進化する状況では、マルチモーダルおよび神経象徴パラダイムが最前線に立っており、エンティティとの識別と相互作用、および多様なモダリティにわたるそれらの関係に特に重点が置かれています。
この文脈における複雑なクエリと対話のニーズに対処するために、マルチモーダル データを処理するニューラル ネットワークとの微妙な対話を容易にするように設計された多用途のクエリ言語である SNeL (構造化神経記号言語) を紹介します。
SNeL の表現力豊かなインターフェイスにより、複雑なクエリの構築が可能になり、論理演算子、算術演算子、コンパレータ、ネストなどをサポートします。
これにより、ユーザーは特定のエンティティをターゲットにし、そのプロパティを指定し、結果を制限することができるため、シーンから効率的に情報を抽出できます。
高レベルの記号推論を低レベルのニューラル処理と連携させることにより、SNeL は神経と記号の溝を効果的に橋渡しします。
この言語の多用途性は、画像、音声、テキストなどのさまざまなデータ型に拡張されており、マルチモーダルなシーンを理解するための強力なツールとなっています。
私たちの評価は、複雑なニューラル ネットワークとの対話方法を再構築する SNeL の可能性を実証し、ターゲットを絞った情報抽出を促進し、マルチモーダル AI モデルにカプセル化された豊富なセマンティクスのより深い理解を促進する際の SNeL の有効性を強調しています。

要約(オリジナル)

In the evolving landscape of artificial intelligence, multimodal and Neuro-Symbolic paradigms stand at the forefront, with a particular emphasis on the identification and interaction with entities and their relations across diverse modalities. Addressing the need for complex querying and interaction in this context, we introduce SNeL (Structured Neuro-symbolic Language), a versatile query language designed to facilitate nuanced interactions with neural networks processing multimodal data. SNeL’s expressive interface enables the construction of intricate queries, supporting logical and arithmetic operators, comparators, nesting, and more. This allows users to target specific entities, specify their properties, and limit results, thereby efficiently extracting information from a scene. By aligning high-level symbolic reasoning with low-level neural processing, SNeL effectively bridges the Neuro-Symbolic divide. The language’s versatility extends to a variety of data types, including images, audio, and text, making it a powerful tool for multimodal scene understanding. Our evaluations demonstrate SNeL’s potential to reshape the way we interact with complex neural networks, underscoring its efficacy in driving targeted information extraction and facilitating a deeper understanding of the rich semantics encapsulated in multimodal AI models.

arxiv情報

著者 Silvan Ferreira,Allan Martins,Ivanovitch Silva
発行日 2023-06-09 17:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク