NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations

要約

3D シーンでオブジェクトのプロパティと関係をグラウンディングすることは、視覚的にグラウンディングされた対話や具現化された操作など、さまざまな人工知能タスクの前提条件です。
ただし、3D ドメインの可変性により、2 つの基本的な課題が生じます。1) ラベル付けの費用と 2) 3D に基づく言語の複雑さです。
したがって、モデルに不可欠な要件は、データ効率が高く、目に見えない意味形式を持つさまざまなデータ分布とタスクに一般化すること、および複雑な言語の意味論 (視点の固定や複数オブジェクトの参照など) を理解することです。
これらの課題に対処するために、3DグラウンディングのためのニューロシンボリックフレームワークであるNS3Dを提案します。
NS3D は、大規模な言語からコードへのモデルを活用して、言語を階層構造を持つプログラムに変換します。
プログラム内のさまざまな機能モジュールは、ニューラル ネットワークとして実装されます。
特に、NS3D は、複雑な 3D シーン内のオブジェクトのあいまいさを解消する鍵となる高アリティ関係 (つまり、3 つ以上のオブジェクト間の関係) について効果的に推論する機能モジュールを導入することにより、以前のニューロシンボリックな視覚的推論方法を拡張します。
モジュラーおよび構成アーキテクチャにより、NS3D は、ReferIt3D ビュー依存タスク (3D 参照式理解ベンチマーク) で最先端の結果を達成できます。
重要なことに、NS3D はデータ効率と一般化の設定で大幅に改善されたパフォーマンスを示し、目に見えない 3D 質問応答タスクへのゼロショット転送を示しています。

要約(オリジナル)

Grounding object properties and relations in 3D scenes is a prerequisite for a wide range of artificial intelligence tasks, such as visually grounded dialogues and embodied manipulation. However, the variability of the 3D domain induces two fundamental challenges: 1) the expense of labeling and 2) the complexity of 3D grounded language. Hence, essential desiderata for models are to be data-efficient, generalize to different data distributions and tasks with unseen semantic forms, as well as ground complex language semantics (e.g., view-point anchoring and multi-object reference). To address these challenges, we propose NS3D, a neuro-symbolic framework for 3D grounding. NS3D translates language into programs with hierarchical structures by leveraging large language-to-code models. Different functional modules in the programs are implemented as neural networks. Notably, NS3D extends prior neuro-symbolic visual reasoning methods by introducing functional modules that effectively reason about high-arity relations (i.e., relations among more than two objects), key in disambiguating objects in complex 3D scenes. Modular and compositional architecture enables NS3D to achieve state-of-the-art results on the ReferIt3D view-dependence task, a 3D referring expression comprehension benchmark. Importantly, NS3D shows significantly improved performance on settings of data-efficiency and generalization, and demonstrate zero-shot transfer to an unseen 3D question-answering task.

arxiv情報

著者 Joy Hsu,Jiayuan Mao,Jiajun Wu
発行日 2023-03-23 17:50:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク