要約
このホワイトペーパーでは、RGBD画像を確認し、ペアの質問と回答について推論することで、3D概念の接地(つまり、視覚的概念のセグメント化と学習)の困難な問題に対処します。
既存の視覚的推論アプローチは、通常、教師あり手法を利用して、概念の基礎となる2Dセグメンテーションマスクを抽出します。
対照的に、人間は、画像の基礎となる3D表現に概念を根付かせることができます。
ただし、従来の方法で推測された3D表現(点群、ボクセルグリッド、メッシュなど)は、連続した3Dフィーチャを柔軟にキャプチャできないため、参照されているオブジェクトの言語記述に基づいて概念を3D領域に固定することは困難です。
両方の問題に対処するために、ニューラルフィールドの継続的で微分可能な性質を活用して、概念をセグメント化して学習することを提案します。
具体的には、シーン内の各3D座標は、高次元記述子として表されます。
次に、3D座標の記述子ベクトルと言語概念のベクトル埋め込みとの類似性を計算することにより、概念の接地を実行できます。これにより、セグメンテーションと概念学習を神経分野で差別化可能な方法で共同学習できます。
その結果、3Dセマンティックとインスタンスの両方のセグメンテーションは、ニューラルフィールドの上に定義されたニューラル演算子のセット(フィルタリングやカウントなど)を使用して、質問応答の監視から直接出現する可能性があります。
実験結果は、提案されたフレームワークが、セマンティックおよびインスタンスのセグメンテーションタスクで教師なし/言語を介したセグメンテーションモデルよりも優れていること、および挑戦的な3D対応の視覚的推論タスクで既存のモデルよりも優れていることを示しています。
さらに、私たちのフレームワークは、目に見えない形状カテゴリと実際のスキャンにうまく一般化できます。
要約(オリジナル)
In this paper, we address the challenging problem of 3D concept grounding (i.e. segmenting and learning visual concepts) by looking at RGBD images and reasoning about paired questions and answers. Existing visual reasoning approaches typically utilize supervised methods to extract 2D segmentation masks on which concepts are grounded. In contrast, humans are capable of grounding concepts on the underlying 3D representation of images. However, traditionally inferred 3D representations (e.g., point clouds, voxelgrids, and meshes) cannot capture continuous 3D features flexibly, thus making it challenging to ground concepts to 3D regions based on the language description of the object being referred to. To address both issues, we propose to leverage the continuous, differentiable nature of neural fields to segment and learn concepts. Specifically, each 3D coordinate in a scene is represented as a high-dimensional descriptor. Concept grounding can then be performed by computing the similarity between the descriptor vector of a 3D coordinate and the vector embedding of a language concept, which enables segmentations and concept learning to be jointly learned on neural fields in a differentiable fashion. As a result, both 3D semantic and instance segmentations can emerge directly from question answering supervision using a set of defined neural operators on top of neural fields (e.g., filtering and counting). Experimental results show that our proposed framework outperforms unsupervised/language-mediated segmentation models on semantic and instance segmentation tasks, as well as outperforms existing models on the challenging 3D aware visual reasoning tasks. Furthermore, our framework can generalize well to unseen shape categories and real scans.
arxiv情報
著者 | Yining Hong,Yilun Du,Chunru Lin,Joshua B. Tenenbaum,Chuang Gan |
発行日 | 2022-07-13 17:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google