要約
3D 点群データのゼロ ショット学習は、2D 画像の対応物と比較して、関連する未調査の問題です。
3D データは、堅牢な事前トレーニング済みの特徴抽出モデルを利用できないため、ZSL に新たな課題をもたらします。
この問題に対処するために、3D データを拡張してネットワークをよりよく学習し、見えるオブジェクトと見えないオブジェクトの複雑な相互作用を調査する、迅速なガイド付き 3D シーン生成と監視方法を提案します。
まず、プロンプトで説明されている特定の方法で、2 つの 3D モデルの点群をマージします。
プロンプトは、各 3D シーンを説明する注釈のように機能します。
その後、対照的な学習を実行して、提案されたアーキテクチャをエンドツーエンドでトレーニングします。
一般的な言語モデル (BERT など) は、オブジェクトがコンテキストに表示されるときに高いパフォーマンスを達成できるため、3D シーンは単一のオブジェクトよりも効率的にオブジェクトを関連付けることができると主張します。
提案されたプロンプトガイド付きシーン生成方法は、データ拡張とプロンプトベースの注釈/キャプションをカプセル化して、3D ZSL パフォーマンスを向上させます。
合成 (ModelNet40、ModelNet10) および実際にスキャンされた (ScanOjbectNN) 3D オブジェクト データセットで、最先端の ZSL および一般化された ZSL パフォーマンスを達成しました。
要約(オリジナル)
Zero-shot learning on 3D point cloud data is a related underexplored problem compared to its 2D image counterpart. 3D data brings new challenges for ZSL due to the unavailability of robust pre-trained feature extraction models. To address this problem, we propose a prompt-guided 3D scene generation and supervision method that augments 3D data to learn the network better, exploring the complex interplay of seen and unseen objects. First, we merge point clouds of two 3D models in certain ways described by a prompt. The prompt acts like the annotation describing each 3D scene. Later, we perform contrastive learning to train our proposed architecture in an end-to-end manner. We argue that 3D scenes can relate objects more efficiently than single objects because popular language models (like BERT) can achieve high performance when objects appear in a context. Our proposed prompt-guided scene generation method encapsulates data augmentation and prompt-based annotation/captioning to improve 3D ZSL performance. We have achieved state-of-the-art ZSL and generalized ZSL performance on synthetic (ModelNet40, ModelNet10) and real-scanned (ScanOjbectNN) 3D object datasets.
arxiv情報
著者 | Majid Nasiri,Ali Cheraghian,Townim Faisal Chowdhury,Sahar Ahmadi,Morteza Saberi,Shafin Rahman |
発行日 | 2022-09-29 11:24:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google