ESP-Zero: Unsupervised enhancement of zero-shot classification for Extremely Sparse Point cloud

要約

近年、ゼロショット学習は、その柔軟性と汎用性により、多くの研究者の注目を集めています。
CLIP のスキーマに従って、3D オブジェクトを理解するために点群のゼロショット分類を達成するために、多くのアプローチが提案されています。
ただし、現実の世界では、点群が非常にまばらになり、3D 点群エンコーダの有効性が大幅に制限され、その結果、点群の特徴とテキストの埋め込みの位置がずれる可能性があります。
点群エンコーダが、時間とコストがかかる事前トレーニング手順を再実行することなく、非常にまばらな点群に適合できるように、この作業では、点群エンコーダを強化する教師なしモデル適応アプローチを提案します。
まばらな点群。
我々は、学習可能なトークンとアテンション ブロックを追加して事前トレーニングされたセルフ アテンション レイヤーを拡張する、新しい融合クロス アテンション レイヤーを提案します。これにより、点群の特徴とテキスト埋め込みの間の整合性を維持しながら、点群の特徴を効果的に変更できます。
また、観察されたテキスト埋め込みに特徴空間を過剰適合させることなく、変更された特徴を無関係なテキスト埋め込みから引き離すことを促進する、補完的な学習ベースの自己蒸留スキーマも提案します。
広範な実験により、提案されたアプローチが非常にまばらな点群でのゼロショット能力を効果的に高め、他の最先端のモデル適応アプローチを圧倒することが実証されました。

要約(オリジナル)

In recent years, zero-shot learning has attracted the focus of many researchers, due to its flexibility and generality. Many approaches have been proposed to achieve the zero-shot classification of the point clouds for 3D object understanding, following the schema of CLIP. However, in the real world, the point clouds could be extremely sparse, dramatically limiting the effectiveness of the 3D point cloud encoders, and resulting in the misalignment of point cloud features and text embeddings. To the point cloud encoders to fit the extremely sparse point clouds without re-running the pre-training procedure which could be time-consuming and expensive, in this work, we propose an unsupervised model adaptation approach to enhance the point cloud encoder for the extremely sparse point clouds. We propose a novel fused-cross attention layer that expands the pre-trained self-attention layer with additional learnable tokens and attention blocks, which effectively modifies the point cloud features while maintaining the alignment between point cloud features and text embeddings. We also propose a complementary learning-based self-distillation schema that encourages the modified features to be pulled apart from the irrelevant text embeddings without overfitting the feature space to the observed text embeddings. Extensive experiments demonstrate that the proposed approach effectively increases the zero-shot capability on extremely sparse point clouds, and overwhelms other state-of-the-art model adaptation approaches.

arxiv情報

著者 Jiayi Han,Zidi Cao,Weibo Zheng,Xiangguo Zhou,Xiangjian He,Yuanfang Zhang,Daisen Wei
発行日 2024-04-30 15:42:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク